前言
蛋白质结构预测是获得蛋白质功能结构和构象的过程,近半个世纪以来,这一问题一直被誉为“21世纪的生物物理学”最重要的课题之一。
在过去,因蛋白质构象数量巨大,计算过程复杂,通过AI来对蛋白质结构进行预测一直未能取得实质性突破,获取蛋白质空间结构的方法仍然以冷冻电镜、X-ray等实验技术为主,单个蛋白质的观测成本高达数月及数百万人民币。
直至AlphaFold 2的出现,使得这一问题迎来新的曙光。AlphaFold 2凭借其接近实验精度的成绩取得CASP14蛋白质空间结构预测比赛的榜首,这一成就也被Nature誉为“前所未有的进步”。
2021年7月DeepMind团队宣布对AlphaFold 2的推理源代码进行开源,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤课题组第一时间对其进行了复现及优化,并于同年11月开源了基于昇思MindSpore的推理工具,效率同比提升2-3倍。
日前,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组,在全场景AI框架昇思MindSpore上推出全流程蛋白质结构预测工具MEGA-Protein。
01
AlphaFold 2的缺陷
为了满足预测精度,AlphaFold 2必须引入多序列比对的信息。MSA的数量决定了AlphaFold 2的预测精度,因此AlphaFold 2有着自己的缺陷:
1、自然界中的「孤儿序列」以及人造序列存在着缺少MSA或没有MSA的情况,导致AlphaFold 2等模型对相关的结构预测准确度大幅下降。
2、AlphaFold 2等标准检索 MSA 流程,数据库规模大,搜索时间长,不利于展开研究。
02
AI MSA引擎
昇思MindSpore社区与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组新提出的AI MSA引擎具有如下几个优势:
1、对于原始MSA质量不高或者数量少的蛋白,将AI MSA引擎接入AlphaFold 2后可以明显改善结构预测的质量。
2、端到端推理性能大幅提升,训练完成的AI MSA引擎不需要额外配置数据库。
3、AI MSA引擎是一种对下游结构模型普适的预训练方案,可直接接入下游结构预测模型。
03
昇思MindSpore AI框架
AI MSA引擎训练参数量,数据量巨大,训练要求高,昇思MindSpore AI框架充分发挥以下优势,支撑完成AI MSA引擎的训练。
1、昇思MindSpore在昇腾AI基础软硬件平台上与昇腾CANN深度结合,通过深度协同优化的高性能算子库,充分释放硬件的算力。
2、昇思MindSpore采用了多段并行流水线的方式来构建数据处理pipeline,大幅提高了数据处理过程的吞吐量。
3、昇思MindSpore支持大集群高效训练,实现了优质的计算通信比,通过三层AI分布式编程范式,大幅提升分布式并行程序开发效率。
04
全流程蛋白质结构预测工具
MEGA-Protein
MEGA-Protein包含AI MSA引擎、蛋白质折叠训练推理流程、蛋白质结构打分、蛋白质结构预测数据集PSP等关键技术,能够高精度高性能地预测蛋白质结构和功能,其中AI MSA引擎能够在MSA少样本甚至零样本的情况下,帮助AlphaFold 2等模型维持甚至提高推理精度,有效突破了AlphaFold 2的缺陷。
这是在实现AlphaFold 2从训练到推理全流程打通且效率同比提升2至3倍后,取得的又一次成功。
MSG企业行暨杭州开发者日
4月27日,昇思MindSpore社区联合知名开发者社区DataFun举办【MSG企业行暨杭州开发者日】,下午MindSpore SPONGE专场,邀请华为专家亲临分享AI+生命科学的融合创新方法,并带领大家上手体验MindSpore SPONGE。
上午还有MSG企业行专场,多位浙江省AI领域知名企业代表现场参会,围绕智慧医疗、工业运维、智慧金融、语音识别等话题,直击企业智能化转型升级诉求。
此外,活动现场还有互动及问卷抽奖,精美礼物等你拿。4月27日,MSG企业行暨杭州开发者日,欢迎你的到来,我们不见不散!


财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有