百度生物计算平台螺旋桨负责人：预训练技术在生物计算中的新应用_

日前，由中国首家生物计算技术驱动的生命科学公司百图生科，与致力于 IT 和 BT 交叉融合的创新孵化中心播禾创新共同主办的 “首届中国生物计算大会” 刚刚落下了帷幕。

会上，围绕 “BT&IT” 主题，产学研资各领域专家各显神通，从不同角度探讨生物计算的定义、边界以及 AI 对于生物数据的意义等话题。

在生物计算与新算法分论坛，百度自然语言处理部技术总监、螺旋桨 PaddleHelix 生物计算平台负责人何径舟带来了题为《大规模预训练技术与药物研发》的演讲。

他从 AI 研发者视角，与大家分享了一些百度在生物计算体系上所做的思考，包括如何看待 AI 在生物医药中存在的机遇和挑战，以及 AI 领域的前沿进展，以及基于这些进展如何助力生物医药领域。

以下为演讲实录，生辉进行了未改变原意的修改：

生物医药行业的新发展和新机遇

首先，我想站在 AI 从业人员的角度，谈一谈我们是如何看待生物医药行业所面临的新发展和新机遇。

全球生物医药规模持续增长，但是医药研发的效率不断下降，研发一款新药投入的成本和时间越来越呈指数级的增长。这也是为什么整个行业都在寻找一种可以解决这些问题的技术。

我国作为第二大医药市场，研发投入远低于欧美，研发投入占比不足。然后 2015 年开始，国家一系列的政策，2018 年包括香港港交所开放了金融机会，让没有营收的药企去上市，以及医保扩容，所有这些因素提高了我们对创新药和生物医药技术探索的积极性。所以，大家开始越来越重视 AI 技术了。

（来源：Sina）

AI 在很多的环节中均已证明其有较高的价值，特别是在药物发现和临床前研究中，包括靶点发现、化合物合成等，这些领域证实了 AI 可以带来很多的价值。但是从 AI 的角度来看，这些探索都还是处于早期的阶段，还有大量算法、算力问题有待解决。

百度在这方面投入了大量的精力，去年底我们开发了螺旋桨 PaddleHelix—— 生物计算开源工具集。该平台融合了百度多年在 AI 算力和算法的积累，为用户提出一整套的解决方案，为药企、合作伙伴、对生物医药感兴趣的同仁提供了在药物研发、疫苗设计和精准医疗方面能力的整合。

预训练技术的发展

下面，我讲一讲预计算、作用以及它的价值。

预训练技术是一个非常新的概念，从诞生至今可能才七八年，但预训练技为 AI 应用极大提升了场景效果，可以说这是一次革命性的技术变革。

预训练的概念是在自然语言领域中使用起来的，通过大规模数据形成神经网络参数然后形成超大的神经网络，这是预训练的模型。针对不同的领域，加上预训练模型进行微调，使得效果超出原有领域定义的模型。

这与人的成长非常类似，早期我们接受通识教育，不会区分具体的学科和领域，而是接触语文、数学基本能力的提升，积累尝试和学习的能力，然后再进行具体专业（生物学、金融学、医药）等专业学习，相当于专业技能的提升过程。预训练就是这样一个过程，可以分成通识学习和专业领域的阶段，以此达到更好的效果。

（来源：infoq）

预训练的优势之一是利用无标注的数据，解决 AI 数据壁垒问题。通过机器学习，分成数据预训练和精调的阶段，并且在不同领域之间做快速地迁移，大幅提升 AI 生产效率、降低 AI 生产门槛。

预训练模型在很多领域取得了较大的进展和突破，特别是在自然语言处理领域。在没有预训练模型前，效果不理想。但是，加入了预训练通用的语言理解数据集和 GPT 模型后，不管是 W/O 还是 BERT 的模型都超出了原有水准。还有源计算、翻译等，预训练都提高了层次。

除了自然语言处理，预训练也向语音、多模态进行拓展，包括跨模态理解。当然预训练不是学术研究的进展，而是在很多场景上落地，比如说搜索引擎，翻译、语音助手等。

回顾整个预训练发展过程，最早是从自然语言处理来提出的。实际上 2015 年在 ResNet 上就提出了预训练的机制，而 2018 年提出了各种预训练的技术，比如 ELMo，到 2019 年提出 BERT，然后 ERNIE 和飞桨，然后 2020 年提出 GPT，几乎推进到了实用阶段。

最近这段时间，整个预训练所呈现的趋势是超大规模的模型，千亿级别甚至是万亿级别的规模不断地被训练出来，多模态的场景、联合实验场景等。

预训练技术在生物计算中的应用

今天我们讲的生物计算，其中生物数据可以通过预训练的技术提升数据整合能力。

生物计算中如何利用预训练？

刚开始我们提到其最大优势是大量的无标注数据。通过研究和积累中也发现，其实生物计算中，我们能够拿到的高质量数据有限。以成交性预测，或者蛋白质和靶点结合和深度数据包检测的数据来看，最多就是几千和十几万的规模，这些数据规模远远达不到成熟利用 AI 的领域。

但是，在已发现的蛋白质和化合物的数据规模还是非常大的，都达到了上亿级别，所以这启发了我们通过预训练的技术，将无标注的数据集合起来。通过自监督、多任务训练把这些数据利用起来，使得我们充分利用 AI 在药物研发和药物设计领域发挥作用。

做预训练时需要解决的是处理对象的问题，从最常见的化合物、蛋白质、组学数据、基因学和表型等都是可以作为处理对象的。有一些可以通过 AI 现有的方法直接做迁移，比如说蛋白质和化合物，常见的是通过化学式和蛋白质多肽序列建模。

同时，还有一些问题无法通过最简单的结构进行表示，需要用到空间结构和 3D 结构更高维度的建模。

然后，还要进行预训练任务的建模，比如通过常规的 AI 方法迁移过来。化合物和空间结构信息在后续更复杂和更实用的处理中必不可少。因此，螺旋桨提出了 3D 结构任务，比如说键角预测、键长预测和空间距离的预测，还采用了多任务融合，来增强建模的效果。

（来源：baidu）

蛋白质的训练需要深入思考和深度研究。我们将蛋白质的空间结构信息引入建模结构中，我们提出基于 Contact map Prediction（空间构象预测），加强蛋白质建模的效果。

做到了这些模型的建模，下一步就是到了应用。比如说，药物 - 靶标相互作用（DTI）的预测，将化合物和蛋白质的表示输入双塔预测模型，直接做化合物和蛋白质的预测，同时我们将分子指纹等化合物的信息去做 ADMET 的预测，也达到了一定效果。

成果和展望

从预训练技术来看，不管是做生物计算还是 AI 落地都还处于早期的阶段。我刚才提到随着算法和算力的不断演进，仍然有很大的研究空间。

但是，也要认识到这项工作仍然道阻且长，还有很多技术难点需要研究和攻克。

第一，对于各种连续性的建模和预测；

第二，和自然语言处理的领域不同，在生物计算领域，要解决很多联系的问题，这个联系分内和外，一种是内部的层次，像很多的蛋白质、化合物，RNA、DNA 和生物表征、基因型、表征型，都是解决原子、氨基酸和氨基酸，碱基和碱基之间的关系，这种关系的刻画还不够，需要更多的信息对它们深入理解。

另一种是外部联系，对于单独的蛋白质和化合物的建模，我们更要解决的是蛋白质和化合物，以及生物表征之间更多的联系，包括能否通过跨外部联系建模，这是预训练的难点；

第三，充分利用信息，我们很多人会有先入为主的认识，觉得 AI 进入会大杀四方。其实，任何领域的研究都是循序渐进的过程，就像我提到引入键长、键角和空间信息，也是学习了很多生物信息领域知识以后才得到的教训和经验。

头条号入驻

麻省理工科技评论源自麻省理工学院，关注即将商业化的创新，聚焦即将资本化的创业。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

百度生物计算平台螺旋桨负责人：预训练技术在生物计算中的新应用

头条号入驻

OpenAI奥特曼押注太阳能以驱动AI发展，向Exowatt联合投资2000万美元

科学家提出RAR新方法，增加大模型细粒度识别力，可用于电商识图等领域

英国AI独角兽Synthesia研发虚拟化身，能通过视频开展新员工培训

财经自媒体联盟更多自媒体作者

热文排行榜