北大前沿交叉学科研究院裴剑锋:AlphaFold 3对药物设计的新启示 | 嘉程创业流水席218席精彩回顾
06.13.2024 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席

AlphaFold 3公布的版本对药物设计领域产生了新的启示,但AI制药离系统落地还有很长的路要走。

近日,嘉程创业流水席第218席【AI for science:探讨AlphaFold 3的创新和趋势】,邀请了北京大学前沿交叉学科研究院研究员裴剑锋分享,主题是《探讨AlphaFold 3对药物设计的影响》。

以下是正文内容:

2024年4月底,AlphaFold 3正式上线。AlphaFold 3主要解决的问题是预测分子间的相互作用结构,这是在药物研发中重要的一环。

大多数药物分子通过与靶点的相互作用产生药效,这涉及至少两个分子的相互作用。预测这些分子之间的相互作用,特别是它们的相互作用结构,称为“docking”,是非常重要的。此外,预测结合自由能和亲和力也是必要的,因为它们可以帮助区分真结合分子和假结合分子,这对药物研发具有重要意义。

预测单个蛋白质只需要一个大的分子变量,但预测两个或更多蛋白质需要考虑多个分子变量,用数据拟合两个变量体系比拟合一个变量体系需要的数据量大很多,大概是平方的关系。由于数据稀缺,而且需要更多数据来拟合更复杂的模型,这是非常困难的。DeepMind前CEO曾表示,AI在药物研发上取得突破前需要至少六次与AlphaFold 2相当的突破。尽管AlphaFold 3有许多创新点,但还不算是一次革命性突破。

AlphaFold 3的技术革新

与AlphaFold 2相比,AlphaFold 3的开发包括了Conformer生成,降低了多序列比对MSA共进化信息的重要性。Pairformer取代了原来的Evoformer,并在结构重构中采用了Diffusion模型,这是当前分子对接和生成领域常用的工具。

相对于AF2的输入,AF3的输入变得更多。

AF3的Diffusion模型的特点是它没有使用我们常见的SE(3)等变模型。其Diffusion模型使用了一种多个随机坐标训练的方法,如果这条路真的有效,可能会引起大家在Diffusion模型上方法的改变。

标准Diffusion模型我们现在用得比较多。在训练过程中逐渐增加噪声,并在生成时反过来去除噪声,生成出蛋白质结构。

AlphaFold 3的局限性与挑战

AlphaFold 3计算结果。小分子使用2019年结构进行训练,2019年之后的数据进行测试题。AF3针对PoseBuster第一个版本的正确率为76.4%,这是通过输入两个分子的序列重建它们相互作用的结构,这种Blind Docking或者Co-folding达到了76.4%的准确性。此外,它还做了确定口袋位置对接,号称达到了90.2%的正确率。

在传统的蛋白质和小分子复合物结构预测中,AutoDock是一种学术界中最常用的对接方法。在小分子对接中,超过40%的文献使用AutoDock。AlphaFold 3的正确率为76.4%,而AutoDock大约为50%,这表明AlphaFold 3相比传统方法提升了约25%的绝对值,从结果看是一个很好的提升。

在指定口袋位置时,AlphaFold 3达到了百分之九十多的精确度,而Vina则只达到了百分之五十多。对新版本的PoseBuster数据,用Vina做的正确率是60%,AlphaFold 3做正确率是80%。

然而有些数据可能值得商榷。例如,在确定口袋位置时,AF3使用了配体延伸6Å作为口袋大小。与之相比,AutoDock Vina使用了更大的25Åx25Åx25Å的口袋。在一个巨大的搜索空间中相比在较小的空间中寻找答案,难度不是一个级别,因此这个比较非常不公平。6Å是一个非常小的口袋,而25Å则大很多,所以我们暂时不能认为AF3这个结果是特别可靠的结果。

其他基于深度学习的蛋白质小分子对接方法,如Uni-Mol,在6Å口袋大小下能达到68%的精度,但当口袋大小增加到8Å时,精度下降到22%。这表明深度学习对接方法中口袋定义的大小至关重要。为了追求更好的结果,将口袋大小缩小到6Å,可能不是一个好的科学态度。

关于打分函数的设计,它基于经验方程,考虑了两个结构的置信度,包括disorder和clash,这两个参数的系数是人为设计的,在以前DeepMind的研究中不常见,这种人为设置系数的方法应该是遇到了难题而暂时采用的,也是一种无奈的体现。

分子相互作用是一个动态过程,目前对接方法只能预期最终状态,但在这个过程中会丢失大量信息。传统对接方法分为两个步骤:采样和计算结合自由能打分(scoring),然后选择能量最低的构象作为最可能的真实构象。这种传统方法的准确性一般在40%到90之间%,具体取决于不同的测试结果、方法和体系。例如,在计算结合自由能时,现在可以使用机器学习皮尔森相关系数来计算出0.85,这已经比之前更好了。

然而,在实际的分子对接中,最关键的不是这个对接,而是筛选(screening)过程。假设在100万个分子,其中只有10个是真正有效的结合分子,剩下的分子都不适合。对接目标是将这10个有效分子排在前面,以最高分标记,其他分子则应该得到相对较低的分数,以便正确识别和挑选出真结合的分子。

药物分子研发中的分子优化过程也很重要。在获得先导分子之后,离成药还有相当距离,还需要进行改进,在活性优化过程中打分函数的排序能力也非常重要。这涉及同系列衍生物的ranking问题。

目前docking、scoring、screening、ranking这四个问题都是独立的,目前还很难统一到一起。之前大多数研究者都只关注了scoring方法,认为如果scoring准确性能够提高,那么其他三个方面也会相应地改善,然而实际上并非如此。目前,AlphaFold3只展示了docking power,而其他三个方向尚未展示,尤其是screening power。

对于药物开发人员来说,更关注对接的screening power等能力。这是因为药物开发类似于在大海中捞针——必须从分子库中找到真正有用的分子。

例如使用CLIP这种对比学习方法可能会有效,比如清华大学发展的DrugCLIP方法。

AutoDock-Vina是一个常用的对接方法,在实际测试中,它也对大多数的靶点显示效果为0,完全无效。在药物设计过程中,我们经常遇到这样的情况,一个方法可能在某个例子中表现出色,但在其他情况下则完全不起作用。

药物设计领域的AI应用案例

AlphaFold提供了一种只基于序列信息进行对接的方法,这对于预测靶点或小分子相互作用地点非常有帮助。目前,AlphaFold的服务器不支持上传小分子,暂时用不了。

AlphaFold 3可以生成三元复合物体系。这种情况下可以用来做分子胶设计,分子胶是一种小分子,它可以将两个蛋白质连接在一起,形成一个复合物。这种技术以前很难有程序能做或者做得好,但现在可以通过AlphaFold 3来尝试。

图片是英飞智药的尝试,AlphaFold 3服务器不能输入小分子,他们想了一个方法,用GPT-4生成小分子的模拟肽,并将其与两个蛋白质的序列同时输入到AlphaFold 3服务器中,预测三元复合物的结构。

这是一个例子,左边显示了分子胶的已知三元复合物结构,中间的绿色部分代表了分子胶连接两个蛋白质。而如果使用AlphaFold 3来预测这两个蛋白质的结合(无分子胶),它预测的蛋白质复合物结构和三元复合物结构中蛋白质差异。有7.13Å。当输入小分子的模拟肽时,AlphaFold 3的计算的结构非常接近实验结构,所以AlphaFold 3可能对设计小分子分子胶有所帮助。

测试了10个分子胶体系(已知三元晶体结构),AF3预测其中3个成功,7个失败,成功率为30%。注意我们用模拟小肽进行输入,并不能完全对等小分子的真,如果小分子在两个ab蛋白之间形成内部空腔时,目前的预测都失败了。如果作用的表面积较大和柔性更大时,则预测成功。

AlphaFold 3的自己指出的其方法的Limitation:有的化学分子的手性中心不对、预测结构会产生幻觉现象;记忆只能生成静态结构,无法生成动态结构等。

AI药物研发道阻且长

基于以上,我们可以讨论一下:

  • AlphaFold 3证明了深度学习模型能够预测全类型的生物分子相互作用。

  • MSA和等变性的作用降低,但这些问题在论文中没有详细讨论,因此可以在未来继续探索。

  • 在通用的深度学习框架下,可以直接基于分子序列预测蛋白质和配体的复合结构,取得了很大进展。

  • 目前AF3的功能仅限于分子对接,而药物分子生成也是个重要的任务。Diffusion model在分子生成方面遇到了挑战。

  • AlphaFold 3公布的版本对药物设计领域产生了新的启示,但AI制药离系统落地还有很长的路要走。

AI药物设计领域尚未实现革命性突破,主要表现在成功率太低。

这些因素导致FIC(First-In-Class)研发不足,大家倾向于在近邻空间内做跟随式创新。

在AI其他领域,人们经常使用Benchmark数据来测试模型的性能。但是药物研发领域,因为数据太稀疏,即使是非常认真建立的Benchmark数据集还是无法评估模型的真实性能。

比如常用的里宾斯基五规则或者是QED指标。但是根据我们的测试,这些指标对于真正有效的药物筛选几乎没有什么作用。因此,我们开发了一个内药性预测机器学习模型,该模型单独使用就可以将药物筛选富集5~10倍。经过多次实践应用后,我们才比较相信这个模型。目前,AI药物研发模型的主要问题在于泛化能力和作用域。

谢谢大家。

 

全文完

 

嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴,成长的伙伴。

 

嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap20176