美国麻省理工学院和塔夫茨大学研究人员设计出一种基于大型语言模型(如ChatGPT)的人工智能算法,这种称为ConPLex的新模型可将目标蛋白与潜在的药物分子相匹配,而无需执行计算分子结构的密集型步骤。相关论文发表在最新一期《美国国家科学院院刊》上。
使用这种方法,研究人员可在一天内筛选超过1亿种化合物,比任何现有模型都要多得多。这项成果解决了对当前药物筛选的需求,其可扩展性还能够评估脱靶效应、药物再利用以及确定突变对药物结合的影响。
近年来,科学家在根据氨基酸序列预测蛋白质结构方面取得了巨大进步。然而,要预测大型潜在药物库如何与致癌蛋白相互作用,依然具有挑战性,因为计算蛋白质三维结构需要大量时间和计算能力。
麻省理工学院团队以他们2019年首次开发的蛋白质模型为基础,此次将模型应用于确定蛋白质序列将与特定药物分子的相互作用。他们用已知的蛋白质—药物相互作用对网络进行训练,使其能学习将蛋白质特定特征与药物结合能力联系起来,而无需计算任何分子的三维结构。
通过筛选包含约4700种候选药物分子的库,团队测试了他们的模型,并确定了这些药物与51种蛋白激酶结合的能力。
从热门结果中,研究人员选择了19组“药物—蛋白质对”进行实验测试,最终12对具有很强的结合亲和力,而几乎所有其他可能的药物—蛋白质对都没有亲和力。
研究人员表示,药物研发成本之所以如此高昂,部分原因是它的失败率很高。如果能事先预测这种结合不可能奏效,就能减少失败率,从而大大降低新药开发的成本。(记者张梦然)