近日,中国和澳大利亚科学家的一项国际联合研究利用人工智能(AI)工具发现了161979种新RNA病毒,是已知病毒种类的近30倍,大幅提升业界对RNA病毒多样性和病毒演化历史的认知。这项研究也是迄今为止发表的数量最大的病毒物种发现论文。
这项经过同行评审的研究10日发表在国际知名学术期刊《细胞》(Cell)上。研究的共同通讯[1] 中山大学医学院施莽教授告诉澎湃新闻(www.thepaper.cn):“人工智能算法模型使我们能够挖掘出以前未知或被忽视的病毒。这种能力在疾病控制和快速识别新病原体方面尤为重要。”
今年刚刚揭晓的诺贝尔物理学奖和化学奖都和AI在科学领域的应用有关,将科学智能(AI for Science)推上了历史风口。施莽表示,对于病原学领域来说,AI完全不同于传统工具,它是一种数据驱动的研究模式,代表了一种新的科研范式。
“我们常说,新的方法带来新的发现,AI帮助我们突破了对病毒圈的认知。这类方法还能应用于更多病毒学领域的科学问题,比如新发现的病毒是否具有致病性?是否可能引发下一次大流行?它的蛋白质功能是什么?”施莽说,“在科研领域,AI的应用已经势不可挡,通过AI方法探索科学问题已取得了重要突破。这种研究范式将成为未来科学界的常态,也可能成为我们认知世界的重要手段。”
首次揭示了病毒圈“暗物质”的含义
病毒是无处不在的微生物,但目前被人类识别的仅有5000余种,是病毒世界的冰山一角。其中一些病毒可能会导致人类患病,对于病毒的认识扩展,意味着能有助于人类应对各种疾病。
根据病毒的遗传物质,可将病毒分为DNA病毒和RNA病毒,一般来讲,后者建构更简单,在自然界中的数量也更多。RNA病毒无处不在,在最极端的环境中也有存在,是最神秘的微生物,甚至有可能参与了早期生命的起源。它们在全球生态系统中发挥着关键作用,其中一些是人类传染病的病原体。
传统的病毒发现方法包括病毒分离和通过比较未知病毒与已知病毒的序列相似性的生物信息学方法来进行识别。然而,RNA病毒种类繁多且高度分化,传统方法难以捕捉缺乏同源性或同源性极低的“暗物质病毒”,新病毒发现的效率较低。但这些序列对应的有类似功能的蛋白质结构却有相对较高同源性,而基于AI的蛋白质结构预测与病毒学研究的结合正在突破这一难题。
此前,已有科学家利用机器学习搜索了公开数据库中存档的基因组样本,并发现了许多新的RNA病毒。此次发表在《细胞》杂志上的最新研究将这项工作更推进了一步,即通过AI辅助的蛋白质结构的预测。
RNA病毒都有一个称为“RdRp”的核心蛋白,即病毒RNA复制酶。上述研究根据一个全新的深度学习模型“LucaProt”,基于Transformer框架(构建GPT等主流AI大模型的基础框架),通过向其输入蛋白质序列预测。训练好的模型可以用来识别病毒 RdRp,并用它在大量基因组数据中查找这些未知病毒的类似蛋白序列。
值得一提的是,该AI模型包含一种名为ESMFold的蛋白质预测工具,该工具由美国科技巨头Meta的研究人员开发。类似的AI系统还包括由Google DeepMind的研究人员开发的AlphaFold,其CEO德米斯·哈萨比斯(Demis Hassabis)于本周获得了诺贝尔化学奖。
利用这套算法,研究团队对来自全球生物环境样本的10487份数据进行病毒挖掘,发现了513134条病毒基因组,代表161979个潜在病毒种及180个RNA病毒超群。使RNA病毒超群数量扩容约9倍,病毒种类增加约30倍,其中23个超群无法通过序列同源方法识别,被称为病毒圈的“暗物质”。
该论文还揭示多个病毒学领域新发现:发现迄今为止最长的RNA病毒基因组,长度达到47250个核苷酸;识别出超出以往认知的基因组长度,展示了RNA病毒基因组进化的灵活性超出之前病毒学家的认知;此外,在高温的深海热泉等极端环境中,RNA病毒依旧存在多样性。
“这些病毒中的绝大多数都已经测序并存储在公共数据库中,但它们的差异太大,以至于没人知道它们是什么,参与这项研究的悉尼大学医学与健康学院医学科学院的爱德华兹·霍姆斯(Edwards Holmes)教授说,“它们包含通常被称为序列 ‘暗物质’的东西。我们的人工智能方法能够组织和分类所有这些不同的信息,首次揭示了这种’暗物质’的含义。”
大幅提升对病毒多样性认知
施莽团队的研究显示病毒的多样性远超人类想象,目前我们所看到的只是冰山一角,未来病毒分类体系可能会有大规模的调整。
论文共同、阿里云智能云栖实验室研究员李兆荣博士表示:“LucaProt是前沿人工智能技术与病毒学的重要结合,表明人工智能可以有效地完成生物探索任务。这种结合为进一步解码生物序列、从新视角解构生物系统提供了宝贵的见解和激励。我们也将继续在病毒学人工智能领域的研究。”
施莽也进一步介绍:“人工智能的算法模型能够挖掘出我们之前忽略或根本不知道的病毒,这种能力在疾病防控和新病原的快速识别中尤为重要。特别是在疫情暴发时,人工智能的速度和精度可以帮助科学家更快地锁定潜在病原体。”
施莽表示,过去依靠繁琐的生物信息学流程来发现病毒,限制了我们可以探索的多样性。“现在,我们有了一个更有效的基于人工智能的模型,它提供了卓越的灵敏度和特异性,同时让我们能够更深入地研究病毒多样性。我们计划将此模型应用于各种应用。”
施莽透露,下一步的研究包括对于病毒与宿主的关系,以及识别可以感染特定宿主的病毒群。
“例如,在人体中可以发现许多病毒,但并不是所有病毒都会感染人类。有些病毒专门感染细菌,有些则感染人类摄入的食物,还有些感染寄生虫。因此,关键在于找到真正感染宿主细胞的病毒。另一种情况是,当我们在动物或媒介昆虫中监测潜在的人类病原体时,需要一个工具来判断在这些动物和媒介中新发现的病毒是否具备跨物种传播到人类并引发大流行的潜力。”他说。
研究团队表示,将继续训练该模型以发现更多的病毒多样性,并且同样的方法可以用于识别细菌和寄生虫。
没有参加这项研究的生物进化学家姜小炜博士认为: “对于扩大对病毒圈的认知来说,这是一种非常有前途的方法,基于AI的结构生物学和演化生物学结合的方法会帮助科学家发现病毒在自然界很多未知的多样性和演化规律。 以后更好的这类方法和数据会带来更多的病毒多样性和演化的重大发现,帮助人类应对未来挑战。”
霍姆斯教授表示:“这是在一项研究中发现的新病毒种类数量最多的一次,极大地扩展了我们对生活在我们身边的病毒的了解。然而这只是冰山一角,打开了一个探索的世界。还有数百万种病毒有待发现,我们可以用同样的方法来识别细菌和寄生虫。谁知道还会有什么额外的惊喜呢。”