对话聂再清 2 ChatGPT时刻 生物医药即将迎来

出品|网易科技《态度AGI对话》栏目

|丁广胜 杨霞清

所有行业都值得用大模型重做一遍,生物 医药 这个被视为门槛极高的行业,也裂开了一道缝,AI科学家们看到了机会。

报告显示,目前单款新药的研发成本已经飙升至25.6亿美元,而整体开发成功率仅有3.5%。这让无数药厂头痛不已。

好消息是,大模型技术的智能涌现能力和触类旁通能力已经开始在各行各业发挥重要作用, 制药 行业也开始积极采用这一技术。数据显示,人工智能在生物制药领域的应用正在不断扩大。通过大模型技术,药物的临床前研发阶段(例如,从小分子候选化合物的提名到首次受试者给药的典型时间间隔2-3年)将显著缩短,同时药物的临床通过率也有望显著提升。预计在未来几年内,大模型驱动的生物制药企业和服务公司将在行业中发挥至关重要的作用。

清华智能产业研究院(AIR)创立伊始就将生物医药视作最重要的一个研究方向,并孵化了水木分子,这家公司专注于生物医药垂直行业大模型的研发与应用。产品将服务于药物研发各环节,包括早研立项、靶点发现、分子设计优化、临床实验设计、药物重定位等。

至2024年8月,水木分子累计获得近亿元人民币的融资,天使轮由华山资本领投,道彤投资、讯飞创投参与投资,清智资本参与了种子轮融资。募集资金将主要用于生物医药多模态大模型,以及对话式药物研发助手工具 ChatDD 产品的研发。

水木分子的首席科学家由 聂再清 博士担任。他是清华大学国强教授、AIR首席研究员。曾任微软亚洲研究院首席研究员,主要负责微软自然语言理解、实体挖掘的研发工作。曾经是阿里巴巴人工智能实验室北京研发中心负责人和阿里巴巴天猫精灵首席科学家。2004年获得美国亚利桑那州立大学博士学位,师从美国人工智能学会前主席Subbarao Kambhampati教授。

聂再清告诉网易科技《态度AGI》,生物医药行业需要人工智能来赋能,之前做药的主要途径是“老法师”做实验,经验直觉非常重要。后来虽然有了CADD(计算机辅助制药),但“老法师”仍然发挥主动权。到AIDD阶段,这时候一些AIDD公司宣传创新药物可以是AI独立研发出来,但其实不大可能。

“做药最好的方式是‘老法师’专家和AI密切地交互结合。”聂再清表示。

聂再清希望打开制药这个“黑盒子”。他说,水木分子的ChatDD大模型是多模态的,让专家用自然语言与生物医药大模型对话,这可以让“老法师”更好地理解生物数据,让生物数据和大模型算法推荐结果更具解释性。“我们希望业界把水木分子与最领先的生物医药大模型能够画上等号。”

他认为,预计最快未来两到三年,生物医药就会迎来“ChatGPT时刻”。“我们成功的标志是大部分创新药物的研发是通过我们的大模型和老法师密切协作产生的,这才是对人类最大的贡献。”聂在清说。

以下为网易科技对话聂再清博士实录:

网易科技:您曾就职于微软亚洲研究院和阿里等公司,是什么促使决定投身“AI+制药”,出任水木分子的首席科学家?

聂再清: “ 通用人工智能的曙光”闪现。

现在大量的物理世界的信息已经被数字化了,人针对大量的数据找规律、找优化路径是困难的,在未来的数字世界,我们想象有智能助理做管家,帮人处理数据、执行任务。我之前参与天猫精灵智能助手的研发,天猫精灵封闭域做得很好,根据你的指令做正反馈。但上一代中国的智能音箱开放域做得不行,不过这个问题被ChatGPT大模型解决了。所以大家说看到了通用人工智能的曙光。

在通用智能时代,我希望去从事大模型相关的创新。在通用大模型和行业大模型中,我选择了行业大模型。太多人去卷通用大模型了,我反而觉得通用模型在TO B端需要通过深入行业才能产生价值。

“蛋白质宇宙”和“生命与自然语言跨模态 翻译 ”成为AI科学家的向往。

选择生物医药,是因为生物医药是个特别好的行业,它的生物模态数据的表示学习门槛很高。生命编码语言和自然语言是有差别的,打比方来说,蛋白质也有其语言体系,已知蛋白质结构有上亿种,它是由氨基酸序列组成的,这种序列会决定蛋白质的结构,结构又决定了蛋白质的功能。生命编码语言也有自己的语法规律,遵循自然选择的物竞天择法则,需要有独特的大模型来理解其中的规律。

水木分子孵化于清华智能产业研究院(AIR)。2020年我加入清华智能产业研究院开始做科研。在微软亚洲研究院也负责过微软自然语言理解、实体挖掘的研发工作。以前做科研的很多经历,对从事这个方向非常有帮助。

网易科技:外界比较关注水木分子的药物研发助手Chat DD,目前Chat DD有了哪些进展?

聂再清: 我在清华大学智能产业研究院带领团队,提出一种全新的多模态语义理解框架BioMedGPT,支持分子、蛋白、自然语言跨模态基础模型。2023年4月,团队开源了轻量科研版BioMedGPT1.6B。这项技术受到了很多关注,我们觉得可以继续孵化,打造成一个真正的产品。

轻量科研版BioMedGPT1.6B,验证了将文献、分子、蛋白、测序、知识图谱等数据压缩到统一的多模态大模型框架,可使模型具备“融汇贯通”的能力,在分子性质预测、药物靶点亲和力预测、性质预测、药物敏感性预测、分子文本跨模态检索、分子文本跨模态信息生成等多项任务上优于单一专用模型,从研究层面验证技术可行性。

之前做药的主要途径是“老法师”自己做实验,在这个过程中,“老法师”的经验直觉非常重要。

制药的发展经过多个阶段。第一代手工制药TMDD:基于经验主义,依托专家经验与直觉,通过大量实验试错来实现;第二代计算机辅助设计CADD:通过计算机模拟建模,减少了对湿实验的依赖;第三代人工智能辅助设计AIDD:应用人工智能技术从训练数据中挖掘药物发现和设计规律。AlphaFold的问世验证了人工智能可以产出同实验室方法精确度相当的蛋白质结构预测结果,但成本却大幅降低。AIDD通过最近几年的发展,吸引了大量科技公司涌入该赛道。虽然AIDD应用人工智能技术从训练数据中挖掘药物发现和设计规律,但一直面临训练数据不足、信息与知识分离、工具服务分散、处理模态单一等挑战。

可以看出,后来虽然有了CADD,但“老法师”仍然可以发挥主动权。到AIDD阶段,算法和“老法师”的交互做得还没那么好。 有些AIDD公司说药可以是AI做出来的,但实现还不大可能,一定得要有人参与,最好的方式是“老法师”专家和AI密切地交互结合。

如果能通过一个大模型把所有外部的知识、数据和工具全部整合,再把科研人员的问题通过提示词传输到大模型中,形成交互,把人的知识和直觉与机器理解数据的能力融会贯通,会是比较好的交互方式。

水木分子提出的ChatDD ,将人类专家知识与大模型知识联结起来,通过自然语言与生物编码语言协作,打造新一代对话式药物研发助手,重新定义了药物研发的模式。它以全新的方式来应对药物研发中的各种挑战,为实现高效、精准的药物研发提供了新的可能性,致力于加速创新药的开发和上市,同时助力降低研发成本、时间与风险。

网易科技:具体ChatDD是如何在制药过程中发挥作用?

聂再清: 我们希望ChatDD成为领先地位的生物医药行业大模型,它会贯穿在生物医药行业的全流程之中。它不仅还具备专业知识力、认知探索力和工具调用能力,目标是助力服务医药研发全流程场景,包括立项调研、早期药物发现、临床前研究、临床试验、药物重定位等。

比如,要不要立项开发?要不要上临床?一期通过要不要上二期?在这些问题上,它都可以助力专家去决策,做到有据可依。

生物医药大模型可以做很多工作,在临床前的药物研发阶段,借助大模型进行靶点的决策和小分子的虚拟筛选、优化。在临床阶段,如何让一个药更好地通过临床,这是药厂非常关心的,我们可以通过大模型去设计临床试验。

网易科技:水木分子在开发ChatDD的过程中,团队遇到了哪些挑战?

聂再清: 文化差异是最大的挑战。 人工智能和生物医药属于两个圈子。大模型属于互联网+AI文化,要求是快速迭代、唯快不破,而做医药则要稳重,得保证路径是对的,否则就得推翻重来。所以在团队建设上需要跨过交叉学科的门槛。

网易科技:目前水木分子已经与博奥晶方、复星医药等企业建立了合作关系,具体合作模式是什么样的?

聂再清: 与两个企业的合作方向不一样,跟复星医药主要聚焦在“立项”这个阶段,跟博奥晶方更多是在信号通路挖掘方向。

博奥晶方与水木分子合作,基于博奥晶方在中医药方向的原创分子本草技术和水木分子的创新算法,重点聚焦以ChatDD-FM和组学大数据形成中药靶标发现智能体,促进中医药理论创新,说清楚、讲明白中医药疗效,助力科学内涵相对清晰、疗效确定的中药新药研发和精准用药应用。

复星医药携手水木分子,充分利用复星和水木分子宝贵的专有数据和专家知识,依托水木分子的ChatDD-FM,重点关注自动情报分析和商业价值评估等场景,打造AI助力的创新决策系统。该系统旨在提升传统人工追踪海量实时变化行业信息的效率,解决商业评估客观性和标准一致性的问题,多维度、全方位、快速高效地决定项目的go与no-go,助力提高研发成功率。

水木分子在成立不久获得客户的认同,归根结底是大模型有用,能够解决业务痛点,除此之外就是用户对我们的产品、技术充分信任。

网易科技:制药方面的需求,药厂有两个选择,一是用通用大模型自己训练,二是用水木分子的行业大模型,您接触的药厂有没有这样的纠结?

聂再清: 肯定是有的,制药行业客户用大模型有不同的需求,也有通用大模型能解决的场景(比方说翻译)。其实有客户拿ChatGPT和ChatDD作翻译方面的比较,会发现我们比通用模型好很多。因为在生物医药行业,有很多专用的术语,通用模型翻译得没那么好。但是在很多要处理生物模态数据的场景(比方说药物设计,BioMarker筛选等),客户就不会有对通用大模型的纠结。

网易科技:ChatDD有什么创新点?

聂再清: ChatDD是多模态的, 让专家用自然语言与大模型对话。比如用自然语言去问蛋白质的规律。我们可以做到,真正赋能专家和老法师,让他们更好地理解生物数据,让生物更有解释性。

水木分子提出的ChatDD药物研发助手的目标就是建立一个高效的联结,把科学家的经验和直觉,与海量生物数据(分子、蛋白等)、文本、结构化知识的融会贯通,以及各种药物发现和设计的工具结合起来。通过这种方式,科学家的大脑和大模型能够相互提示补充,共同推动药物研发的进程。

大模型最令人惊喜的能力是智能涌现与触类旁通。生命现象的本质也是一种自然进化的编码语言。将人类总结的知识与氨基酸、分子、蛋白等数据压缩到统一的大模型框架内进行编码和学习,有望理解生物编码的语言机制,进而从底层推动与生命科学相关的研究与应用。我们致力于打造领先的专注生物医药的融合生物编码+自然语言的多模态大模型。

网易科技:ChatDD在市场上有竞争对手吗?

聂再清: 有些公司在做生物模态,有些公司在做医疗,但完全定位于做生物医药行业多模态研发助手的,水木分子肯定是走在前面的,我们处于领导地位。

我们希望水木分子与生物医药大模型能够画上“等号”,成为生物医药行业中的大模型公司。用户只要一提起生物医药大模型就能想到水木分子、ChatDD。

网易科技:ChatDD现在处于第几个版本?

聂再清: 产品每三个月会有一个版本,很难说具体是哪个版本。因为内部的ChatDD版本本身没开源。但是对于BioMedGPT的开源已经至少有两次,一次是16亿参数,一个是100亿参数。

网易科技:团队有多少人在做产品的研发?

聂再清: 水木分子还在继续稳步扩张中,目前团队不超过100人。我们组建了“AI+医药”、覆盖技术、产品、商业化和市场的创始团队。前IBM阿尔马登研究院人工智能平台部门研究负责人、美国国家工程院工程前沿杰出青年工程师乔木博士担任CTO,他也曾是IBM发明大师和IBM全球技术学院成员;世界500强企业强生前高管、前药明康德副总裁,拥有三十余年药物研发、创新技术应用、国际国内合作生态建设经验的李秀艳博士出任联席首席科学家;500强药企药明康德前副总裁邢杰为首席运营官,负责推进水木分子全球商业化发展等事务;前阿里天猫精灵对话引擎和智能运营技术团队负责人张铁蕾任工程副总裁,他还曾任快手商业化事业部业务中台研发中心负责人。

网易科技:ChatDD在数据层面是如何构建的?

聂再清: 我们主要基于公开数据。基于大量的文本数据结合多模态数据、大分子、蛋白质和文本对齐的数据。同时,我们也在建水木分子的知识库,现在提出一个叫EntityChat的概念,将结构化、非结构化、多模态的资源数据融合在一起,形成实体和别的实体之间的关系图,实现对一个分子、药物或靶点的全方位提问。

网易科技:当下大模型公司的商业模式大家并不乐观,水木分子未来有哪些商业化模式?

聂再清: 主要是三个方向:一类是提供工具,比如提供大模型或大模型的上层应用,通过公有部署、私有化部署等方式来收费。另一类是提供服务,类似于IBM的咨询服务、或者医药行业的CRO服务。还有一种盈利模式是应用商店模式,ChatDD中包含很多工具,在ChatDD调用工具完成用户的任务后,直接给每一个应用提供商利益分成。

网易科技:8月水木分子刚宣布融资近亿元,如何去花这笔钱?

聂再清: 融资的资金会用在技术和产品的突破上。 首先在生物医药的基础模型上有所突破,希望为行业打造最好的生物医药的多模态基础大模型。其次就是产品研发,我们希望大模型真的能够帮到行业,解决他们真实的问题。我们会跟资源方做持续性的探讨,不断打磨产品和技术。 成功的标志是未来大部分的创新药物是ChatDD和老法师协作产生的。

网易科技:“AI制药”作为一个新兴领域,您如何看待这个产业的发展现状,我们处于什么阶段?

聂再清: 生物医药还有很大的发展空间,整个行业急需一个真正有效的生物医药大模型。我判断, 预计两到三年,生物医药会迎来“ChatGPT”时刻。

(实习生王文华对本文亦有贡献)

关于《态度AGI》

网易科技重磅推出系列对话栏目《态度AGI》。过去三年,AI变革风起云涌,全球科技秩序正在重构,通往AGI的道路或许正在悄然临近。本栏目以AGI为题,将对话100位AI专家、企业家、投资人,试图拨开云雾,与大家一道见证AGI时代的到来。 第十七期对话清华大学国强教授、 AIR首席研究员、水木分子首席科学家聂再清。

往期回顾:

对话李开复:大模型创业狂奔一年 中美差距缩小 我十年不套现

对话王小川:我们不跟进大模型价格战

对话戴文渊:大模型价格战不解决核心问题

智源研究院院长王仲远:GPT4不是国内大模型的尽头

对话朱啸虎:5年后将没有独立的大模型公司存在,因为没有商业模式

对话梅花创投吴世春:“中国大模型五虎”想要跑出来非常难

对话跃然创新CEO李勇:做大模型应用 如何和巨头错位竞争

对话智谱AI CEO张鹏:视频生成是AGI必经之路,超级App将在“不知不觉”中到来

对话科大讯飞副总裁、研究院院长刘聪:中国大模型已从追赶对标走向自主原创

对话360周鸿祎:魔法对付魔法,大模型安全问题得靠大模型

对话彩云科技CEO袁行远:超越ChatGPT,需要打开“黑盒”

对话傅盛:不看好双足机器人商业化,三五年都没戏

对话宇树创始人兼CEO王兴兴:通用机器人的iPhone时刻还需要3-4年

对话MiniMax创始人闫俊杰:打不赢,就应该被淘汰对话

对话荣耀赵明:AI时代 开放肯定会击败封闭

对话昆仑万维首席科学家颜水成:大模型的三个共识与三个分歧


清华AIR开源轻量版BioMedGPT!聂再清:最终目标是生物医药领域基础大模型

生物医药领域迎来了一项重要进展,一个名为BioMedGPT-1.6B的轻量级科研版基础模型刚刚开源。 这个模型由来自清华大学智能产业研究院(AIR)的团队打造,项目负责人聂再清教授是清华大学国强教授、AIR首席研究员,他在健康医疗领域的产业应用研究方面有着丰富的经验。 BioMedGPT-1.6B模型参数量级为16亿,其最大特点是跨模态与知识融合。 模型训练数据包含了分子、文献、专利、知识库等多尺度跨模态的生物医药大数据,并融合了分子结构、知识图谱和文献文本中的知识,以增强模型的泛化能力和可解释性。 在应用任务上,BioMedGPT-1.6B展现了通用能“打”的效果,可以处理药物性质预测、自然语言类、跨模态等多种任务。 聂再清教授和他的团队正在打造的BioMedGPT是一个适用于生物医药领域研发的通用大模型,此次开源的1.6B版本是一个单机轻量版,旨在小试牛刀,并让行业相关科研人员有可用的资源。 BioMedGPT的目标是实现“智力涌现”,通过理解生物医学领域知识、发现规律和启发灵感,为药物发现、分子/蛋白质设计等应用提供底层能力,成为生物医药研究者的助手。 整体来看,BioMedGPT架构设计具备多个输入Encoder,能够处理不同模态的输入如分子、蛋白质和文献等,并进行统一表示处理,学习不同模态之间的关联知识。 此外,它还是首个将多模态知识引入模型构建的项目,通过知识图谱的方式将生物医药领域的知识注入模型中,增强泛化能力和可解释性,应对知识快速更迭,让模型持续学习。 基于其融会贯通与知识增强的能力,BioMedGPT在下游多项任务中表现出整体效果提升。 目前,团队已经完成了实验验证阶段,用较小的端到端模型证明了思路的可行性。 预计未来模型参数量级将达到几百亿左右,数据量需求在几十亿到百亿级。 聂再清教授预计,两年内模型将在小范围内具备一定影响力,成为行业通用大模型可能需要3~5年时间。 在生物医药领域,一切容不得半点差错,对大模型的幻觉进行约束是关键。 聂再清教授表示,希望模型能够知道“自己知道什么事”,也知道自己“不知道什么事”。 为此,团队通过两个闭环实现对模型的“纠偏”:通过湿实验验证模型的真实性,接近物理真实世界;通过专家instruct,让模型与人类专家认知趋近,降低AI模型的幻觉。 BioMedGPT的未来进展值得期待,中国工程院院士、清华大学讲席教授、AIR院长张亚勤院士表示,将大模型范式应用于生命科学是理性又大胆的探索,AIR团队在生命科学领域的AI模型研发方面取得了不错的成果。 开源的BioMedGPT-1.6B是生命科学领域的重要进展,未来研究团队将继续整合领域内多源异构的数据,实现生物世界文本和知识的统一表示学习,带来生物医药领域的“智能涌现”。 开源/BioFM/OpenBi...

只是一次悄悄试水 字节的第一款 AI 硬件
新手帐来了!