ChatGPT击败50名人类医生!疾病诊断准确率达90%

用ChatGPT诊断疾病,准确率已经超过了人类医生?!

斯坦福大学等机构进行了一轮随机临床试验,结果人类医生单独做出诊断的准确率为74%。

在ChatGPT的辅助之下,这一数字提升到了76%。

有意思的是,如果 完全让ChatGPT“自由发挥”,准确率直接飙到了90%

据纽约时报说,面对这一结果,参与实验的内科专家Adam Rodman博士表示非常震惊。

有人评价,在这样的案例中,人类的干预,反而是给大模型的表现“拖了后腿”。

OpenAI总裁Brockman也转发了这则消息,表示看来 AI还有巨大的潜力,但在和人类合作这件事上,还需要再加强

50名医生挑战经典病例

研究团队随机从斯坦福大学、弗吉尼亚大学等机构招募到了50名医生,其中包括44名内科医生、5名急诊医生和1名家庭医生。

如果按照职称划分,这50名医生包括26名主治医生和24名住院医生,工作年限中位数为3年。

主治医生和住院医生分别被随机分配到实验组和对照组,区别是在诊断中是否允许使用ChatGPT。

另外,研究人员还对参与者的大模型使用经验进行了统计。

结果有8人从未使用过ChatGPT,6人只用过一次,15人使用频率少于每月一次,13人每月多于一次但少于每周一次,8人每周至少使用一次。

病例方面,研究团队从上世纪90年代以来的105个经典病例中进行了选择和改编。

所有病例均,包含病史、体检和实验室检查结果等初步诊断评估信息,但 最终诊断结果从未公开

这意味着,人类医生无法预先知晓答案,ChatGPT的训练数据中也没有相应的诊断结果。

四名专业医生每人独立审阅其中至少50个病例,确定至少10个满足纳入标准的候选病例,需要排除过于简单或过于罕见的病例。

最终四人小组讨论达成一致,确定6个最终入选病例,预计受试者完成时间为1个小时。

入选的病例还要经过,改写成现代化实验室数据报告的格式,并用将专业术语替换为通俗描述(如将“网状青斑”替换为“紫色、红色、蕾丝状皮疹”)。

在评估方法上,研究团队设计了一个基于 “结构化反思” 的评估工具。

具体来说,参与者需要填写一个结构化的表格,其中包含以下关键要素:

在正式实验之前,研究团队招募了13名医生,收集了共65个试点病例的结构化反思表格,并邀请3名临床评估专家进行盲评,从而对评分量表进行了优化。

最终,50名参与者需要 在1个小时时间内,完成6个病例的结构化反思表格

每个病例会被2名评分员独立盲评,如果两名评审员评分相差不超过10%,则直接取平均值;

如果差异超过10%,则认为两名评审员存在分歧,需要进行讨论直至达成共识。

ChatGPT表现超过人类

为了更清晰地展示研究的内容,研究人员公布了六个病例中的一个,以及对应得分高和得分低的医生的答案。

案例中还包括该男子体检的详细信息以及他的实验室测试结果,正确的诊断是“胆固醇栓塞”,两名医生以及GPT-4给出的回答如下(中间理由和后续操作略)。

最终,实验组(使用ChatGPT)的诊断得分中位数为76%,对照组为74%。

由于每个参与者完成了多个病例,因此病例之间可能存在相关性,所以为了妥善处理这种嵌套结构,使用了混合效应模型。

这类模型不仅考虑了干预的固定效应(即是否使用大模型的影响),还考虑了参与者和病例的随机效应。

根据混合效应模型估计,两组的差异为2个百分点,95%置信区间为-4到8个百分点,p值为0.60。

这意味着,尽管实验组的得分略高于对照组,但这种差异可能仅仅是由于随机误差所致, 不具有统计学意义

如果单纯看最终诊断结果,以及完成测试所花费的时间,两组之间同样没有体现出明显的差别。

除此之外,还补充了 单独使用ChatGPT进行诊断 的实验。

研究团队使用近期提出的提示工程框架,迭代开发了一个最优的0样本提示。

其中包含了任务细节、背景、指令等关键要素,且每个病例使用相同的提示。

一名研究者会将优化后的提示,连同病例内容输入ChatGPT,每个病例独立运行三次。

研究者会不对ChatGPT的输出做任何人工修改,直接交给评分者一同盲评,而且评分员也不知道哪些结果由ChatGPT生成。

结果,单独使用ChatGPT得到的诊断得分, 中位数高达92%,明显高于对照组,且p值为0.03,具有统计学意义

需要注意的是,这些病例是经过人类临床医生精心筛选和总结的,人类已经对其中的关键信息进行过提取。

实际临床工作中,从病人那里获取信息、收集数据的过程更加复杂,因此 实验结果并不代表大模型能在临床场景中取代人类

但同时,“人类+ChatGPT”与ChatGPT“自由发挥”结果之间的巨大差异,也说明了 人类的使用方式,还远远不能发挥出大模型的最大效能

所以,就像开头Brockman说的一样,这个实验预示着, 人类和AI之间,还需要进一步加强合作

论文地址:https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395参考链接:[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html[2]https://x.com/gdb/status/1858337346514485362


50万张CT影像打造 这款AI可快速诊断新冠肺炎

来了来了,TA又来了!每天播报最新新闻的深空小编又来了!今天天气不错,正适合读读最新资讯放松一下。 不让大家久等了,下面马上进入正题吧。 日前,顶尖学术期刊《细胞》在线发表了一篇关于新冠疾病诊断的最新论文。 由华人科学家主导的一支科研团队开发了一款人工智能工具,可以根据胸部的CT影像,准确做出新冠肺炎的诊断。 本论文由清华大学、中山大学、澳门科技大学等机构联手合作完成,通讯为张康,王光宇,林天歆,何健行,李为民,这一工具目前已向全世界医务人员公开。 在中国,新冠疫情已经得到了充分的控制。 而在全球范围内,许多国家和地区依旧面临着这种传染病的威胁。 为了防止疫情扩大,并及时对感染者进行治疗,快速而准确的诊断技术是关键:一方面,在呼吸道疾病的高发时节,很多人都会出现肺部炎症。 准确的诊断能剔除感染其他病原体的病患,方便他们接受单独的治疗,从而减少暴露于新冠病毒的风险;另一方面,从目前数据来看,出现急性呼吸衰竭的病患有着很高的死亡率,而他们先前大多都有肺部炎症。 如果我们能第一时间找到新冠肺炎的迹象,就能在呼吸衰竭出现之前对他们进行治疗。 在一线的治疗中,CT影像是重要的诊断工具。 相较在标准实验室里进行的分子检测,CT扫描的速度更快,也能更直观地观察到肺部的病理学特征。 我们知道,“阅读”CT影像数据,正是AI在医疗领域应用的强项之一。 早在2018年,张康教授团队就曾在《细胞》杂志上发表文章,介绍了一款能够基于X线胸片来区分儿童细菌性肺炎和病毒性肺炎的AI工具。 次年其团队开发了一款诊断儿童病历的AI。 ▲本AI工具的开发流程在这项工作中,科学家们基于3777名患者总计53万多张的CT影像,开发了一款新冠肺炎的AI诊断系统。 不同于传统的端到端的深度学习模型,这套诊断系统融合了两步不同的模型,第一步是基于语义分割的“肺部病灶”模型,其次是基于生成的肺-病灶图谱,将病人的整个CT 作为输入,进一步构建智能诊断模型。 这一工作可以避免“黑箱”模型在实际医疗应用中的缺陷,提高AI诊断系统的可解释性和泛化性能,也可以提高诊断的准确度。 通过研究来自新冠肺炎患者、普通肺炎患者、以及对照组的CT影像数据,AI学会了对其进行区分。 研究人员们报道说,在自我测试中,这套AI系统诊断新冠肺炎的准确率达到了92.49%。 利用来自不同地区的不同数据集,这套AI诊断系统经受住了真实世界的考验——利用回溯性数据及前瞻研究,该AI系统均可达到90%左右的准确率,即便是使用海外的CT数据,这套系统也达到了84.11%的准确率。 这一系列研究结果表明,科学家们开发的这套AI诊断系统无论是采用中国数据,还是国际数据,都能取得较好的表现。 ▲这套系统可以辅助年资较低的医生,提高他们的读片能力与人类医生相比,研究人员们发现AI系统的表现远超过年资较低的医生,而与中级/资深放射科专家的表现差不多。 这一结果表明AI系统可以协助经验较少的医生来做出诊断,快速将他们的读片能力提高到和资深医生接近的水平。 在医疗资源紧张,资深医生难求的国家和地区,这套系统的重要意义不言而喻。 值得一提的是,这套AI系统还基于CT的量化特征及临床资料,识别出了一些与患者预后有关的临床特征,发现COVID-19疾病不仅仅会影响呼吸系统的功能,还会影响到其他多个器官。 另外,它也有望为临床预后提供更为准确的预测模型和生存曲线分析,便于医务人员及时介入,进行治疗。 总结来看,在大量临床CT影像的支持下,研究人员们开发出了一款AI系统,能够准确地从出现不同症状的患者中,准确挑选出发生新冠肺炎的患者。 这不仅能用于临床的快速诊断和治疗,还能协助训练资历较浅的医生,帮助他们快速成长。 最后,科学家们宣布,为了更好地帮助全球控制疫情,他们将免费公开这一AI工具,协助来自不同国家和地区的医务人员。 我们向这些科学家致敬,也期待全球能够早日终结新冠疫情!欲要知晓更多《50万张CT影像打造 这款AI可快速诊断新冠肺炎 》的更多资讯,请持续关注深空的科技资讯栏目,深空小编将持续为您更新更多的科技新闻。 本文来源:深空游戏 责任:佚名王者之心2点击试玩

集成“自然语言处理+知识图谱”技术的“AI医生”,在儿科上岗了

让AI技术与基础医学理论结合,成为AI用于临床 探索 的新思路。目前这一新思路已被证实确有更大潜力——

最近,由广州市妇女儿童医疗中心教授夏慧敏和加州大学圣地亚哥分校教授张康领衔、人工智能公司依图 科技 等共同参与的科研团队设计出一套基于AI的疾病诊断系统,就将医学知识图谱加入其中,使AI可以像人类医生一样根据读取的电子病历来“诊病”。

结果也颇为乐观:用纳入系统的55种常见儿科疾病和部分危急重症作测试,AI的诊断水平可达到儿科主治医生的专业水准。

目前,这一研究成果《使用人工智能评估和准确诊断儿科疾病》已于2月中旬在线发表于《自然—医学》杂志。

将深度学习技术与专业医学知识图谱进行结合,是该人工智能辅诊平台的最大特色。 依图医疗总裁倪浩在接受笔者采访时说,未来对临床数据进行学习、为医生提供更多的辅助诊断能力(病种),采用深度学习+知识图谱的方式“很可行”。

为了使AI辅诊平台拥有专业的儿科医学知识,科研团队让它学习了56.7万名儿童136万份电子文本病历中的诊断逻辑。 这些来自广州市妇女儿童医疗中心2016年1月至2017年7月间的电子病历,覆盖了初始诊断包括儿科55种病例学中常见疾病的1.016亿个数据点。

除了将医疗知识进行整合,科研团队还利用依图 科技 的自然语言处理(NLP)技术构建了一个自然语言处理模型,以对这些电子病历进行注释——通过将病历变得标准化,该模型在未经过“培训”的情况下可以粗略地将临床信息进行分类。

“粗略分类是指,将整个电子病历当作输入,将专家诊断结果作为输出,以达到粗略的分类。 但这样并没有真正理解疾病本身,也很难解释为何做出了这个诊断。 ”倪浩告诉笔者, NLP模型虽然突破了病历文本语言和计算机语言之间的障碍,但知识图谱才是让AI诊断平台获取专家能力的关键 。

这也是他们接下来的一项重要工作:由30余位高级儿科医师和10余位信息学研究人员组成的专家团队,手动给电子病历上的6183张图表进行注释、持续检验和迭代,以保证诊断的准确性。

通过资深医疗专家注释的图表对AI诊断平台进行“培训优化验证”后,研究人员发现,经过深度学习的NLP模型可以对电子病历进行很好的注释,在体检和主诉项目的注释上分别达到最高灵敏度和精确度。 也就是说, 深度学习的NLP模型能够准确地读取电子病历中记录的信息,并可以准确作出符合临床标准的批注。 而这也是整个研究中最为关键的部分。

“通过引入知识图谱将每种疾病的电子病历深入解构,使得NLP模型具备了理解电子病历的能力。 例如手足口病与哪些特征密切相关,川崎病最相关的特征是什么,让模型在给出准确诊断的基础上,能够具备更好的医学可解释性。 ”倪浩解释说,“有了知识图谱,再用深度学习技术来解构电子病历,就能够真正理解临床数据。 基于此,机器学习分类等算法就有用武之地,否则把电子病历当成‘黑盒子’,是无法构建高精度可解释的模型的。 ”

综合利用深度学习技术与医学知识图谱对电子病历数据进行解构,研究人员据此构建了高质量的智能病种库,这使得后续可以较容易地利用智能病种库建立各种诊断模型。

构建一个多层级的诊断模型,是研究人员把AI诊断平台打造成为儿科医生的第二步。 倪浩介绍说,这一基于逻辑回归分类器创建的诊断模型,首先会按呼吸系统疾病、胃肠道疾病、全身性疾病等几大系统分,然后在每一类下面做细分—— 这是让AI模拟人类医生的诊疗路径,对目标患儿的数据进行逐级判定 。

结果显示,基于NLP模型准确读取的数据,AI诊断模型能够对儿科疾病作出精确诊断: 平均准确率达90%,对神经精神失调疾病的诊断准确率更是高达98%。

在对相应儿科疾病的划分和诊断上,该诊断模型同样表现不俗。 系统对上呼吸道疾病和下呼吸道疾病的诊断准确率分别为89%和87%。 同时,该系统对普通系统性疾病以及高危病症也有很高的诊断准确率,例如传染性单核细胞增多症准确率为90%,水痘为93%,玫瑰疹93%,流感94%,手足口病为97%和细菌性脑膜炎为93%。

这揭示出,该诊断系统可以根据NLP系统注释的临床数据信息对常见儿科疾病作出较高准确度的判断。

研究人员随后运用个临床病例比较了AI诊断系统和5个临床治疗组诊断儿科疾病的水平,其中参与研究的治疗组从事临床工作时间和资历逐渐增加。 结果显示, AI诊断系统反映模型综合性能的F1评分均值高于2个年轻医生组成的治疗组,但稍逊于3个高年资医生组成的治疗组。

论文认为,这说明该AI诊断系统可以协助年轻治疗团队进行疾病诊断,提升团队诊疗水平。

今年1月1日,该系统在广州市妇女儿童医疗中心投入临床应用。 仅1月1日至1月21日短短20天,该院医生实际调用它开展辅助诊断次,诊断与临床符合率达到87.4%。 广州市妇儿中心医务部主任孙新在体验该系统后表示,这套系统在对疾病进行分组分类方面“比较科学”。

上述论文发表后,《纽约时报》点评这项研究称,“前后访问了儿科医院18个月中数十万名中国就医儿童的数据,能有这么庞大的数据量用于研究,也是中国在全球人工智能和竞赛中的优势。”

“数据确实是我们此次研究成果的核心关键之一。 ”倪浩说,“不过,高质量标准数据来源于强大的联合团队,我们专门开发了数据标准系统,进行了大量的数据标注。 ”

论文通讯之一、广州市妇女儿童医疗中心教授夏慧敏表示,这篇文章的启示意义在于“通过系统学习文本病历,AI或将诊断更多疾病”。 不过他提醒道, 当下还须清醒认识到,仍有很多基础性工作要做扎实,比如高质量数据的集成便是一个长期的过程。

笔者了解到,该医院在近3年里注重将数据标准化、结构化处理,实现了50多个诊断数据子系统的相互交流和互联互通,为该系统应用打下了基础。

“此外,A I学习了海量数据后,其诊断结果的准确性仍然需要更大范围的数据对其进行验证和比对。 ”夏慧敏说。

AI技术落地的4元素之中,场景也非常重要。 论文的另一位通讯张康认为,该研究以儿科疾病为对象意义重大。

“对儿科疾病的诊断是医疗中的一大痛点。 一些儿科疾病威胁程度较大需要尽快得到治疗,而儿童恰恰不善于表达病情,因此快速、准确地对儿科疾病进行诊断非常必要。 ”张康表示,当前儿科医生供不应求,论文中构建的AI诊断系统对于严重不足的医疗资源会有很大的辅助作用。

相关论文信息:DOI:10.1038/s-018-0335-9

50万张CT影像打造 这款AI可快速诊断新冠肺炎_科学发明

来了来了,TA又来了!每天播报最新新闻的深空小编又来了!今天天气不错,正适合读读最新资讯放松一下。 不让大家久等了,下面马上进入正题吧。 日前,顶尖学术期刊《细胞》在线发表了一篇关于新冠疾病诊断的最新论文。 由华人科学家主导的一支科研团队开发了一款人工智能工具,可以根据胸部的CT影像,准确做出新冠肺炎的诊断。 本论文由清华大学、中山大学、澳门科技大学等机构联手合作完成,通讯为张康,王光宇,林天歆,何健行,李为民,这一工具目前已向全世界医务人员公开。 在中国,新冠疫情已经得到了充分的控制。 而在全球范围内,许多国家和地区依旧面临着这种传染病的威胁。 为了防止疫情扩大,并及时对感染者进行治疗,快速而准确的诊断技术是关键:一方面,在呼吸道疾病的高发时节,很多人都会出现肺部炎症。 准确的诊断能剔除感染其他病原体的病患,方便他们接受单独的治疗,从而减少暴露于新冠病毒的风险;另一方面,从目前数据来看,出现急性呼吸衰竭的病患有着很高的死亡率,而他们先前大多都有肺部炎症。 如果我们能第一时间找到新冠肺炎的迹象,就能在呼吸衰竭出现之前对他们进行治疗。 在一线的治疗中,CT影像是重要的诊断工具。 相较在标准实验室里进行的分子检测,CT扫描的速度更快,也能更直观地观察到肺部的病理学特征。 我们知道,“阅读”CT影像数据,正是AI在医疗领域应用的强项之一。 早在2018年,张康教授团队就曾在《细胞》杂志上发表文章,介绍了一款能够基于X线胸片来区分儿童细菌性肺炎和病毒性肺炎的AI工具。 次年其团队开发了一款诊断儿童病历的AI。 ▲本AI工具的开发流程在这项工作中,科学家们基于3777名患者总计53万多张的CT影像,开发了一款新冠肺炎的AI诊断系统。 不同于传统的端到端的深度学习模型,这套诊断系统融合了两步不同的模型,第一步是基于语义分割的“肺部病灶”模型,其次是基于生成的肺-病灶图谱,将病人的整个CT 作为输入,进一步构建智能诊断模型。 这一工作可以避免“黑箱”模型在实际医疗应用中的缺陷,提高AI诊断系统的可解释性和泛化性能,也可以提高诊断的准确度。 通过研究来自新冠肺炎患者、普通肺炎患者、以及对照组的CT影像数据,AI学会了对其进行区分。 研究人员们报道说,在自我测试中,这套AI系统诊断新冠肺炎的准确率达到了92.49%。 利用来自不同地区的不同数据集,这套AI诊断系统经受住了真实世界的考验——利用回溯性数据及前瞻研究,该AI系统均可达到90%左右的准确率,即便是使用海外的CT数据,这套系统也达到了84.11%的准确率。 这一系列研究结果表明,科学家们开发的这套AI诊断系统无论是采用中国数据,还是国际数据,都能取得较好的表现。 ▲这套系统可以辅助年资较低的医生,提高他们的读片能力与人类医生相比,研究人员们发现AI系统的表现远超过年资较低的医生,而与中级/资深放射科专家的表现差不多。 这一结果表明AI系统可以协助经验较少的医生来做出诊断,快速将他们的读片能力提高到和资深医生接近的水平。 在医疗资源紧张,资深医生难求的国家和地区,这套系统的重要意义不言而喻。 值得一提的是,这套AI系统还基于CT的量化特征及临床资料,识别出了一些与患者预后有关的临床特征,发现COVID-19疾病不仅仅会影响呼吸系统的功能,还会影响到其他多个器官。 另外,它也有望为临床预后提供更为准确的预测模型和生存曲线分析,便于医务人员及时介入,进行治疗。 总结来看,在大量临床CT影像的支持下,研究人员们开发出了一款AI系统,能够准确地从出现不同症状的患者中,准确挑选出发生新冠肺炎的患者。 这不仅能用于临床的快速诊断和治疗,还能协助训练资历较浅的医生,帮助他们快速成长。 最后,科学家们宣布,为了更好地帮助全球控制疫情,他们将免费公开这一AI工具,协助来自不同国家和地区的医务人员。 我们向这些科学家致敬,也期待全球能够早日终结新冠疫情!欲要知晓更多《50万张CT影像打造 这款AI可快速诊断新冠肺炎 》的更多资讯,请持续关注深空的科技资讯栏目,深空小编将持续为您更新更多的科技新闻。 本文来源:深空游戏 责任:佚名王者之心2点击试玩

2K屏手机出货超过1000万台 位居行业第一 Redmi
AI能办专属信用卡了 Agent自己赚钱自己花 OpenAI