对21种大语言模型研究表明:AI尚不具备独立临床诊疗的能力

发布时间: 2026-04-13 22:54:10

新闻内容

尽管人工智能在医疗领域的应用日益广泛,但在模拟真实诊疗情境下,当前的大语言模型距离具备成熟的临床诊断能力仍存在明显差距。麻省总医院MESH孵化器团队最新研究指出,尽管生成式AI在患者信息逐步完善后能表现出较高的诊断精确度,但在临床推理的关键环节仍显不足。 研究团队选取了包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种主流大语言模型,通过29个临床病例模拟真实诊疗过程。实验设计上,研究者逐步向模型提供患者信息,从基础症状到实验室数据再到影像学检查结果,循序渐进地测试AI的诊断能力。当获得完整患者信息后,所有模型在超过90%的案例中给出了正确诊断。 然而,研究者强调,这并不意味着AI已经具备独立承担临床诊疗任务的能力。研究显示,AI系统在面对复杂病例时仍存在局限性,特别是在需要综合判断、权衡多种可能性的临床推理环节表现欠佳。这反映出当前AI医疗应用仍面临三个关键挑战:对疾病复杂性的理解深度不足、对医疗决策不确定性的处理能力较弱、以及在多因素综合判断时的表现不稳定。 从投资角度看,这项研究为医疗AI行业的技术发展路径提供了重要参考。一方面,研究结果证实了AI在医疗辅助领域的实用价值,特别是在信息整合和数据分析方面具有显著优势;另一方面,也警示投资者,AI医疗系统距离完全替代人类医生仍需较长时间。 业内人士分析认为,未来医疗AI的发展将更注重人机协作模式,AI系统可能在特定医疗环节提供专业支持,但最终医疗决策仍需由医生成员完成。这种分工模式既能够提升医疗效率,又能确保诊疗质量,有望成为医疗AI商业化应用的主要路径。