Telegraph News

尽管人工智能在医疗领域的应用日益广泛，但在模拟真实诊疗情境下，当前的大语言模型距离具备成熟的临床诊断能力仍存在明显差距。麻省总医院MESH孵化器团队最新研究指出，尽管生成式AI在患者信息逐步完善后能表现出较高的诊断精确度，但在临床推理的关键环节仍显不足。研究团队选取了包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种主流大语言模型，通过29个临床病例模拟真实诊疗过程。实验设计上，研究者逐步向模型提供患者信息，从基础症状到实验室数据再到影像学检查结果，循序渐进地测试AI的诊断能力。当获得完整患者信息后，所有模型在超过90%的案例中给出了正确诊断。然而，研究者强调，这并不意味着AI已经具备独立承担临床诊疗任务的能力。研究显示，AI系统在面对复杂病例时仍存在局限性，特别是在需要综合判断、权衡多种可能性的临床推理环节表现欠佳。这反映出当前AI医疗应用仍面临三个关键挑战：对疾病复杂性的理解深度不足、对医疗决策不确定性的处理能力较弱、以及在多因素综合判断时的表现不稳定。从投资角度看，这项研究为医疗AI行业的技术发展路径提供了重要参考。一方面，研究结果证实了AI在医疗辅助领域的实用价值，特别是在信息整合和数据分析方面具有显著优势；另一方面，也警示投资者，AI医疗系统距离完全替代人类医生仍需较长时间。业内人士分析认为，未来医疗AI的发展将更注重人机协作模式，AI系统可能在特定医疗环节提供专业支持，但最终医疗决策仍需由医生成员完成。这种分工模式既能够提升医疗效率，又能确保诊疗质量，有望成为医疗AI商业化应用的主要路径。

对21种大语言模型研究表明：AI尚不具备独立临床诊疗的能力

新闻内容