Telegraph News

这天，一项由美国哈佛医学院主导的研究揭示了一个令人警醒的事实：当下风头正盛的人工智能大语言模型，在诊断疾病这一领域，离靠谱还有很远的距离。研究团队选择了一些最前沿的AI大语言模型，包括我们熟悉的ChatGPT、DeepSeek、Claude和Gemini等平台。研究人员设计了一系列模拟病例，模拟了医生面对患者时需要做的"鉴别诊断"。所谓鉴别诊断，就是医生根据症状和体征，来判断可能是什么病。换句话说，让AI也来做个"医生"，看看它能诊断出什么。令人惊讶的是，当AI仅凭着患者描述的症状来判断时，有高达80%的情况给出了错误诊断。这已经超出了普通新手医生的水平。但研究发现，如果患者能提供更多检测结果，比如验血、验尿、影像检查等数据，AI的诊断准确率就能提升到80%，失败率下降到40%左右。研究团队在总结时表示，这意味着AI诊断机器人如果信息不全，给出的建议就可能出错。尤其是在患者没有提供完整健康检测信息的情况下，AI给出的诊断结果并不可靠。哈佛医学院的研究人员强调："人工智能目前还没有达到能够独立为患者做决策诊断的水平。"在医疗领域，谨慎和专业判断仍然是不可或缺的，AI仍然需要人类医生的判断和把关。这一研究再次提醒我们，虽然人工智能技术发展迅猛，但在专业医疗领域，AI还远未达到可以完全取代人类医生的地步。对于普通人而言，面对AI的医疗建议时，仍然需要保持理性，不要轻信"机器医生"的初步判断。

哈佛最新研究：用AI大型语言模型看病 80%的初步诊断都是错的

新闻内容