AI“医生”作弊医学教师考试
DPA/图像联盟通过盖蒂图像
世界上最先进的人工智能系统本质上与医疗测试有关,并且不会通过真正的医学知识实现令人印象深刻的价值,但是通过设计这些测试的方式来利用差距。这一发现对10亿医疗技能以及可能拥有医疗服务的每个患者都有巨大影响。
医疗ki欺诈的问题
想想医学AI基准等标准化测试,这些测试衡量了人工智能系统如何理解医学。正如学生们乘坐SAT证明他们已经准备好上大学一样,采用此医学基准表明他们愿意帮助医生诊断疾病并推荐治疗。
但是当前的 开创性研究 Microsoft Research发表的表明,这些AI系统不学习医学。您只是非常擅长进行测试。这就像发现学生已经取得了不了解数学和阅读的完美SAT结果,但最常见的是通过记住答案的选择。
研究人员通过严格的压力测试设定了六个顶级AI模型,发现这些系统通过复杂的测试技巧和真正的医学理解来实现高医疗价值。
Ki系统如何欺骗系统
研究小组发现了各种AI系统伪造的医疗能力和几乎显示人类学生的方法:
- 如果研究人员只是简单地重组了多项选择的顺序,则例如,AI性能大大减少了选项A中的选项A。这意味着系统学会了“答案通常位于B”,而不是“肺炎会导致这些特定症状”。
- 如果您有任何需要分析X射线图像或MRIS等医学图像的问题,即使图像已完全删除,AI系统仍然提供了正确的答案。例如,GPT-5在视觉提出的问题上的精度为37.7%,即使没有图像,远高于20%随机水平。
- AI系统已经发现了如何在错误答案中使用信息来猜测正确的信息,而不是应用真实的医学知识。研究人员发现,这些模型是基于错误答案的措辞,被称为“分销商”。如果这些干扰因素被非医学术语取代,则AI的准确性崩溃了。这表明它是基于测试技巧而不是真正的理解。
您对AI的医疗保健
这项研究是在AI迅速从医疗保健开始的时候进行的。 80%的医院 现在使用AI提高患者护理和运营效率。从阅读X射线到治疗,医生越来越依赖AI。但是,这项研究表明,当前的测试方法无法区分算法的实际医疗能力和复杂的测试实施。
微软研究研究表明,诸如GPT-5之类的模型达到了80.89%的医疗图像挑战的准确性,但删除图像时跌至67.56%。 13.33个百分点的下降显示了对非视觉适应症的隐藏依赖性。比研究人员更令人担忧的是,尽管文本问题的变化发生了变化,但替代了替代不同诊断的人的替代,但却遭到了30个以上的百分点。
考虑到这种情况:AI系统在医疗诊断测试中达到95%的价值,并在急诊室使用以帮助医生迅速评估患者。但是,如果该系统通过测试技巧而不是通过医学理解实现了其高价值,那么如果与实际患者面对不符合从测试问题中学到的模式的真实患者,它可能会错过关键症状或建议不适当的治疗方法。
预计到2030年,医疗AI市场预计将超过一亿亿,因此,全球卫生系统在AI诊断工具上投入了大力投资。购买基于令人印象深刻的基准值的AI系统的卫生组织可以在不知不觉中引入严重的患者安全风险。微软研究人员警告说,“医疗基准结果并不能直接反映出真正的意愿”。
效果超出了测试结果。微软的研究表明,当被要求解释他们的医学论点时,KI模型通常“令人信服但不正确的推理”或“发明论点支持的正确答案”。一个示例显示了一个正确诊断的白瘤炎的模型,而图片中不存在的视觉特征,因为根本没有提供图片。
即使接受AI的接受也加速了, 医学对AI的快速介绍影响了研究人员专家警告说,医院和大学必须使用来弥合法规的差距。
AI样本识别问题
与人类的医学生相反,他们通过了解疾病如何影响人体的人体学习,当前的AI系统通过在数据中找到模式来学习。这创建了微软研究人员所说的“快捷方式学习”,并在不发展真实理解的情况下找到了正确答案的最简单方法。
研究表明,AI模型可以通过解释放射学特征来诊断肺炎,而是通过得知“生产性咳嗽加上的“发烧”已经统计地参与了肺炎的训练数据。这不是医学上的理解。
最近的研究 大自然表现出类似的担忧并表明,如果这些系统没有证明对医疗环境的真正理解,对AI支持的卫生系统的信任仍然存在问题。
向医疗AI转发
微软研究人员致力于我们如何测试医疗AI系统。我们需要评估方法,而不是依靠基准值,而不是识别AI系统是游戏测试而不是学习医学的方法。
医疗AI行业正面临关键时刻。微软的研究结果表明,令人印象深刻的基准值引起了可能对患者安全造成严重后果的意愿的幻想。由于AI继续扩展到医疗保健系统,因此我们必须开发检查这些系统,以满足其复杂性和复杂失败的潜力。