前沿把哮喘误当肺炎的保护因素专家警告

阅读提示:阅读本文大约需要7分钟。

导读:

AI模型比人的准确率更高?未必!

在肺炎模型中,只有回顾性研究远远不够

医疗领域人工智能需要新的监管方法

FDA无法单独负起监管角色

当前人们围绕机器学习和人工智能在医学领域的应用大肆宣传,不过专家们对此相对更加谨慎,最近的美国人工智能医学研讨会上,有几位专家警告如果人工智能在没有经过充分测试和建立相应法规的情况下匆忙进入诊所会对患者造成很大的伤害。

美国食品和药物管理局(FDA)现已批准至少三种基于AI的工具在临床使用。

Viz.ai公司的LVO中风平台于今年2月获得批准,用于分析计算机断层扫描中风的迹象。

IDxLLC公司的IDx-DR设备在4月获批,该设备使用AI软件检测糖尿病患者的视网膜病变,旨在供非眼科的专业人士使用。

Imagen公司的OsteoDetect上周获得批准,用于帮助检测和诊断成人的腕部骨折。

然而,即使这些工具目前也还没有发布前瞻性数据来支持他们的有效性。

目前人工智能都是回顾性的,即使一些回顾性研究的结果非常好,但它们不足以证明其在临床使用的合理性。

“未知的未知数”

“如果有人说他们的AI模型比人的准确率更高,你千万别相信,这全部都在测试数据上的结果。在测试数据上的精确度高是不够的,”华盛顿州雷蒙德市微软研究院的高级研究员RichCaruna博士表示。

为了说明潜在的陷阱,Caruna讲述了他所研究的人工智能模型将肺炎患者中有高死亡风险的人从中区分开来,他们可以得到比低风险患者更周密的看护,从而可以安全的从急症病房转出。早期的迭代算法对测试数据有非常好的准确性。它还表明了哮喘患者死于肺炎的可能性低于无哮喘患者,因此可以安全地出院回家。

Caruna说,根据临床医生输入的数据,哮喘在训练AI模型的数据集中可以被认为是保护因子,但它的保护作用其实是因为混杂因素。

哮喘患者往往能更早得到护理,因为他们对自己的肺功能更加在意更加及时的发现问题,因此他们可能会更快被收住入院或重症监护室。但该模型对此完全不加考虑。

JohnHennessy博士,斯坦福大学前任校长,年图灵奖的核心人物。他在研讨会上警告,“记住一件事,监督学习是输入垃圾得到垃圾的典型例子……如果你写下垃圾代码,你得到的答案不会是真实的答案,这些程序可以从示例中提取信息,但它们并没有见解。”

换句话说,如果肺炎模型在临床实施,可能会置哮喘患者于危险的境地,因为神经网络和机器学习模型无法思考某些东西是怎么发生的;他们只检测出他们训练的数据模式。

因此,如果有像哮喘或心脏病这样可以被诊断和有效治疗的风险因素,这些风险因素会显示为保护因素,这是由于临床医生对它的反应,而不是因为基础生物学的原因。

“令人恐惧的是,这些模特往往会对我们能够检测和治疗的事情犯下重大的错误。如果我们过分信任这些模型,可能会导致灾难性的后果,”Caruna说。

Caruna说,神经网络和人工智能的另一个主要问题是这些模型是基于如此庞大的数据,而且这些数据非常复杂,没有人真正知道到底什么导致了特定的结果。

只有回顾性研究是远远不够的

在肺炎模型中,他知道这个问题的唯一原因是研究员一直致力于使模型像现在经常用的护理方法一样简单、透明、以规则为基础,所以模型把哮喘看做了保护性因素。知道了这些后,Caruna检查了他的模型并发现了同样的事情。

“这个问题我可以修复,但我并不知道还有什么潜在的问题,因为不知道,所以也无法纠正。这就是未知的未知因素。这确实是这些超级复杂模型的一个问题,”他说。

考虑到这些未知因素,Caruna表示,对基于AI的决策模型进行前瞻性临床试验非常有必要,以促进改善结果,避免伤害患者。

包括Topol在内的其他几位发言者也赞同这一观点。Topol强调说,我们需要看到这些工具以前瞻的方式改善患者的治疗效果,而不仅仅是在它们测试的数据集上非常准确。“我确实需要患者的结果,”Topol说,“我不需要所有的随机临床试验,但我对计算机回顾性研究怀有疑问。”

需要新的监管方法

谷歌VerilyLifeSciences的顾问RobertCaliff。他将计算和人工智能的现状比作工业革命最后阶段黎明前的至暗时刻——蕴含着巨大的希望,也潜藏着巨大伤害的危险。

“我一直在谷歌里提醒工程师,与推荐人买错了一双鞋不同,如果你的算法导致医生推荐了错误的治疗手段或对做出对健康有害的决策,这会出人命的,”他说。

监管机构将在保护患者方面发挥重要作用,但该监管可以做到什么或者应该是什么样的,这些还有待商议。“但我认为,老式的方式显然是行不通的,”他说。

老式的方法是针对具有很长开发周期的药物而设计的,包括临床前试验和前瞻性临床试验。“但在这里,我们的模型非常复杂,因素很多,迭代很快,延迟时间很短。显然,如果每次AI算法改变了都必须停下来让FDA重新评估它是否有效,这会有很大问题,”他说。

Califf用一个鲜明的例子说明了他的观点:“这会导致旧方式无法满足目标的情形。但我认为,尽管遭到不少非议,这是一个具有巨大潜在负面结果的核武器。现在造出来的还只是其中的少数,”他说。

FDA无法单独负起监管角色

目前,Califf指出临床决策支持(区别于决策权)正在获得监管通行证。“我认为这是正确的做法,”他说。“但我们会发现,随着人工智能不断进步,它可以带来巨大的好处或巨大的伤害。我们必须开发出提前鉴别是好是坏的方法。因为在出现问题后再修正是不够的。”

目前,机构采用的方式有点像机场安检的预检,以此检验在技术上的正确性。但同时也有需要进行包括临床结果的上市后评估,Califf解释说。

Califf说,21世纪治愈法以“非常合理”的方式解决其中一些问题。如果基于AI的模型或设备是用于收集信息,例如对走路计步的设备,那么就没有必要进行监管。

如果该技术用于诊断或治疗疾病,例如IDx-DR和OsteoDetect,那就需要得到FDA的批准。如果算法会参与治疗,例如告诉除颤器什么时候触发,那就需要像其他设备一样进行监管。

至于该由谁主导该领域的监管,Califf申明不该由FDA单独去做。

FDA没有人力或专家来全面考虑新技术包括道德、计算和临在内的各个方面。

他特别呼吁拥有不同兴趣和人才库的大学参与其中,来确保这项技术可以改善患者的生活。临床医生、拥护此技术的患者小组和数据科学家也需要参与其中。Califf说“我们都需要发挥作用;而不是把这件事单单交给FDA。”

请猛戳右边


转载请注明:http://www.winkeecrm.net/xccq/8097.html


当前时间: