最难获取的是真实的问诊数据如何让问诊AI少出错甚至不出错,是所有研发团队要解决的首要难题。大语言模型的本质是通过统计分析预测对话中可能的下一个词,存在生成不准确或误导信息的可能性,但在严格要求准确性的医疗领域,AI的错误也意味着患者将承受风险。2021年,密歇根大学医学院研究人员发现,由美国电子健康记录公司Epic Systems 研发的败血症AI预警系统没能识别出67%的败血症住院患者,只识别出7%被医生遗漏的败血症患者。Epic公司称,漏检与系统阈值有关,需要设置一个平衡患者假阴性与假阳性的警报阈值。高质量数据是保证准确性的基础。医疗大语言模型会被额外“投喂”医学书籍、临床诊疗指南、医学论文等专业知识。其中最重要、也最难获取的是优秀的真实问诊数据,既包括顶级专家对该疾病的诊断记录,也包括患者身体特征、检测数据、家族史、环境信息等多维度的信息,同时,还需要覆盖各年龄层、性别、地域的患者。多位受访专家和从业者表示,已有问诊数据尚不能完全满足研发需求。国家远程医疗与互联网医学中心医学人工智能专家委员会主任委员、呼吸病学专家刘国梁告诉《中国新闻周刊》,即使能收集到目前医院的临床数据,其质量也未达到能够用于AI训练的水平,需要专门去生产符合AI训练标准的临床问诊数据。更多的临床经验可能未被记录成文本。“特别是疑难病领域,很多知识是在医生脑子里,甚至医院里面可能也没有,都是口口相传。”曾柏毅说。王仕锐介绍说,医联共使用三类真实问诊数据,包括公开数据、医联独有的问诊数据,以及通过搭建专门的数据平台收集的数据。对于第三类数据,医联从协会、医院、专家处采集,“这一过程好像将石油从地底勘察并最终加工运输到油箱,中间有漫长且复杂的工序。”前述高校学者强调,数据质量对研究非常重要,但前提是要保障数据安全。对数据的采集、筛选必须建立在保护数据安全的基础上,个人信息脱敏,保护患者隐私是首要步骤。医联、春雨医生和商汤均表示对数据进行了脱敏处理,并在使用前取得了患者同意。除了数据,模型设计也能提升医疗AI的准确率。田丰说,商汤成立了一支近百人的医学专家团队,参与数据标注、模型训练及测试,保证AI能够完成多轮问诊、不回答患者非医疗问题等。商汤还训练了一套“智能评判系统”,对大语言模型输出的答案进行评判,让模型输出更符合临床专业要求以及人类价值观的回答。不过,再怎样调试医疗AI,其本身存在一定局限性。刘国梁认为AI与真人医生最根本的差异在于,二者在诊疗过程中的原则可能不相同。目前尚不能确定AI在诊断时,是以患者生命长度为重要衡量,还是以更好的生命质量为先,抑或根本与人类福祉无关。一名优秀的医生能够在关注患者治疗方案的同时,照顾其情绪、花费、家庭情况,目前医疗AI还难以做到。另外,医疗AI主要依靠患者的问诊数据,缺少查体过程。一方面,躯体类疾病可能会影响患者的感觉,使其表述出来的感受与病情严重程度不相符;另一方面,不同疾病也有相似症状,只靠询问很难得到准确结果。北京大学人民医院骨科主任医师薛峰告诉《中国新闻周刊》,很多医学问题尚未有明确答案,许多医生也是依靠经验,达不到100%的准确率,更何况依靠人类经验来进行推理的AI,“现阶段让它来看病只是作为一种咨询、一种辅助,最后判断还是要交给真人医生,AI还需持续学习和调优”。多位受访从业者、专家均表示,AI并不可以、也不可能取代医生,不应有处方权。一旦涉及诊断、开处方,必须有真人医生参与其中,否则就会面对“AI看病看错了,到底是AI负责,还是AI开发公司负责,抑或是购入AI产品的医院或医生负责”的难题。当AI与医生意见不符合,比如患者希望按照AI建议做非常昂贵,但医保不报销的检查,医生觉得没有必要时,也可能出现伦理问题。据《华尔街日报》今年6月报道,在加州大学戴维斯分校医学中心肿瘤科,护士梅丽莎·毕比和癌症患者打了15年交道。当AI预警系统提示她的一名患者有败血症时,她确信警报是错的——因为AI不知道,白血病患者也会表现出类似败血症的症状。按照医院规定,毕比可以在获得医生批准后推翻AI的诊断,但如果她错了,她将面临处分。最后,她只好按照AI的诊断给病人抽血检查,即使这可能会让病人进一步感染,也会让其治疗费用更高。未来临床实践将怎样保证医生参与监管AI?薛峰表示有两种设想:一是仍然由医生负责开处方,AI只负责前期询问及信息收集;二是由AI开处方,但医生需要审核治疗方案,至少保证药物无害并签字,若出现问题,仍由签字医生负责。全新的三方关系6月末,医联在成都举行了一场“双盲实验”,让MedGPT与10位四川华西医院的主治医生一起对120余位患者进行诊断,来评测AI与真人医生的一致性,最后由多位专家对91份有效病例审核。刘国梁与薛峰都参与了此次审核,二人表示MedGPT的效果比预期稍高,没有出现太大错误,但也存在一些问题。薛峰表示,MedGPT在面对复杂病情时的问诊逻辑还很简单。他解释说,每一种疾病往往会有一组症状,单一症状对应的疾病可能有几十种、上百种,而患者在表达主诉时往往只会说到其中一两个最严重的症状。做排除诊断时,真人医生能够不断就可能的关联症状进行提问,最后根据患者回答作甄别,而MedGPT在关联不同症状的全面性上还有不足。王仕锐称,医联的下一步除了提高准确率,还会整合多模态能力,弥补不能进行查体的缺陷。比如给MedGPT“装眼睛”,以视频方式做运动轨迹识别,解决骨科查体难题。谷歌在7月末推出新的通用生物医疗AI模型Med-PalM M,除了回答医疗问题,Med-PalM M还可检查X光图像,甚至扫描 DNA 序列是否存在突变。摆在问诊AI面前的问题,还有监管。此前,国家药监局器审中心发布的《人工智能医疗器械注册审查指导原则(征求意见稿)》等文件规定,基于医疗器械数据、使用人工智能技术实现其预期用途的医疗器械,需要经药监局审批上市。医疗器械数据包含图像数据、生理参数、体外诊断数据等,电子病历、医学检查报告的结果文本等属于非医疗器械数据。以MedGPT为例,虽然主要依靠患者主诉信息,但是也会给患者开检查报告,基于血糖、血压等数据来推荐治疗方案。王仕锐表示,在当下的监管体系中难以界定其是否属于医疗器械,对此类新型产品,相关部门可能会有新的监管框架。7月13日,国家网信办联合六部门公布《生成式人工智能服务管理暂行办法》(下称《办法》)。《办法》自2023年8月15日起施行,其中提到鼓励生成式AI创新发展,并要求“具有舆论属性或者社会动员能力”的产品,向公众提供服务前,需开展安全评估,并履行算法备案。基于生成式AI的问诊产品是否要申请安全评估和算法备案,多家企业说法不一。前述学者表示,该《办法》为医疗AI设定了合法合规的框架,但针对医疗AI的监管如何实施,标准如何制定,《办法》还未明确。“标准化最关键的、最本质的目的就是建立最佳秩序。”该学者说,为创新产品制定标准是一个缓慢的过程,到底怎么定、定多高需要不断摸索。多位受访从业者都表示从研发到进入临床,医疗大语言模型还有很长一段路走,但也都认可AI一定是未来医疗格局的一分子。AI可以使医疗模式转向社区化、家庭医生化。薛峰表示,门诊中90%以上都是常见病,可以通过家庭医生来解决,但目前医疗资源并不均衡,三甲医院与基层医院医疗水平相差过大,导致患者对社区医院不信任。薛峰说,若AI成为面向患者的家庭医生,患者通过预先咨询AI,可为医疗机构减轻负担,同时也增加对病情的初步了解,找准看病方向。“这样的医疗模式有助于医疗规范化,减少过度医疗或医疗欺骗。”薛峰说。在面向医生的场景中,AI的作用可以更多。多位受访专家表示,AI可以成为助手,帮助医生学习疑难杂症的前沿治疗方案,减少误诊率,亦可参与医学培训,帮助年轻医生及医学能力不足的基层医生成长。美国波士顿的一家医疗机构已开始使用ChatGPT来培训规培生。“因为医学训练有时候不存在对错,而是锻炼医生的思维方式、结果解读、沟通等,可以(用AI)单独去训练这些能力。”刘国梁说。更直接的可能性是AI能使医生从文书的工作中获得解放。浙江某三甲医院的一名规培医师告诉《中国新闻周刊》,接收新病人时会花费不少时间写首程诊断。今年2月开始,他尝试让ChatGPT帮他写鉴别诊断,“因为有时候诊断都很明确了,还要绞尽脑汁去想鉴别诊断也挺烦。我会直接把问题抛给ChatGPT,告诉它我想写某两种疾病的简洁诊断,它会给我列出好几点。” 未来医疗到底会怎样,微软全球资深副总裁彼得·李与两位合著者在《超越想象的GPT医疗》中描绘了一种新的医患关系:传统医学中医生与患者是一对双向关系,但现在我们应该转向一种全新的三方关系,而AI是这个三角关系的第三支柱。