医疗AI不想上云?OpenMed说行




我有个朋友在信息科上班,上个月拉我出来喝酒,吐槽说科室花了三十多万搞的脱敏项目彻底翻车了。我当时问他咋翻的车,他讲处理完拿到数据一跑时间序列,所有的日期全都变成了1970-01-01,我听完当场真没憋住笑出了声,结果他跟我说你别乐,我好几年攒下来的随访数据全作废了。后来我仔细琢磨了一下这事,其实也不能全怪他们科室,脱敏工具压根就不懂医学文本,只要看见日期就直接替换,后面还能不能开展生存分析它根本不管,同时也是管不了的,毕竟市面上大部分通用脱敏工具就是凭借字段类型一刀切,它哪里知道这个日期字段跟病人的治疗方案、随访周期全都挂钩,动了日期就相当于动了整条数据链。

前阵子刷GitHub的时候瞅见OpenMed,涨得挺猛我就顺手翻了一下,发现它的方向跟我预想的完全不一样,并不是又搞出来一个大模型,而是专心致志做实体抽取加上隐私脱敏,并且全部都是离线跑的。把出院小结丢进去,疾病、药物、解剖部位、检查指标这些能给抽出来,姓名身份证住院日期也能同步进行脱敏,全程都不联网,甚至都不用插网线。我之前也关注过微软做的BioGPT,便利性确实拉满了,但是数据必须要过它的服务器,Google的Med-PaLM就更封闭了,权重都不让你看,它究竟是怎么处理我的数据我完全看不到。OpenMed倒是走了一条绕远的路,需要自己动手部署,换来的是数据从出炉到脱敏全在你自己的网络边界以内。这三条路线其实真没必要去比性能,完全是三种对待数据主权的态度。

代码库翻完之后有个意外发现。里面有一千多个生物医学模型,CPU支持,CUDA支持,苹果MLX跑起来比CPU快三十倍,而且它有个Swift包叫OpenMedKit,iPhone和iPad上能够直接离线做临床文本抽取加上隐私脱敏。我拿家里iPad Pro试了一下,拍一张出院小结当场就能出结果,实体抽取加上PII脱敏同时完成,两三秒一页,速度快到我有那么一瞬怀疑是不是在做本地缓存而不是真正的离线推理,后来断掉Wi-Fi再跑一遍结果一样,确实是纯本地运算。当时我还拍了五份不同科室的出院小结,心血管的、骨科的、肿瘤科的,格式差异挺大的,结果都认得出,没有出现那种换个科室就识别率暴跌的状况。社区医生上门随访的场景终于有解了,随访做完当场处理不需要回医院再补录,中间隔几个小时信息容易丢这事我听不止一个人吐槽过了,而且以前随访记录要么手写要么拍照传回去再由专人录入,整个流程拉得太长,等录完有些细节早就记不清了,这种信息衰减在实际工作中比想象中严重得多。

HIPAA 18类全覆盖,247个检查点,12种语言脱敏,连葡萄牙语CPF、荷兰BSN、印度Aadhaar都能认,做到这个程度确实不多见。GDPR第9条把健康数据归进了敏感个人信息,处理门槛本身就高,OpenMed直接从架构上回避了数据传输这个环节,合规成本趋近于零。这一点在欧洲市场尤其关键,任何涉及健康数据的跨境流转都需要DPIA评估,光是文书流程就能拖上几个月,本地跑直接绕过了这层麻烦。不过话说回来,国内开源医疗AI的团队实在是太少了,大部分走的是SaaS或者私有化部署百万起步的模式,赚钱没问题,但凡涉及医疗数据,本地化就是刚需,逼着医院花大钱买方案不如把基础能力开源了大家一起建设。国内也有做开源医疗模型的,不过多半只在预训练这一步就停了,面向真实应用场景的工具链几乎没有什么着落。OpenMed从预训练一路到微调部署隐私脱敏全都串起来了,Apache-2.0协议代码全给,单卡GPU十二小时训完,碳排放不到1.2公斤,光这一点在圈内就算异类。

我特别想聊一个细节,智能实体合并这个东西看着不起眼,解决的问题却很实际。遇到日期「01/15/1970」,别家的模型经常拆成「01」「15」「1970」单独标注,OpenMed却能把整个日期作为一个实体保住。四种脱敏模式各有用途,掩码替换选用[FNAME][DATE]这类占位符做匿名化,Faker替换填充假数据格式不变拿来做科研挺顺手,哈希加密脱敏适合需要可追溯的场景。

阅读全文(5积分)