SUREON:一个用于外科推理的基准和视觉-语言模型 **摘要** 外科手术推理是一。.
完整版
外科医生不仅仅是观察——他们进行解释。当专家观察手术场景时,他们不仅理解正在使用哪种器械,而且理解为什么选择该器械、它存在什么风险以及接下来会发生什么。目前的手术AI无法回答这类问题,主要原因是明确编码手术推理的训练数据极其难以大规模标注。然而,手术视频讲座已经包含了这些内容——由专家讲述的意图解释、推理依据和预期,目的是为了教学。虽然这些讲述本质上存在噪声和非结构化特征,但它们编码了手术AI目前缺乏的推理能力。我们引入SUREON,一个大规模视频问答数据集,系统性地从手术学术视频中提取这一训练信号。SUREON定义了12个问题类别,涵盖安全评估、决策依据和预测,并使用多智能体管道大规模提取和结构化监督信息。在134.7K个视频片段和170种手术类型的基础上,SUREON产生了206.8k个问答对和354个经专家验证的基准示例。为了评估该监督信息在多大程度上转化为手术推理能力,我们引入了两个模型:SureonVLM,一个通过监督微调适配的视觉-语言模型,以及SureonVLM-R1,一个使用群组相对策略优化训练的推理模型。这两个模型都能够回答有关手术的复杂问题,并且显著优于更大的通用领域模型,在SUREON基准上的准确率超过84%,同时在标准手术感知任务上优于通用领域模型。SureonVLM-R1的定性分析显示了明确的推理行为,例如从视觉背景推断手术意图。
赞
评论
请
登录后发表观点
