SUREON：一个用于外科推理的基准和视觉-语言模型摘要外科手术推理是一。.

完整版

外科医生不仅仅是观察——他们进行解释。当专家观察手术场景时，他们不仅理解正在使用哪种器械，而且理解为什么选择该器械、它存在什么风险以及接下来会发生什么。目前的手术AI无法回答这类问题，主要原因是明确编码手术推理的训练数据极其难以大规模标注。然而，手术视频讲座已经包含了这些内容——由专家讲述的意图解释、推理依据和预期，目的是为了教学。虽然这些讲述本质上存在噪声和非结构化特征，但它们编码了手术AI目前缺乏的推理能力。我们引入SUREON，一个大规模视频问答数据集，系统性地从手术学术视频中提取这一训练信号。SUREON定义了12个问题类别，涵盖安全评估、决策依据和预测，并使用多智能体管道大规模提取和结构化监督信息。在134.7K个视频片段和170种手术类型的基础上，SUREON产生了206.8k个问答对和354个经专家验证的基准示例。为了评估该监督信息在多大程度上转化为手术推理能力，我们引入了两个模型：SureonVLM，一个通过监督微调适配的视觉-语言模型，以及SureonVLM-R1，一个使用群组相对策略优化训练的推理模型。这两个模型都能够回答有关手术的复杂问题，并且显著优于更大的通用领域模型，在SUREON基准上的准确率超过84%，同时在标准手术感知任务上优于通用领域模型。SureonVLM-R1的定性分析显示了明确的推理行为，例如从视觉背景推断手术意图。

SUREON：一个用于外科推理的基准和视觉-语言模型 **摘要** 外科手术推理是一。.

SUREON：一个用于外科推理的基准和视觉-语言模型摘要外科手术推理是一。.