[论文翻译]下一个Token就够了:基于多模态大语言模型的真实图像质量与美学评分
真实图像质量与美学 (RealQA) 数据集 (b), 包含10个丰富的细粒度属性 (a)。基于这些属性, 我们可以 (1) 以思维链 (CoT) 方式重构公共数据集, (2) 直接将细粒度属性和综合评分应用于现实场景。我们在 (c) 中展示了AVA数据集上的两种CoT形式, 并在 (d) 中展示了实际应用案例: 基于AVA数据集 [28] 训练的Q-Align [44] 给出了不合理的评分 (分数按1-10标准化以保持公平性), 而基于RealQA数据集训练的模型则通过丰富的细粒度属性给出了正确排序。为便于观察, 此处仅显示部分预测的细粒度属性。