• [论文翻译]INSTRUCTS CORE: 基于细粒度反馈的可解释文本生成评估

    自动评估语言生成的质量至关重要。尽管近期基于学习的指标与人类判断显示出高度相关性,但这些指标既未提供明确的裁决解释,也未将评分与生成文本中的缺陷关联起来。为应对这一局限,我们提出INSTRUCT SCORE——一种细粒度可解释的文本生成评估指标。通过结合显式人工指令与GPT-4的隐式知识,我们基于LLaMA微调出能同时输出生成文本评分和人类可读诊断报告的文本评估指标。我们在翻译、字幕生成、数据到文本转换及常识生成等多种任务上评估INSTRUCT SCORE。实验表明,我们的70亿参数模型超越了所有其他无监督指标,包括基于1750亿参数GPT-3和GPT-4的指标。令人惊讶的是,即便未使用人工评分数据进行直接监督,INSTRUCT SCORE的性能仍与COMET22等基于人类评分微调的前沿指标相当。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理