• [论文翻译]G-EVAL: 使用GPT-4进行自然语言生成评估并实现更好的人类对齐

    自然语言生成(NLG)系统生成的文本质量难以自动评估。传统的基于参考指标的评估方法(如BLEU和ROUGE)已被证明与人类判断相关性较低,特别是在需要创造力和多样性的任务中。近期研究表明,可以使用大语言模型(LLM)作为无参考指标的NLG评估方法,其优势在于可应用于缺乏人工参考的新任务。然而,这些基于LLM的评估器与人类判断的相关性仍低于中等规模的神经评估器。本文提出G-EVAL框架,通过结合思维链(CoT)和表单填写范式,利用大语言模型评估NLG输出质量。我们在文本摘要和对话生成两个任务上进行实验,结果表明以GPT-4为骨干模型的G-EVAL在摘要任务上达到0.514的Spearman相关性,大幅超越所有现有方法。我们还分析了基于LLM的评估器行为特征,并指出这类评估器可能对LLM生成文本存在偏好的潜在问题。[1]
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理