
推荐文章
- [论文翻译]Med-HALT: 大语言模型医疗领域幻觉测试
- [论文翻译]GPTScore: 按需评估
- [论文翻译]大语言模型 (Large Language Model) 能否替代人类评估?
- [论文翻译]大语言模型多轮医疗问诊能力的自动评估框架
- [论文翻译]MedGPTEval: 用于评估大语言模型在医学领域响应能力的数据集与基准
- [论文翻译]实践中的大语言模型(Large Language Model)力量:关于ChatGPT及其他模型的综述
- [论文翻译]用自然语言补丁修复模型缺陷
- [论文翻译]G-EVAL: 基于GPT-4并更好对齐人类的自然语言生成评估方法
- [论文翻译]大规模快速模型编辑
- [论文翻译]乳腺癌筛查:医学影像诊断中多模态技术的应用