
推荐文章
- [论文翻译]Safety Bench: 评估大语言模型的安全性
- [论文翻译]大语言模型评估综述
- [论文翻译]大语言模型在医学中的应用:潜力与挑战
- [论文翻译]Flash-VStream: 基于内存的长视频流实时理解系统
- [论文翻译]LLM-Mini-CEX: 大语言模型在诊断对话中的自动评估
- [论文翻译]TRANSFORMER-PATCHER: 一错一神经元
- [论文翻译]XLNet: 语言理解的广义自回归预训练
- [论文翻译]Almanac: 面向临床医学的检索增强型大语言模型
- [论文翻译]Med-HALT: 大语言模型医疗领域幻觉测试
- [论文翻译]G-EVAL: 基于GPT-4并更好对齐人类的自然语言生成评估方法