这项人类研究未涉及受试者:验证大型语言模型模拟作为行为证据的有效性

越来越多的文献使用大型语言模型(LLMs)作为合成参与者,在社会科学实验中生成低成本且几乎瞬时的响应。然而,关于何时此类模拟能够支持关于人类行为的有效推断,指导有限。我们对比了两种获取因果效应有效估计的策略,并阐明了每种策略在探索性研究 versus 确认性研究中的适用假设。启发式方法试图通过提示工程、模型微调以及其他旨在减少LLM引起的误差的修复策略,建立模拟和观察到的行为可以互换。虽然对于许多探索性任务很有用,但启发式方法缺乏通常用于确认性研究的正式统计保证。相比之下,统计校准将辅助人类数据与统计调整相结合,以解决观察到的和模拟的响应之间的差异。在明确假设下,统计校准保持了有效性,并在低于仅依赖人类参与者的实验成本的情况下提供了更精确的因果效应估计。然而,这两种方法的潜力取决于LLM如何近似相关人群。我们考虑了当研究人员将目光局限于在研究中用LLM替代人类参与者时,可能会忽视哪些机会。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行