Pinterest的决策质量评估框架

在线平台需要强大的系统来大规模执行内容安全政策。这些系统的一个关键组成部分是评估由人类代理和大型语言模型（LLMs）做出的内容监管决策的质量。然而，由于成本、规模和可信度之间的固有权衡，以及不断变化政策的复杂性，这种评估具有挑战性。为了解决这个问题，我们介绍了Pinterest开发和部署的综合决策质量评估框架。该框架以由主题专家（SMEs）精心策划的高信任度黄金集（GDS）为中心，作为基准的真实数据。我们引入了一个自动智能采样流程，该流程使用倾向分数来有效地扩大数据集覆盖范围。我们展示了该框架在几个关键领域的实际应用：评估各种LLM代理的成本性能权衡、建立基于数据的提示优化的严格方法、管理复杂的政策演变以及通过持续验证确保政策内容普及度指标的完整性。该框架使内容安全系统从主观评估转向数据驱动和量化的实践。