OpenAI于昨日(2日)宣布推出全新基准测试“PaperBench”,旨在评估AI Agent复制顶尖AI研究的能力,结果显示即使最先进模型仍未超越人类基准线。
PaperBench要求AI Agent从零开始复制20篇于ICML 2024会议上发表的Spotlight和Oral论文,包括理解论文核心贡献、独立开发代码库及成功执行相关实验。为确保评估公正客观,研究团队设计了层级化评分标准,将每项复制任务分解为8,316个可独立评分的子任务。
OpenAI表示,所有评分标准均与原论文作者共同制定,以确保评估的准确性和实用性。团队同时开发了基于大型语言模型的评判系统,能够自动对AI Agent的复制尝试进行评分。
测试结果显示,目前表现最佳的AI Agent,由Anthropic开发的Claude 3.5 Sonnet(新版本),平均复制分数仅达21%。研究团队亦邀请顶尖机器学习博士生完成相同测试,结果表明AI模型尚未能超越人类专家在研究复制方面的能力。目前OpenAI已开源相关代码,以促进业界对AI Agent工程能力的进一步研究。