Tool Decathlon:大模型工具使用能力基准测试
Tool Decathlon(简称 Toolathlon)是一个针对语言代理的基准测试框架,用于评估大模型在真实环境中使用工具执行复杂任务的能力。该基准涵盖32个软件应用和604个工具,包括日常工具如 Google Calendar 和 Notion,以及专业工具如 WooCommerce、Kubernetes 和 BigQuery。它包含108个任务,每个任务平均需要约20次工具交互。该框架于2025年10月发布,旨在填补现有评测在工具多样性和长序列执行方面的空白。通过执行式评估,该基准提供可靠的性能指标,推动语言代理向实际应用场景发展。
当前大模型工具使用评测的局限
现有大模型工具使用评测主要集中在单一工具或简单交互上,无法模拟真实工作流中的多工具协作和长时序决策。例如,许多基准仅测试工具调用准确性,而忽略环境设置的复杂性和任务的可验证性。这导致模型在实验室环境中表现良好,但在实际部署时失败率高。另一个问题是工具描述的标准化不足,模型难以处理专业领域工具的细微差异。此外,缺乏大规模、多样化任务集,使得评测结果难以泛化到企业级应用,如数据管理和集群部署。
Tool Decathlon 的背景与目标
Tool Decathlon 由香港科技大学自然语言处理组(HKUST-NLP)主导开发,核心作者包括 Junlong Li 等21位研究者。该基准于2025年10月29日以 arXiv 预印本形式发布(论文编号 2510.25726),并通过 GitHub 开源(仓库 hkust-nlp/Toolathlon)。开发团队基于 Model Context Protocol (MCP) 服务器构建工具集,其中多数工具经过修改或自行实现,以确保兼容性和真实性。
该基准针对的核心问题是现有语言代理在长时序、多工具任务中的低效执行。传统评测往往局限于短对话或静态问题,无法捕捉真实场景下的动态交互,如跨应用数据流动和错误恢复。Tool Decathlon 旨在解决这一问题,通过提供多样化工具和可控环境,测试模型在高价值生产力场景中的泛化能力,例如企业数据管理或软件运维。
基准的设计与执行流程
Tool Decathlon 的核心在于其多层设计:工具层、任务层和评估层。工具层包括604个 API 接口,覆盖从个人生产力到企业级应用的32个软件平台。任务设计强调长时序执行,每个任务需模型自主规划路径、调用工具并验证输出。
主要任务与数量
基准包含108个手动构建或采集的任务,分为日常和专业两类。以下是部分示例:
| 任务类别 | 示例任务 | 涉及工具 | 平均交互次数 |
|---|---|---|---|
| 日常生产力 | 分析 NVIDIA 机构持股趋势,调整股票拆分后数据,填充 Excel 模板 | Google Sheets, Notion | 15-25 |
| 专业运维 | 配置 Kubernetes 集群,部署 WooCommerce 商店 | Kubernetes, BigQuery | 20-30 |
| 数据管理 | 查询 Snowflake 数据库,生成报告 | Snowflake, Google Maps | 18-22 |
每个任务从自然语言描述开始,模型需生成工具调用序列,直至完成目标。流程如下:
- 环境初始化:使用 MCP 服务器模拟真实 API 响应,确保无外部依赖。
- 代理执行:模型接收任务提示,输出工具调用(包括参数和顺序),系统执行并返回观察结果。循环迭代,直至任务结束或超时(最大100轮)。
- 评估方法:采用严格的执行式验证,每个任务配备专用脚本检查最终状态(如文件生成、数据库更新)。成功率基于任务完成度计算,辅以辅助指标如工具调用轮数和错误率。评估不依赖人工标注,确保可重复性。
该设计支持零样本或少样本设置,允许研究者自定义代理框架。
主流大模型在 Tool Decathlon 上的表现
基准对多项状态艺术(SOTA)模型进行了全面测试,结果显示模型在复杂工具交互中的整体能力有限。以下表格总结部分主流模型的性能(基于论文报告数据):
| 模型名称 | 类型 | 成功率 (%) | 平均工具调用轮数 | 备注 |
|---|---|---|---|---|
| Claude-4.5-Sonnet | 闭源 | 38.6 | 20.2 | 最佳闭源模型,在专业任务中表现稳定,但长序列规划易出错 |
| GPT-4o | 闭源 | 32.1 | 22.5 | 在数据管理任务中得分较高,但工具参数错误率达15% |
| Gemini 2.0 Pro | 闭源 | 28.4 | 19.8 | 日常工具使用流畅,专业应用泛化弱 |
| DeepSeek-V3.2-Exp | 开源 | 20.1 | 25.3 | 顶级开源模型,资源消耗低,但成功率受限于上下文长度 |
| Llama-3.1-405B | 开源 | 18.7 | 23.1 | 在多应用协作中调用效率低,平均超时率12% |
分析显示,闭源模型整体领先,但成功率均未超过40%,反映出规划和恢复机制的不足。开源模型在工具调用准确性上接近闭源,但长时序任务中观察利用率低(平均仅70%)。专业任务(如 Kubernetes 配置)拉大差距,成功率比日常任务低20%。这些结果表明,当前模型需加强多步推理和错误处理能力。
Tool Decathlon 的启示与展望
Tool Decathlon 揭示了大模型工具使用能力的瓶颈,同时为未来发展提供清晰路径。该基准强调真实环境的重要性,推动研究从单一工具向生态系统评估转型。通过开源工具和任务集,它便于社区扩展和复现。展望未来,该框架可集成更多领域工具,如金融 API 或医疗系统,进一步测试泛化边界。总体而言,Tool Decathlon 标志着语言代理评测向实用化迈进,有助于构建更可靠的 AI 助手。研究者可访问 toolathlon.xyz 或 GitHub 仓库获取完整资源,继续贡献评估数据。