微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

科技媒体 NeoWin 9 月 14 日发布博文，报道称微软官方推出了 Windows Agent Arena 基准框架，用于评估生成式 AI Agents 在 Windows PC 上的性能。

Windows Agent Arena 基准框架

微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度，其中包括 Microsoft Edge 和谷歌 Chrome 浏览器，Visual Studio Code 等编程应用，记事本、时钟和画图等预装 Windows 应用，VLC 等主流媒体播放器。

翻译部分微软官方博文内容如下：

我们采用 OSWorld 框架，构建了横跨代表性领域的 150 多项多样化 Windows 任务，这些任务要求代理具备规划、屏幕理解和工具使用的能力。

我们的基准测试同样具有可扩展性，能够在 Azure 上无缝并行化，从而在最短 20 分钟内完成全面评估。

Navi

微软研究院也打造了自己的多模态 Agents Navi，并在 Windows Agent Arena 基准测试中对其进行了试验。

它被要求根据特定文本提示执行任务，例如：“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗，就是那个桌面？”结果显示，Navi 的平均任务成功率为 19.5%，相较于人类 74.5% 的表现评分，这一成绩仍显偏低。

附上参考地址