← 返回日报
精读 预计 12 分钟

FrontierCode

摘要

该基准由 20 余名开源维护者深度参与,从正确性、测试质量、改动范围及代码风格等维度评估 AI 产出。其引入了反向测试和自适应评分等技术,比 SWE-Bench Pro 误报率降低 81%。测试结果显示,Claude Opus 4.8 在最难任务集中仅获 13.4% 分数,显著高于 GPT-5.5 和 Gemini 3.1 Pro,揭示了当前模型在编写符合生产标准代码方面的局限。

荐读理由

在开发 AI 编程工具或评估系统时,可直接参考其‘反向经典测试’(要求 Agent 编写的测试在旧代码上必须失败)与‘语义作用域约束’等工程手段,来解决模型代码虽功能正确但因不合规范而无法合并到生产环境的工程难题。

Hacker News · 125 赞 · 23 评 讨论 → 阅读原文 →

这条对你有帮助吗?