Anthropic 发布 Claude Opus 4.7.
不管那些跑分怎么变, 起码现在又是是满血 Opus 了. 暂时不用再猜后台是不是又偷偷降智了.不过好像洗车这样脑筋转弯的问题,还是没有回答上来。
针对自动化 Agent 任务的底座翻新和硬核跑分变化:
1. 编码基准跃升. SWE-bench Pro 干到 64.3%, 提了 10.9%. CursorBench 飙到 70%. Rakuten 生产任务基准效率直接 3 倍.
2. API 算力节流. 新增 xhigh 推理级别, 配合 Task budgets, 终于能从底层控住长线 Agent 跑飞的成本.
3. 终端与视觉强化. 视觉分辨率拉高 3 倍, CharXiv 视觉推理破 91%. Claude Code 上线 /ultrareview 专职代码审查, 自动执行向 Max 用户开放.
人话: 跑得更稳更省, 能看的更细, 能自己干活的权限也更大
博客:
http://t.cn/AXMei2ZL
发布于 四川
