OpenAI新基准难倒AI|openai|genebench-pro|gpt-5.6 sol|claude opus 4.8

【正确率仅三成，OpenAI 新基准 GeneBench-Pro 难倒顶级 AI】

OpenAI 日前发布针对计算生物学领域的 AI 评测基准 GeneBench-Pro，旨在测试 AI 智能体在处理基因、医疗等复杂科研场景时的决策能力。

该基准包含 129 个专业问题，通过模拟真实的科学实验数据，要求 AI 像科研人员一样处理数据噪音、修正分析方向并得出结论。为了确保测试的真实性，OpenAI 邀请了多位外部专家进行评审，并采用合成数据防止模型通过走捷径「作弊」。

测试结果显示，顶级 AI 模型在处理此类深度科研任务时依然面临巨大挑战。OpenAI 目前最强的 GPT-5.6 Sol 模型在开启 Pro 模式下的正确率仅为 31.5%，而 Claude Opus 4.8 的正确率仅有 16.0%。