【正确率仅三成,OpenAI 新基准 GeneBench-Pro 难倒顶级 AI】
OpenAI 日前发布针对计算生物学领域的 AI 评测基准 GeneBench-Pro,旨在测试 AI 智能体在处理基因、医疗等复杂科研场景时的决策能力。
该基准包含 129 个专业问题,通过模拟真实的科学实验数据,要求 AI 像科研人员一样处理数据噪音、修正分析方向并得出结论。为了确保测试的真实性,OpenAI 邀请了多位外部专家进行评审,并采用合成数据防止模型通过走捷径「作弊」。
测试结果显示,顶级 AI 模型在处理此类深度科研任务时依然面临巨大挑战。OpenAI 目前最强的 GPT-5.6 Sol 模型在开启 Pro 模式下的正确率仅为 31.5%,而 Claude Opus 4.8 的正确率仅有 16.0%。
