现在很多模型，仅仅只是能力提升了，但是智慧没有提升，反倒是倒退。他们仅仅擅长执行任务，而不是思考发现，而且RL只会加速这种现象。希望模型能够解决一些诸如数学、生物的问题，并且发表出来。而不是仅仅是swe。当然我还是最喜欢swe高一点的模型[泪奔]图为GPT自己家推出的GeneBench-Pro，

现在很多模型，仅仅只是能力提升了，但是智慧没有提升，反倒是倒退。

他们仅仅擅长执行任务，而不是思考发现，而且RL只会加速这种现象。

希望模型能够解决一些诸如数学、生物的问题，并且发表出来。

而不是仅仅是swe。

当然我还是最喜欢swe高一点的模型[泪奔]

图为GPT自己家推出的GeneBench-Pro，这是一个研究级别的基准测试，针对一种更艰难的 AI 进步类型：代理在处理杂乱的生物数据、选择正确的分析路径，并做出真实计算研究所依赖的判断决策方面的表现。

发布于辽宁