26-07-01 09:11

现在很多模型,仅仅只是能力提升了,但是智慧没有提升,反倒是倒退。

他们仅仅擅长执行任务,而不是思考发现,而且RL只会加速这种现象。

希望模型能够解决一些诸如数学、生物的问题,并且发表出来。

而不是仅仅是swe。

当然我还是最喜欢swe高一点的模型[泪奔]

图为GPT自己家推出的GeneBench-Pro,这是一个研究级别的基准测试,针对一种更艰难的 AI 进步类型:代理在处理杂乱的生物数据、选择正确的分析路径,并做出真实计算研究所依赖的判断决策方面的表现。

发布于 辽宁