回复@APCR248:测不起,跑一次接近1-4千万token......大概对应500-2000USD...//@APCR248:这个会测Fable吗
这可能是全网第一个大模型复杂工程能力测试~
为什么大模型总是漏需求? 为什么我用的模型一改我的代码就改坏了? 今天就给大家揭开这个谜底.
我设计了一个大模型工程能力测试, 方法很简单, 给大模型一个需求文档, 然后让大模型使用 Coding Agent 来按照需求修改项目.
项目是 SillyTavern, 就是大名鼎
2
3
15