26-07-01 15:34 微博认证:爱范儿官方微博

【美团 LongCat 开源 VitaBench 2.0,评测智能体长期用户建模能力】

美团技术团队发布并开源智能体评测基准 VitaBench 2.0,面向真实生活场景、长期动态用户建模,用于评估大语言模型在长期互动中的个性化和主动性。

VitaBench 2.0 包含 56 名拟真用户、819 个复杂任务、超过 2000 个动态偏好和 66 个可执行工具。每位用户平均包含 2093 个交互事件,平均时间跨度 1580 天,系统按时间线向 Agent 暴露历史,用来测试模型持续提取、更新并使用用户偏好的能力。

美团团队称,实验显示即使在能看到全部历史记录的模式下,最强模型平均分也刚过 0.5;接入 Agentic Memory 或 RAG Memory 后,多数模型表现低于直接使用全历史记录。

💻 GitHub:github.com/meituan-longcat/vitabench-2.0
🤗 Hugging Face:huggingface.co/datasets/meituan-longcat/VitaBench-2.0