美团开源VitaBench 2.0|美团技术团队|vitabench 2.0|智能体评测基准|大语言模型

【美团 LongCat 开源 VitaBench 2.0，评测智能体长期用户建模能力】

美团技术团队发布并开源智能体评测基准 VitaBench 2.0，面向真实生活场景、长期动态用户建模，用于评估大语言模型在长期互动中的个性化和主动性。

VitaBench 2.0 包含 56 名拟真用户、819 个复杂任务、超过 2000 个动态偏好和 66 个可执行工具。每位用户平均包含 2093 个交互事件，平均时间跨度 1580 天，系统按时间线向 Agent 暴露历史，用来测试模型持续提取、更新并使用用户偏好的能力。

美团团队称，实验显示即使在能看到全部历史记录的模式下，最强模型平均分也刚过 0.5；接入 Agentic Memory 或 RAG Memory 后，多数模型表现低于直接使用全历史记录。

💻 GitHub：github.com/meituan-longcat/vitabench-2.0
🤗 Hugging Face：huggingface.co/datasets/meituan-longcat/VitaBench-2.0