智驾VLA和世界模型进展|vla|世界模型|特斯拉|英伟达|地平线|算力芯片|多模态对齐|数据基建

http://t.cn/AXSKiSqn

转发:智驾中VLA和世界模型进展

现阶段的VLA和世界模型，更像是智驾“装饰物”，顶着一个高大上的概念，但是实际性能发挥有限。

VLA和世界模型面临的障碍还非常多。

算力与芯片是重要的瓶颈。VLA模型都比较大，参数规模普遍在几十亿，想要真正好用甚至要上百亿参数。现有的智驾芯片，包括主流的大算力芯片，都不是为这种大模型设计的，内存带宽和计算架构上都有短板缺陷。

这就导致在云端训练出参数规模庞大的模型，放到车端就需要强力蒸馏，蒸馏出来的小模型，不仅性能阉割的很厉害，而且在智驾大算力芯片上跑得也不行。

所以，不少玩家都在等下一代能跑大模型的智驾芯片，而特斯拉、英伟达、地平线也都在明后年准备推出算力规格几千TOPS的芯片。

另外，在模型训练上也存在不少的难题。比如，多模态对齐的技术难题，如何把视觉感知、语言理解和动作决策这三件事映射到同一个语义空间里，这个对齐过程非常困难。

数据基建上也面临很大的难题。多模态数据的获取和训练本身就很难，需要海量的视觉-语言-动作对齐标注数据，数据成本非常高。

现阶段汽车市场不景气，都普遍遇到了财务收入压力，而智驾的前沿技术研发投入又像滚雪球一样越滚越大，能否坚持持续的投入也是一个难题。

当然最核心的问题是，VLA、世界模型到底需要什么样类型的人才来做，这是关键胜负手。有的玩家还是坚持用智驾的人来做前沿的模型，有的从国内大语言模型公司挖人，有的去硅谷挖华人工程师。

到底哪种类型的人才能做出性能爆发的模型，哪个玩家能率先落地上车性能爆发的模型，我们拭目以待。

-END-

发布于广东