26-07-02 16:35

http://t.cn/AXSKiSqn

转发:智驾中VLA和世界模型进展

现阶段的VLA和世界模型,更像是智驾“装饰物”,顶着一个高大上的概念,但是实际性能发挥有限。

VLA和世界模型面临的障碍还非常多。

算力与芯片是重要的瓶颈。VLA模型都比较大,参数规模普遍在几十亿,想要真正好用甚至要上百亿参数。现有的智驾芯片,包括主流的大算力芯片,都不是为这种大模型设计的,内存带宽和计算架构上都有短板缺陷。

这就导致在云端训练出参数规模庞大的模型,放到车端就需要强力蒸馏,蒸馏出来的小模型,不仅性能阉割的很厉害,而且在智驾大算力芯片上跑得也不行。

所以,不少玩家都在等下一代能跑大模型的智驾芯片,而特斯拉、英伟达、地平线也都在明后年准备推出算力规格几千TOPS的芯片。

另外,在模型训练上也存在不少的难题。比如,多模态对齐的技术难题,如何把视觉感知、语言理解和动作决策这三件事映射到同一个语义空间里,这个对齐过程非常困难。

数据基建上也面临很大的难题。多模态数据的获取和训练本身就很难,需要海量的视觉-语言-动作对齐标注数据,数据成本非常高。

现阶段汽车市场不景气,都普遍遇到了财务收入压力,而智驾的前沿技术研发投入又像滚雪球一样越滚越大,能否坚持持续的投入也是一个难题。

当然最核心的问题是,VLA、世界模型到底需要什么样类型的人才来做,这是关键胜负手。有的玩家还是坚持用智驾的人来做前沿的模型,有的从国内大语言模型公司挖人,有的去硅谷挖华人工程师。

到底哪种类型的人才能做出性能爆发的模型,哪个玩家能率先落地上车性能爆发的模型,我们拭目以待。

-END-

发布于 广东