回复@-寂静的秋水-:VLA的本质怎么变成DiT了[笑cry],只是理想用了flow matching而已,还可以用AR token呀。另外,我说的是做芯片,围绕VLA做芯片就不可能把DiT放在核心的位置去考虑,而且我说的DiT不是fm这种你应该明白。小鹏把L的权重降低了怎么就更符合,这就跟我说教育要国际化,你把高考语文占比砍了一样[笑cry]//@-寂静的秋水-:回复@猩红线歌者:理想的vla本质就是DiT[吃瓜]轨迹是diffusion生成的(实际用了更快的flow matching),骨干是transformer,完全符合DiT的定义。小鹏的vla应该也是,甚至更符合,因为他们把L的权重降低了。
发布于 湖北
