26-04-17 09:07 微博认证:AI博主

回复@杰西卡与西卡:dense 能做很大,比如之前的llama-3-70B, 但是做大了训练损失率很难控制. 以及大家发现效果并不好. 所以目前主流dense全都在30B这个规模了. 而同规模的MoE其实激活只有1-5B, 主打速度嗷嗷快, 真正为本地部署优化. 而10B这么大激活的,估计整体参数量要到100B了.//@杰西卡与西卡:dense 模型没法做很大,moe 虽然很大但是每次激活参数也就 10B,20B..区别在哪里呢

发布于 北京