回复@杰西卡与西卡:dense 能做很大，比如之前的llama-3-70B, 但是做大了训练损失率很难控制. 以及大家发现效果并不好. 所以目前主流dense全都在30B这个规模了. 而同规模的MoE其实激活只有1-5B, 主打速度嗷嗷快, 真正为本地部署优化. 而10B这么大激活的，估计整体参数量要到100B了.//

回复@杰西卡与西卡:dense 能做很大，比如之前的llama-3-70B, 但是做大了训练损失率很难控制. 以及大家发现效果并不好. 所以目前主流dense全都在30B这个规模了. 而同规模的MoE其实激活只有1-5B, 主打速度嗷嗷快, 真正为本地部署优化. 而10B这么大激活的，估计整体参数量要到100B了.//@杰西卡与西卡:dense 模型没法做很大，moe 虽然很大但是每次激活参数也就 10B，20B..区别在哪里呢

发布于北京