早起的神经机器翻译:词向量让概率不再精确为零,但排队传话导致信息逐步衰减。
注意力机制:传话链还在,但每个人手里多了张小抄,可以回头查看原文。
Transformer:把排队传话机制直接转换成了圆桌会议,每个词都能能够直接跟所有词对话。
然而,大模型的幻觉问题、遗忘问题成了新的“脱发”问题。
发布于 江苏
早起的神经机器翻译:词向量让概率不再精确为零,但排队传话导致信息逐步衰减。
注意力机制:传话链还在,但每个人手里多了张小抄,可以回头查看原文。
Transformer:把排队传话机制直接转换成了圆桌会议,每个词都能能够直接跟所有词对话。
然而,大模型的幻觉问题、遗忘问题成了新的“脱发”问题。