即便如此这个训练的反馈也不完全是内生的，相似度打分来自外部 //@whigzhou:不过，当LLM模型达到一定成熟度后，确实也可以引入基于内生反馈的训练，比如可以让多个实例如此捉对训练：给A组模型看示意图d，要求它用自然语言给出有关d的说明，将得到的n个说明随机分配给B组模型，后者按说明画出示意图D，

即便如此这个训练的反馈也不完全是内生的，相似度打分来自外部 //@whigzhou:不过，当LLM模型达到一定成熟度后，确实也可以引入基于内生反馈的训练，比如可以让多个实例如此捉对训练：给A组模型看示意图d，要求它用自然语言给出有关d的说明，将得到的n个说明随机分配给B组模型，后者按说明画出示意图D，根据D与d的相似度给两组模型相应激励 //@whigzhou:像棋类游戏这种可以完全依赖内生反馈的任务，确实可以，但LLM不行，除非你训练的是一种不必与自然语言有任何相似性的任意交流系统 //@InnoJrWong:模型训练是可以有历史的，alpha go在训练时就是自我博弈，自己跟自己下棋，结果开局的演化和现实围棋开局的演化高度相似

发布于澳大利亚