25-02-24 17:58 微博认证:财经博主

即便如此这个训练的反馈也不完全是内生的,相似度打分来自外部 //@whigzhou:不过,当LLM模型达到一定成熟度后,确实也可以引入基于内生反馈的训练,比如可以让多个实例如此捉对训练:给A组模型看示意图d,要求它用自然语言给出有关d的说明,将得到的n个说明随机分配给B组模型,后者按说明画出示意图D,根据D与d的相似度给两组模型相应激励 //@whigzhou:像棋类游戏这种可以完全依赖内生反馈的任务,确实可以,但LLM不行,除非你训练的是一种不必与自然语言有任何相似性的任意交流系统 //@InnoJrWong:模型训练是可以有历史的,alpha go在训练时就是自我博弈,自己跟自己下棋,结果开局的演化和现实围棋开局的演化高度相似

发布于 澳大利亚