← Back to Blog

LLM训练与实际使用的预测性偏差

Download PDF →

LLM 训练时做的是'预测下一个词',但实际使用时却变成了指令执行器。这个偏离是怎么发生的?从预训练到 RLHF 再到推理,拆解三层系统性偏移。

灵感来源于今天我问了Claude一个问题
“为什么llm的训练阶段更靠近先验预测性,而实际使用中反而偏离了?”