Last updated on January 16, 2026 pm
问题来自论文:Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
LLM的objective定义为 LCE(ϕ)=E(s,a)∼D[log πϕ(a∣s)]
设数据集D的分布为πβ(a∣s),那么上述objective将使策略πϕ(a∣s)趋近于πβ(a∣s),也就是实现:
πϕ(a∣s)≈πβ(a∣s)
这称之为behavioral cloning / BC
Q-SFT希望实现将Q-Learning融入到LLM的BC中,为此,Q-SFT提出了一个加权的CE objective:
LWCE(θ)=E(s,a)∼D[w(s,a)logpθ(a∣s)+(1−w(s,a))logpθ(ad∣s)]
其中ad是dummy action,$ 0<w(s, a) < 1,论文称这个objective将实现:\hat{p}{\theta}(a|s)\approx w(s,a)\pi{\beta}(a|s)$ for all a=ad
也就是说,最终将实现一个带权的原始数据集概率分布
这里其实是一个交叉熵在概率单纯形(simplex)上的最优化问题:
最大化 ∑icilogpi (ci≥0,pi≥0,∑pi=1)的最优解是pi=∑jcjci
直觉上来说就是加权最大似然: logpi 喜欢把质量分给系数大的项;归一化约束迫使它按比例分配
在 Q-SFT 里,ci对应什么?
-
真实动作空间:A(词表 token)
-
行为策略:πβ(⋅∣s) 只定义在A 上,∑a∈Aπβ(a∣s)=1
-
dummy:ad∈/A
固定一个状态 s,那么:
Ea∼πβ(⋅∣s)[w(s,a)logpθ(a∣s)+(1−w(s,a))logpθ(ad∣s)]=a∈A∑πβ(a∣s)[w(s,a)logp(a∣s)+(1−w(s,a))logpθ(ad∣s)]
-
对于每个真实动作 $ a\neq a_d$,它在目标里出现的系数就是
ca=πβ(a∣s)w(s,a)
-
dummy 动作 ad 的总权重是
cd=a∈A∑πβ(a∣s)(1−w(s,a))
-
所以最优解应该是
p∗(a∣s)=cd+∑a′∈Aπβ(a′∣s)w(s,a′)πβ(a∣s)w(s,a)
而注意分母:
cd+a′∈A∑πβ(a′∣s)w(s,a′)=a∈A∑πβ(a∣s)(1−w)+a∈A∑πβ(a∣s)w=a∈A∑πβ(a∣s)=1
所以分母刚好是 1,得到:
p∗(a∣s)=πβ(a∣s)w(s,a)(a∈A)
而对于dummy action:
p∗(ad∣s)=1−a∈A∑p∗(a∣s)=a∈A∑πβ(a∣s)−a∈A∑πβ(a∣s)w(s,a)=a∈A∑πβ(a∣s)(1−w(s,a))=cd
所以dummy action其实是类似一个垃圾桶:
- 真实 token 只拿到一部分质量:∑a∈Ap(a∣s)≤1
- 剩下的质量由 dummy 吃掉:p(ad∣s)=1−∑a∈Ap(a∣s)
直觉上:dummy = 以上这些 token 都不太值得选/不太可信的那部分概率质量