Last updated on September 26, 2025 pm
prompt的PPL
设prompt为x1:T,给定LLM πθ(也就是条件分布pθ(⋅∣⋅)) 那么其在teacher forcing下对于整个prompt的对数似然为:
logpθ(x1:T)=t=1∑Tlogpθ(xt∣xt<t).
平均交叉熵:
Hθ(x1:T)=−T1t=1∑Tlogpθ(xt∣x<t).
Perplexity:
PPLθ(x1:T)=exp(Hθ(x1:T))=exp(−T1t=1∑Tlogpθ(xt∣x<t)).
把prompt的生成看作MDP过程