REINFORCE / RLOO / REINFORCE++ / GRPO
Policy Gradient 策略梯度的目标是,找到一个最优策略πθ∗\pi^*_{\theta}πθ∗,让agent在与环境交互时,获得的累积回报期望J(θ)J(\theta)J(θ)最大 最直接的优化方法就是梯度上升,即沿着梯度的方向更新参数: θnew=θold+α∇θJ(θ)θ_{new}=θ_{old}+\alpha\nabla_{\theta}J(\theta) θnew=θol