论文题目:DAPO: An Open-Source LLM Reinforcement Learning System at Scale
论文链接:https://arxiv.org/abs/2503.14476
官方解释:https://air.tsinghua.edu.cn/info/1007/2401.htm
Date: March 17, 2025
Correspondence: Qiying Yu at yuqy22@mails.tsinghua.edu.cn
Project Page: https://dapo-sia.github.io/
详细原理(先看):知乎 DAPO:GRPO的改进 备份:链接
下面是对其补充
领域挑战:
在长链式思维(CoT)场景中存在**熵崩塌、奖励噪声、训练不稳定**等问题,导致性能低下
(如GRPO在AIME仅30分)。核心目标:
技术名称 | 核心作用 | 实现细节 | 效果 |
---|---|---|---|
Clip-Higher | 解耦高低剪辑范围,促进低概率token探索 | - 分离剪辑参数为
ε
l
o
w
\varepsilon_{low}
εlow(0.2)和
ε
h
i
g
h
\varepsilon_{high}
εhigh(0.28) - 允许低概率token概率提升空间更大 | - 策略熵提升,生成多样性增加 - AIME准确率从基线30%提升至40%+ |
Dynamic Sampling | 过滤无效梯度样本,稳定训练效率 | - 丢弃准确率为0或1的样本,保留有效梯度 - 动态采样直至批次填满 | - 收敛速度提升,相同性能所需步骤减少 - 训练时间未显著增加,但效率更高 |
Token-Level Policy Gradient Loss | 按token加权损失,优化长序列训练 | - 按token数量加权损失,而非按样本平均 - 惩罚长序列中的低质量模式(如重复、乱码) | - 响应长度增长更健康 - 训练稳定性提升 |
Overlong Reward Shaping | 软惩罚过长响应,减少奖励噪声 | - 对超过最大长度的响应分阶段惩罚 - L m a x = 20480 L_{max}=20480 Lmax=20480 tokens,缓冲区间 L c a c h e = 4096 L_{cache}=4096 Lcache=4096 | - 训练稳定性显著提升 - AIME准确率波动减小 |
在长链式思维(CoT)场景中存在熵崩塌、奖励噪声、训练不稳定等问题,导致性能低下
:
具体细节:
1. **Clip-Higher**:增强系统多样性,避免熵崩塌;
2. **Dynamic Sampling**:提高训练效率和稳定性;
3. **Token-Level Policy Gradient Loss**:在长CoT RL场景中至关重要;
4. **Overlong Reward Shaping**:减少奖励噪声,稳定训练过程。
提出 Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO),包含四大关键技术:
Clip-Higher
• 问题:传统PPO/GRPO的上下剪裁对称限制(如ε=0.2)导致低概率token难以提升,引发熵崩溃(生成样本同质化)。
• 方案:解耦上下剪裁范围(如ε_low=0.2,ε_high=0.28),允许低概率token有更大提升空间,提升多样性(图2b熵增加,图3a概率分布更均衡)。
Dynamic Sampling
• 问题:当某组样本全对/全错时,优势函数为零,梯度消失,训练效率下降。
• 方案:动态过滤掉全对/全错的提示,仅保留部分正确样本,确保批次内有效梯度信号(图3b减少无效样本,图6加速收敛)。
Token-Level Policy Gradient Loss
• 问题:GRPO的样本级损失平均导致长序列token贡献被稀释,难以学习有效推理模式。
• 方案:改为Token级损失计算,按总token数平均,平衡长短序列影响,提升稳定性(图4a/b长度增长更健康)。
Overlong Reward Shaping
• 问题:过长响应的截断惩罚(如直接-1)引入噪声,干扰有效推理步骤的奖励。
• 方案:采用软惩罚(公式13),根据超长程度逐步增加惩罚,并过滤截断样本的损失(图5训练更稳定)。·
在强化学习(RL)训练中,生成序列的长度控制是关键挑战之一。模型可能因过度探索生成冗长无效的响应,或因截断机制导致合理推理被误罚。本节介绍过长响应奖励塑形技术,通过精细设计惩罚策略平衡响应长度与推理质量。
生成内容长度控制,及其超出阈值截断
:
截断机制的必要性
默认惩罚的弊端
为解决默认惩罚的缺陷,本文提出双重策略:过长过滤(Overlong Filtering)和软过长惩罚(Soft Overlong Punishment)。
核心思想:引入缓冲区间 L cache L_{\text{cache}} Lcache,对接近但未超过 L max L_{\text{max}} Lmax 的响应实施梯度化惩罚,而非一刀切式的严厉处罚。
数学定义:
R
length
(
y
)
=
{
0
,
∣
y
∣
≤
L
max
−
L
cache
(安全区:无惩罚)
(
L
max
−
L
cache
)
−
∣
y
∣
L
cache
,
L
max
−
L
cache
<
∣
y
∣
≤
L
max
(缓冲期:线性惩罚)
−
1
,
∣
y
∣
>
L
max
(超限区:严厉惩罚)
R_{\text{length}}(y) = \begin{cases} 0, & |y| \leq L_{\text{max}} - L_{\text{cache}} \quad \text{(安全区:无惩罚)} \\ \frac{(L_{\text{max}} - L_{\text{cache}}) - |y|}{L_{\text{cache}}}, & L_{\text{max}} - L_{\text{cache}} < |y| \leq L_{\text{max}} \quad \text{(缓冲期:线性惩罚)} \\ -1, & |y| > L_{\text{max}} \quad \text{(超限区:严厉惩罚)} \end{cases}
Rlength(y)=⎩
⎨
⎧0,Lcache(Lmax−Lcache)−∣y∣,−1,∣y∣≤Lmax−Lcache(安全区:无惩罚)Lmax−Lcache<∣y∣≤Lmax(缓冲期:线性惩罚)∣y∣>Lmax(超限区:严厉惩罚)
安全区:长度在 L max − L cache L_{\text{max}} - L_{\text{cache}} Lmax−Lcache 以内,视为有效响应,奖励为0。
直观示例:
设计优势:
关键指标对比
策略 | 训练稳定性(AIME准确率波动) | 平均响应长度 | 熵值(探索能力) |
---|---|---|---|
无惩罚 | 高(因超长样本干扰) | 极高(冗余) | 高(含无效探索) |
默认惩罚(-1) | 中(误罚导致震荡) | 低(可能过短) | 低(抑制探索) |
软过长惩罚 | 低(稳定收敛) | 中等(合理) | 中等(平衡探索) |
图5实验结果解析
过长响应奖励塑形的本质是在约束中保留灵活性:
以下是结合具体输入输出Prompt说明 Overlong Reward Shaping(过长响应奖励塑形) 的完整示例,包含任务背景、模型输入输出、奖励计算过程及优化反馈:
题目:
已知等边三角形ABC为四面体S-ABC的底面,点A在面SBC上的投影H是△SBC的垂心,二面角H-AB-C为30°,SA=2,求四面体体积。答案需以整数k+m形式给出,其中体积为k/m。
设定参数:
问题:已知等边三角形ABC为四面体S-ABC的底面...(完整题目)
请逐步推导四面体体积,要求逻辑清晰,每步标注关键定理。
奖励为正,鼓励保持当前推理长度和质量。
同上(要求逐步推导,但未限制长度)。
R
length
=
12288
−
14336
4096
=
−
2048
4096
=
−
0.5
R_{\text{length}} = \frac{12288 - 14336}{4096} = \frac{-2048}{4096} = -0.5
Rlength=409612288−14336=4096−2048=−0.5
2. 规则奖励:答案正确 →
R
correct
=
1
R_{\text{correct}} = 1
Rcorrect=1。
3. 总奖励:
1
+
(
−
0.5
)
=
0.5
1 + (-0.5) = 0.5
1+(−0.5)=0.5。
奖励低于示例1,提示模型减少冗余内容。下一次训练中,模型可能精简图解描述,保留核心推导,长度缩短至13000 tokens,奖励提升至:
R
length
=
12288
−
13000
4096
≈
−
0.174
,
总奖励
≈
0.826
R_{\text{length}} = \frac{12288 - 13000}{4096} \approx -0.174, \quad \text{总奖励} \approx 0.826
Rlength=409612288−13000≈−0.174,总奖励≈0.826
同上,但模型尝试生成更详细的三维几何模拟过程。
严厉惩罚促使模型调整生成策略,例如:
场景 | 默认惩罚(直接-1) | 软惩罚(公式13) |
---|---|---|
示例2输出(14336 tokens) | 总奖励=0(假设直接惩罚长度,忽略内容正确性) | 总奖励=0.5(保留部分奖励,引导优化) |
模型后续行为 | 可能过度缩短至8000 tokens(牺牲推理步骤) | 逐步优化至12000-13000 tokens(平衡长度与质量) |
通过以上示例可见,Overlong Reward Shaping 对模型输出的引导作用如下:
该机制通过分层奖励信号,使模型在长上下文任务中自动平衡“内容丰富度”与“计算效率”,是DAPO系统实现高效RL训练的关键技术之一。
PPO[21]通过引入剪辑替代目标函数来优化策略。通过剪辑操作将策略更新限制在前序策略的近端区域内,PPO可稳定训练并提高样本效率。具体而言,PPO通过最大化以下目标函数更新策略:
J
PPO
(
θ
)
=
E
(
q
,
a
)
∼
D
,
o
≤
t
∼
π
θ
old
(
⋅
∣
q
)
[
min
(
π
θ
(
o
t
∣
q
,
o
<
t
)
π
θ
old
(
o
t
∣
q
,
o
<
t
)
A
^
t
,
clip
(
π
θ
(
o
t
∣
q
,
o
<
t
)
π
θ
old
(
o
t
∣
q
,
o
<
t
)
,
1
−
ε
,
1
+
ε
)
A
^
t
)
]
J_{\text{PPO}}(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, o_{\leq t} \sim \pi_{\theta_{\text{old}}}(\cdot | q)} \left[ \min \left( \frac{\pi_{\theta}(o_t | q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t | q, o_{<t})} \hat{A}_t, \text{clip}\left( \frac{\pi_{\theta}(o_t | q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t | q, o_{<t})}, 1-\varepsilon, 1+\varepsilon \right) \hat{A}_t \right) \right]
JPPO(θ)=E(q,a)∼D,o≤t∼πθold(⋅∣q)[min(πθold(ot∣q,o<t)πθ(ot∣q,o<t)A^t,clip(πθold(ot∣q,o<t)πθ(ot∣q,o<t),1−ε,1+ε)A^t)]
其中,
(
q
,
a
)
(q, a)
(q,a) 为数据分布
D
\mathcal{D}
D 中的问答对,
ε
\varepsilon
ε 为重要性采样比的剪辑范围,
A
^
t
\hat{A}_t
A^t 为t时刻的优势函数估计值。给定值函数
V
V
V 和奖励函数
R
R
R,
A
^
t
\hat{A}_t
A^t 采用广义优势估计(GAE)[22]计算:
A
^
t
GAE
(
γ
,
λ
)
=
∑
l
=
0
∞
(
γ
λ
)
l
δ
t
+
l
\hat{A}_t^{\text{GAE}(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}
A^tGAE(γ,λ)=l=0∑∞(γλ)lδt+l
其中,
δ
l
=
R
l
+
γ
V
(
s
l
+
1
)
−
V
(
s
l
)
,
0
≤
γ
,
λ
≤
1.
\delta_l = R_l + \gamma V(s_{l+1}) - V(s_l), \quad 0 \leq \gamma, \lambda \leq 1.
δl=Rl+γV(sl+1)−V(sl),0≤γ,λ≤1.
与PPO相比,GRPO剔除了值函数,采用组相对方式估计优势函数。对于特定问答对
(
q
,
a
)
(q, a)
(q,a),行为策略
π
θ
old
\pi_{\theta_{\text{old}}}
πθold 采样生成G个响应
{
o
i
}
i
=
1
G
\{o_i\}_{i=1}^G
{oi}i=1G,第i个响应的优势函数通过对组内奖励
{
R
i
}
i
=
1
G
\{R_i\}_{i=1}^G
{Ri}i=1G 标准化计算:
A
^
i
,
t
=
r
i
−
mean
(
{
R
i
}
i
=
1
G
)
std
(
{
R
i
}
i
=
1
G
)
.
\hat{A}_{i,t} = \frac{r_i - \text{mean}(\{R_i\}_{i=1}^G)}{\text{std}(\{R_i\}_{i=1}^G)}.
A^i,t=std({Ri}i=1G)ri−mean({Ri}i=1G).
与PPO类似,GRPO采用剪辑目标函数,并直接引入KL散度惩罚项:
J
GRPO
(
θ
)
=
E
(
q
,
a
)
∼
D
,
{
o
i
}
i
=
1
G
∼
π
θ
old
(
⋅
∣
q
)
[
1
G
∑
i
=
1
G
1
∣
o
i
∣
∑
t
=
1
∣
o
i
∣
(
min
(
r
i
,
t
(
θ
)
A
^
i
,
t
,
clip
(
r
i
,
t
(
θ
)
,
1
−
ε
,
1
+
ε
)
A
^
i
,
t
)
−
β
D
KL
(
π
θ
∥
π
ref
)
)
]
J_{\text{GRPO}}(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot | q)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \left( \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \text{clip}\left( r_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon \right) \hat{A}_{i,t} \right) - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) \right) \right]
JGRPO(θ)=E(q,a)∼D,{oi}i=1G∼πθold(⋅∣q)
G1i=1∑G∣oi∣1t=1∑∣oi∣(min(ri,t(θ)A^i,t,clip(ri,t(θ),1−ε,1+ε)A^i,t)−βDKL(πθ∥πref))
其中,
r
i
,
t
(
θ
)
=
π
θ
(
o
i
,
t
∣
q
,
o
i
,
<
t
)
π
θ
old
(
o
i
,
t
∣
q
,
o
i
,
<
t
)
.
r_{i,t}(\theta) = \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t} | q, o_{i,<t})}.
ri,t(θ)=πθold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t).
值得注意的是,GRPO在样本级别计算目标函数:先计算每个生成序列的平均损失,再对不同样本的损失取平均。如3.3节所述,这一差异可能对算法性能产生影响。
KL惩罚项用于约束在线策略与固定参考策略的差异。在RLHF场景[23]中,RL的目标是对齐模型行为,避免偏离初始模型太远。然而,在训练长CoT推理模型时,模型分布可能显著偏离初始模型,因此该约束并非必要。因此,我们在提出的算法中移除了KL项。
传统奖励模型常面临奖励博弈问题[24-29]。为此,我们直接以可验证任务的最终准确率作为奖励信号,计算公式如下:
R
(
y
^
,
y
)
=
{
1
,
is_equivalent
(
y
^
,
y
)
−
1
,
otherwise
R(\hat{y}, y) = \begin{cases} 1, & \text{is\_equivalent}(\hat{y}, y) \\ -1, & \text{otherwise} \end{cases}
R(y^,y)={1,−1,is_equivalent(y^,y)otherwise
其中,
y
y
y 为真实答案,
y
^
\hat{y}
y^ 为预测答案。该方法已在自动定理证明[30-33]、计算机编程[34-37]和数学竞赛[2]等多个领域验证有效,能激活基础模型的推理能力。
Rule-based Reward Modeling(基于规则)
奖励模型的困境与基于规则的替代方案
在强化学习(RL)中,奖励模型(如通过学习训练的奖励函数)的核心目标是引导模型生成符合预期的输出。然而,这类模型普遍面临奖励博弈问题:
为规避奖励博弈,本文提出基于规则的奖励函数,直接将可验证任务的最终准确性作为奖励信号,计算公式为:
R
(
y
^
,
y
)
=
{
1
,
is_equivalent
(
y
^
,
y
)
−
1
,
otherwise
R(\hat{y}, y) = \begin{cases} 1, & \text{is\_equivalent}(\hat{y}, y) \\ -1, & \text{otherwise} \end{cases}
R(y^,y)={1,−1,is_equivalent(y^,y)otherwise
该方法在多个领域被证明能有效激活模型的推理能力:
自动定理证明(文献[30-33]):
计算机编程(文献[34-37]):
数学竞赛(如AIME)(文献[2]):
维度 | 学习型奖励模型 | 基于规则的奖励 |
---|---|---|
奖励信号来源 | 通过训练数据学习(如人类偏好) | 直接绑定任务客观正确性(如数值、逻辑) |
奖励博弈风险 | 高(模型可能“投其所好”) | 低(信号与目标严格对齐) |
计算成本 | 需额外训练奖励模型 | 无需训练,直接通过规则计算 |
适用场景 | 开放式任务(如文本生成、创意设计) | 答案可明确验证的任务(如推理、编程) |
字节跳动与清华大学等机构合作开源DAPO(解耦剪辑与动态采样策略优化)算法及大规模LLM强化学习系统,针对现有RL系统不可复现问题,引入Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss、Overlong Reward Shaping四大关键技术,基于Qwen2.5-32B模型在AIME 2024数学竞赛中达到50分准确率,仅用DeepSeek-R1-Zero-Qwen-32B50%训练步骤,同时开源训练代码(基于verl框架)和精心处理的DAPO-Math-17K数据集,提升领域研究的可复现性。
领域挑战:
核心目标:
技术名称 | 核心作用 | 实现细节 | 效果 |
---|---|---|---|
Clip-Higher | 解耦高低剪辑范围,促进低概率token探索 | - 分离剪辑参数为(\varepsilon_{low})(0.2)和(\varepsilon_{high})(0.28) - 允许低概率token概率提升空间更大 | - 策略熵提升,生成多样性增加 - AIME准确率从基线30%提升至40%+ |
Dynamic Sampling | 过滤无效梯度样本,稳定训练效率 | - 丢弃准确率为0或1的样本,保留有效梯度 - 动态采样直至批次填满 | - 收敛速度提升,相同性能所需步骤减少 - 训练时间未显著增加,但效率更高 |
Token-Level Policy Gradient Loss | 按token加权损失,优化长序列训练 | - 按token数量加权损失,而非按样本平均 - 惩罚长序列中的低质量模式(如重复、乱码) | - 响应长度增长更健康 - 训练稳定性提升 |
Overlong Reward Shaping | 软惩罚过长响应,减少奖励噪声 | - 对超过最大长度的响应分阶段惩罚 - (L_{max}=20480) tokens,缓冲区间(L_{cache}=4096) | - 训练稳定性显著提升 - AIME准确率波动减小 |
提出 Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO),包含四大关键技术:
Clip-Higher
• 问题:传统PPO/GRPO的上下剪裁对称限制(如ε=0.2)导致低概率token难以提升,引发熵崩溃(生成样本同质化)。
• 方案:解耦上下剪裁范围(如ε_low=0.2,ε_high=0.28),允许低概率token有更大提升空间,提升多样性(图2b熵增加,图3a概率分布更均衡)。
Dynamic Sampling
• 问题:当某组样本全对/全错时,优势函数为零,梯度消失,训练效率下降。
• 方案:动态过滤掉全对/全错的提示,仅保留部分正确样本,确保批次内有效梯度信号(图3b减少无效样本,图6加速收敛)。
Token-Level Policy Gradient Loss
• 问题:GRPO的样本级损失平均导致长序列token贡献被稀释,难以学习有效推理模式。
• 方案:改为Token级损失计算,按总token数平均,平衡长短序列影响,提升稳定性(图4a/b长度增长更健康)。
Overlong Reward Shaping
• 问题:过长响应的截断惩罚(如直接-1)引入噪声,干扰有效推理步骤的奖励。
• 方案:采用软惩罚(公式13),根据超长程度逐步增加惩罚,并过滤截断样本的损失(图5训练更稳定)。·
代码与框架:
数据集:
项目资源:
核心指标:
关键对比:
指标 | DAPO | DeepSeek-R1-Zero-Qwen-32B | 提升幅度 |
---|---|---|---|
准确率 | 50% | 47% | +3分 |
训练步骤 | 5000步 | 10000+步 | -50% |
收敛效率 | 快速稳定 | 较慢且波动大 | - |
消融实验:
数据转换流程:
训练配置:
答案:DAPO提出四大关键技术:
答案:开源内容包括:
答案:
详细原理参考:https://zhuanlan.zhihu.com/p/696537369
https://air.tsinghua.edu.cn/info/1007/2401.htm
https://blog.csdn.net/weixin_44966641/article/details/147636661
https://zhuanlan.zhihu.com/p/31085938827
版权说明:如非注明,本站文章均为 扬州驻场服务-网络设备调试-监控维修-南京泽同信息科技有限公司 原创,转载请注明出处和附带本文链接。
请在这里放置你的在线分享代码