AReaL: Asynchronous RL Training System

GPU 0

GPU 1

GPU 2

GPU 3

Util: 0%

GPU 0

GPU 1

GPU 2

GPU 3

Util: 0%

\left\lfloor \frac{N_r - 1}{B} \right\rfloor \leq i + \eta

J_{\text{PPO}}(\theta) = \mathbb{E}\left[\min\left(u_t(\theta) \cdot \hat{A}_t,\; \text{clip}(u_t(\theta),\, 1{-}\epsilon,\, 1{+}\epsilon) \cdot \hat{A}_t\right)\right]

J(\theta) = \mathbb{E}\left[\sum_t \frac{\textcolor{#27ae60}{\pi_{\text{prox}}}}{\textcolor{#c0392b}{\pi_{\text{behav}}}} \cdot \min\left(u_t^{\text{prox}} \cdot \hat{A}_t,\; \text{clip}(u_t^{\text{prox}},\, 1{-}\epsilon,\, 1{+}\epsilon) \cdot \hat{A}_t\right)\right]

J_{\text{PPO}}(\theta) = \mathbb{E}\left[\min\left(u_t(\theta) \cdot \hat{A}_t,\; \text{clip}(u_t(\theta),\, 1{-}\epsilon,\, 1{+}\epsilon) \cdot \hat{A}_t\right)\right]

J(\theta) = \mathbb{E}\left[\sum_t \frac{\textcolor{#27ae60}{\pi_{\text{prox}}}}{\textcolor{#c0392b}{\pi_{\text{behav}}}} \cdot \min\left(u_t^{\text{prox}} \cdot \hat{A}_t,\; \text{clip}(u_t^{\text{prox}},\, 1{-}\epsilon,\, 1{+}\epsilon) \cdot \hat{A}_t\right)\right]

J_{\text{GRPO}}(\theta) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}\min\left(\rho_i(\theta)\hat{A}_i,\; \text{clip}(\rho_i(\theta),\, 1{-}\epsilon_{\text{clip}},\, 1{+}\epsilon_{\text{clip}})\hat{A}_i\right)\right]

\max_\theta \; L(\theta) = \mathbb{E}_t\!\left[\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)} \hat{A}_t\right] \quad \text{s.t.} \quad \overline{D}_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_\theta) \le \delta

\theta_{k+1} = \theta_k + \sqrt{\frac{2\delta}{\mathbf{g}^\top \mathbf{F}^{-1} \mathbf{g}}} \; \mathbf{F}^{-1} \mathbf{g}

\text{ratio} = \frac{\pi_\theta(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)} = \exp\!\bigl(\log\pi_\theta(a_t|s_t) - \log\pi_{\text{old}}(a_t|s_t)\bigr)