稳定训练、数据高效，清华大学提出「流策略」新方法SAC Flow

一种用高数据效率强化学习算法 SAC 训练流策略的新方案，可以端到端优化真实的流策略，而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN，再用 GRU 门控和 Transformer Decoder 两套速度参数化。SAC FLow 在 MuJoCo、OGBench、Robomimic 上达到了极高的数据效率和显著 SOTA 的性能。

作者来自于清华大学和 CMU，通讯作者为清华大学教授丁文伯和于超，致力于强化学习算法和具身智能研究。

研究背景

流策略（Flow-based policy）最近在机器人学习领域十分热门：它具有建模多峰动作分布的表达能力，且比扩散策略更简洁好用，因此被广泛应用于先进的 VLA 模型，例如 π_0、GR00T 等。想要跳出数据集的约束，进一步提高流策略的性能，强化学习是一条有效的路，已经有不少工作尝试用 on-policy 的 RL 算法训练流策略，例如 ReinFlow [1]、 Flow GRPO [2] 等。但当我们使用数据高效的 off-policy RL（例如 SAC ）训练流策略时总会出现崩溃，因为流策略的动作经历「K 步采样」推理，因此反向传播的「深度」等于采样步数 K。这与训练经典 RNN 时遇到的梯度爆炸或梯度消失是相同的。

不少已有的类似工作都选择绕开了这个问题：要么用替代目标避免对流策略多步采样的过程求梯度 (如 FlowRL [3])，要么把流匹配模型蒸馏成单步模型，再用标准 off-policy 目标训练 (如 QC-FQL [4])。这样做是稳定了训练，但也抛弃了原本表达更强的流策略本体，并没有真正在训练一个流策略。而我们的思路是：发现流策略多部采样本质就是 sequential model ，进而用先进的 sequential model 结构来稳住训练，直接在 off-policy 框架内端到端优化真实的流策略。

稳定训练、数据高效，清华大学提出「流策略」新方法SAC Flow

使用 off policy RL 算法训练流策略会出现梯度爆炸。本文提出，我们不妨换一个视角来看，训练流策略等效于在训练一个 RNN 网络（循环计算 K 次），因此我们可以用更高效现代的循环结构（例如 GRU，Transformer)。

稳定训练、数据高效，清华大学提出「流策略」新方法SAC Flow

稳定训练、数据高效，清华大学提出「流策略」新方法SAC Flow

以车会友更多>>