@davidrmcall : Excited to share Flow Matching Policy Gradients: expressive RL policies trained from rewards using flow matching. It’s an easy, drop-in replacement for Gaussian PPO on control tasks. • TwiCopy

David McAllister

@davidrmcall

+ Follow

PhD Student @berkeley_ai | prev @LumaLabsAI

ID: 1801743598784036864

calendar_today14-06-2024 22:28:46

73 Tweet

230 Followers

183 Following

David McAllister

@davidrmcall

a month ago

Excited to share Flow Matching Policy Gradients: expressive RL policies trained from rewards using flow matching. It’s an easy, drop-in replacement for Gaussian PPO on control tasks.

thumb_up_off_alt1,1K

chat_bubble_outline8

repeat185

shareShare