Proximální optimalizace politiky (PPO) v posilovacím učení

Aktualizováno na August 07, 2024 2 minuty čte

Proximální optimalizace politiky (PPO) v posilovacím učení