Proximális politikaoptimalizálás (PPO) a megerősítési tanulásban

Frissítve: July 03, 2024 Olvasási idő: 2 perc

Proximális politikaoptimalizálás (PPO) a megerősítési tanulásban