Vissza a bloghoz Proximális politikaoptimalizálás (PPO) a megerősítési tanulásban Frissítve: July 03, 2024 Olvasási idő: 2 perc