Назад до блогу Проксимальна оптимізація політики (PPO) у навчанні з підкріпленням Оновлено на May 30, 2024 2 хвилини читають