Nazaj na blog Optimizacija proksimalne politike (PPO) pri učenju s krepitvijo Posodobljeno na August 08, 2024 2 minute preberite