Proksimal Siyasət Optimizasiyası (PPO) siyasətləri sabit və səmərəli şəkildə optimallaşdırmaq üçün istifadə edilən gücləndirici öyrənmədə (RL) məşhur alqoritmdir. O, yüksək variasiya və qeyri-sabitlik kimi ənənəvi siyasət qradiyenti metodlarında tapılan bəzi məsələləri həll edir.
Əsas Komponentlər
Məqsəd funksiyası
PPO RL tapşırıqlarında gözlənilən məcmu mükafatı maksimize etməyi hədəfləyir. Onun məqsəd funksiyası iki əsas komponentdən ibarətdir:
-
Siyasət Funksiyası: Bu, agentin verilmiş dövlətlərdə hərəkətləri seçmək strategiyasını təmsil edir. O, çox vaxt πθ(a|s) ilə işarələnir, burada θ siyasətin parametrləridir.
-
Dəyər Funksiyası: Siyasət çərçivəsində müəyyən dövlətdən gözlənilən məcmu mükafatı təxmin edir. Çox vaxt V (s) ilə işarələnir.
Siyasət Optimizasiyası
PPO siyasət parametrlərini yeniləmək üçün kəsilmiş surroqat məqsəd funksiyasından istifadə edir. Məqsədi birbaşa artırmaq əvəzinə, yeni siyasətin köhnə siyasətdən çox da uzaqlaşmamasını təmin etmək üçün siyasət yeniləməsini məhdudlaşdırır. Bu məhdudiyyət yeni siyasət ehtimalının köhnə siyasət ehtimalının kırılmış nisbəti vasitəsilə tətbiq edilir.
Digər Metodlardan Üstünlüklər
-
Sabitlik: PPO daha mühafizəkar siyasət yeniləmə mexanizmindən istifadə edərək, təlimi sabitliyi poza biləcək böyük siyasət dəyişiklikləri riskini azaldır.
-
Nümunə Effektivliyi: Vanil siyasət qradiyenti və ya Güvən Region Siyasətinin Optimizasiyası (TRPO) kimi digər siyasət qradiyenti metodları ilə müqayisədə yaxşı performansa nail olmaq üçün daha az nümunə tələb edir.
-
Sadəlik: Bəzi digər qabaqcıl alqoritmlərlə müqayisədə PPO-nun tətbiqi və tənzimlənməsi nisbətən asandır.
PPO Excel-in işlədiyi ssenarilər
-
Davamlı Fəaliyyət Məkanları: PPO sabitliyi və bu məkanlarda siyasət yeniləmələri ilə işləmək qabiliyyəti sayəsində davamlı fəaliyyət məkanlarını effektiv idarə edə bilər.
-
Mürəkkəb Mühitlər: Kəşfiyyat və istismarın səmərəli şəkildə balanslaşdırılmalı olduğu mürəkkəb mühitlərdə yaxşı işləyir.
PPO üçün problemlər
-
Nümunə Effektivliyi: PPO bəzi alqoritmlərə nisbətən nümunə baxımından daha səmərəli olsa da, nümunə səmərəliliyinin vacib olduğu mühitlərdə hələ də mübarizə apara bilər.
-
Yüksək Ölçülü Fəaliyyət Məkanları: Davamlı fəaliyyət məkanlarını idarə edə bilməsinə baxmayaraq, PPO son dərəcə yüksək ölçülü fəaliyyət məkanlarında problemlərlə üzləşə bilər.
PPO-nun Excel ola biləcəyi mühitlər
-
Robotexnika: Robotun idarə edilməsini əhatə edən tapşırıqlar, sabitliyi və davamlı fəaliyyət məkanlarını idarə etmək qabiliyyətinə görə PPO-dan faydalanır.
-
Oyunlar: Mürəkkəb oyun mühitlərində PPO sabitliyi və nümunə səmərəliliyi sayəsində rəqabət qabiliyyətli performans nümayiş etdirdi.
Ümumiyyətlə, PPO nümunənin səmərəliliyi və sabitliyi arasında tarazlıq yaradır və onu müxtəlif möhkəmləndirmə öyrənmə ssenarilərində möhkəm seçim edir.