Az elfogultság-variancia kompromisszum olyan alapvető fogalom, amely segít megérteni a modell általánosítási hibáját.
Bias-Variance Dekompozíció
A Elfogultság arra a hibára utal, amelyet egy valós probléma egyszerűsített modellel való közelítése okoz. Ez a modellünk átlagos előrejelzése és a megjósolni kívánt helyes értékközöttikülönbséget jelenti. A nagy torzítás gyakran alulillesztéshez vezet – túlságosan leegyszerűsített modellek, amelyek nem képesek megragadni az adatok összetettségét.
A Variance viszont a modell az adatkészlet ingadozásaira való érzékenységét méri. Számszerűsíti, hogy mennyiben változnának a modell előrejelzései, ha különböző adatkészletekre oktatnák. A nagy szórás túlillesztéshez vezethet – olyan modellek, amelyek jól teljesítenek az edzési adatokon, de gyengén általánosítanak új, nem látott adatokra.
Kompromisszum és kapcsolat a modell komplexitásával
Az elfogultság és az eltérés közötti kompromisszum kulcsfontosságú. A modell összetettségének növekedésével a torzítás általában csökken (a modell összetettebb mintákat is képes rögzíteni), de a szórás általában nő (a modell érzékenyebbé válik a zajra és a betanítási adatok sajátosságaira). E két összetevő egyensúlya kulcsfontosságú a modell optimális teljesítményének eléréséhez.
Hiba hozzájárulás és számítás
A várható előrejelzési hiba három részre bontható:
-
Csökkenthetetlen hiba (zaj)
-
Elfogultság négyzet
-
Variancia
Matematikailag:
Várható hiba = visszafordíthatatlan hiba + torzítás2+ eltérés
A torzítás és a variancia közvetlen kiszámítása bonyolult lehet, különösen a valós adatok esetében. Az olyan technikák, mint a keresztellenőrzés, tanulási görbék vagy az adatkészlet különböző részhalmazainak használata a betanításhoz és érvényesítéshez segíthetnek megbecsülni ezeket az összetevőket.
Stratégiák a nagy torzítás vagy nagy szórás kezelésére
-
High Bias: A nagy torzítás csökkentése érdekében kifinomultabb modellek használatával növelhető a modell összetettsége (pl. további funkciók hozzáadásával, neurális hálózatok használatával lineáris modellek helyett).
-
Nagy szórás: A nagy szórás kezelésére olyan technikák használhatók, mint a regularizálás (pl. Lasso, Ridge), a modell összetettségének csökkentése (jellemzők kiválasztása, dimenziócsökkentés) vagy több adatgyűjtés hasznos lehet.
Fejlesztés elemzéssel
A torzítás-variancia kompromisszumot elemezve betekintést nyerhetünk a modell viselkedésébe. Kiválaszthatjuk a probléma megfelelő összetettségi szintjét, megérthetjük, hogy a modell alul- vagy túlillesztésre alkalmas, és megfelelő stratégiákat alkalmazhatunk a teljesítmény javítására.
Például, ha egy modell nagy szórást mutat, fontolóra vehetjük annak egyszerűsítését a jellemzők számának csökkentésével vagy a szabályzási technikák alkalmazásával. Ezzel szemben, ha nagy torzítást mutat, egy összetettebb modell használata vagy relevánsabb szolgáltatások hozzáadása segíthet.
Végső soron a cél az, hogy egyensúlyt találjunk a torzítás és a szórás között, hogy olyan modelleket hozzunk létre, amelyek jól általánosítanak a nem látott adatokra.