A felügyelt és felügyelet nélküli tanulás megértése

Frissítve: July 03, 2024 Olvasási idő: 2 perc

Felügyelt tanulás

A felügyelt tanulás magában foglalja a modell betanítását egy címkézett adatkészleten. A címkézett adatok azt jelentik, hogy a bemeneti adatok a megfelelő kimenettel vannak párosítva. A cél az, hogy a modell megtanulja a leképezést vagy a bemenetek és kimenetek közötti kapcsolatot, hogy előrejelzéseket készítsen vagy új, nem látott adatokat pontosan osztályozzon. A felügyelt tanulásnak két fő típusa van:

Osztályozás: Ez magában foglalja a kategorikus címke előrejelzését. Például bizonyos jellemzők (például használt szavak, feladó stb.) alapján annak meghatározása, hogy egy e-mail spam-e vagy sem. Az osztályozáshoz olyan algoritmusokat használnak, mint a Support Vector Machines (SVM), a döntési fák és a neurális hálózatok.
Regresszió: folyamatos érték előrejelzését foglalja magában. Például egy ház árának megjósolása olyan jellemzői alapján, mint a terület, a hálószobák száma stb. A regressziós feladatokhoz olyan algoritmusokat használnak, mint a Lineáris regresszió, a Random Forest és a Gradient Boosting.

Felügyelet nélküli tanulás

A Felügyelet nélküli tanulás magában foglalja a modell betanítását egy címkézetlen adatkészleten. Itt az algoritmus kifejezett felügyelet nélkül próbál rejtett mintákat vagy belső struktúrákat találni az adatokban. A cél az adatok feltárása, szerkezetük megértése és értelmes betekintések kinyerése. A felügyelet nélküli tanulás gyakori típusai a következők:

Clustering: Hasonló adatpontok csoportosítása bizonyos jellemzők vagy hasonlóságok alapján. Például vevőszegmensek klaszterezése vásárlási viselkedésük alapján olyan algoritmusok segítségével, mint a K-Means vagy a Hierarchical Clustering.
Dimenzionalitás csökkentése: A funkciók számának csökkentése az alapvető információk megőrzése mellett. A főkomponens-elemzés (PCA) és a t-Distributed Stochastic Neighbor Embedding (t-SNE) a nagydimenziós adatok megjelenítésére szolgálnak egy alacsonyabb dimenziójú térben.

Mikor kell mindegyiket használni

A felügyelt tanulás akkor használatos, ha címkézett adatokkal rendelkezik, és a címkézett adatok alapján szeretné megjósolni vagy osztályozni a jövőbeli példányokat. Ha például rendelkezik előzményadatokkal az ügyfelek vásárlásairól, és szeretné megjósolni a jövőbeli vásárlásokat, a felügyelt tanulás megfelelő.
A felügyelet nélküli tanulást akkor használjuk, ha nem rendelkezik címkézett adatokkal, vagy ha szeretné feltárni és megérteni az adatok mögöttes szerkezetét. Például az rendellenességek észlelésében vagy a rejtett minták megtalálásában nagy adatkészletekben.

Néha a félig felügyelt tanulás néven ismert mindkét tanulási típus kombinációja alkalmazható, ha kevés címkézett adattal és nagy mennyiségű címkézetlen adattal rendelkezik, így a modellek mindkét információforrásból profitálhatnak. .