Felügyelt tanulás
A felügyelt tanulás magában foglalja a modell betanítását egy címkézett adatkészleten. A címkézett adatok azt jelentik, hogy a bemeneti adatok a megfelelő kimenettel vannak párosítva. A cél az, hogy a modell megtanulja a leképezést vagy a bemenetek és kimenetek közötti kapcsolatot, hogy előrejelzéseket készítsen vagy új, nem látott adatokat pontosan osztályozzon. A felügyelt tanulásnak két fő típusa van:
-
Osztályozás: Ez magában foglalja a kategorikus címke előrejelzését. Például bizonyos jellemzők (például használt szavak, feladó stb.) alapján annak meghatározása, hogy egy e-mail spam-e vagy sem. Az osztályozáshoz olyan algoritmusokat használnak, mint a Support Vector Machines (SVM), a döntési fák és a neurális hálózatok.
-
Regresszió: folyamatos érték előrejelzését foglalja magában. Például egy ház árának megjósolása olyan jellemzői alapján, mint a terület, a hálószobák száma stb. A regressziós feladatokhoz olyan algoritmusokat használnak, mint a Lineáris regresszió, a Random Forest és a Gradient Boosting.
Felügyelet nélküli tanulás
A Felügyelet nélküli tanulás magában foglalja a modell betanítását egy címkézetlen adatkészleten. Itt az algoritmus kifejezett felügyelet nélkül próbál rejtett mintákat vagy belső struktúrákat találni az adatokban. A cél az adatok feltárása, szerkezetük megértése és értelmes betekintések kinyerése. A felügyelet nélküli tanulás gyakori típusai a következők:
-
Clustering: Hasonló adatpontok csoportosítása bizonyos jellemzők vagy hasonlóságok alapján. Például vevőszegmensek klaszterezése vásárlási viselkedésük alapján olyan algoritmusok segítségével, mint a K-Means vagy a Hierarchical Clustering.
-
Dimenzionalitás csökkentése: A funkciók számának csökkentése az alapvető információk megőrzése mellett. A főkomponens-elemzés (PCA) és a t-Distributed Stochastic Neighbor Embedding (t-SNE) a nagydimenziós adatok megjelenítésére szolgálnak egy alacsonyabb dimenziójú térben.
Mikor kell mindegyiket használni
-
A felügyelt tanulás akkor használatos, ha címkézett adatokkal rendelkezik, és a címkézett adatok alapján szeretné megjósolni vagy osztályozni a jövőbeli példányokat. Ha például rendelkezik előzményadatokkal az ügyfelek vásárlásairól, és szeretné megjósolni a jövőbeli vásárlásokat, a felügyelt tanulás megfelelő.
-
A felügyelet nélküli tanulást akkor használjuk, ha nem rendelkezik címkézett adatokkal, vagy ha szeretné feltárni és megérteni az adatok mögöttes szerkezetét. Például az rendellenességek észlelésében vagy a rejtett minták megtalálásában nagy adatkészletekben.
Néha a félig felügyelt tanulás néven ismert mindkét tanulási típus kombinációja alkalmazható, ha kevés címkézett adattal és nagy mennyiségű címkézetlen adattal rendelkezik, így a modellek mindkét információforrásból profitálhatnak. .