Pinangangasiwaang Pag-aaral
Ang pinangangasiwaang pag-aaral ay nagsasangkot ng pagsasanay ng isang modelo sa isang naka-label na dataset. Ang naka-label na data ay nangangahulugan na ang input data ay ipinares sa tamang output. Ang layunin ay para sa modelo na matutunan ang pagmamapa o kaugnayan sa pagitan ng mga input at output upang makagawa ito ng mga hula o tumpak na uriin ang bago, hindi nakikitang data. Mayroong dalawang pangunahing uri ng pinangangasiwaang pag-aaral:
-
Pag-uuri: Kabilang dito ang paghula ng kategoryang label. Halimbawa, ang pagtukoy kung spam o hindi spam ang isang email batay sa ilang partikular na feature (tulad ng mga salitang ginamit, nagpadala, atbp.). Ang mga algorithm tulad ng Support Vector Machines (SVM), Decision Tree, at Neural Network ay ginagamit para sa pag-uuri.
-
Regression: Kinabibilangan ng paghula ng continuous value. Halimbawa, ang paghula sa presyo ng isang bahay batay sa mga tampok nito tulad ng lugar, bilang ng mga silid-tulugan, atbp. Ang mga algorithm tulad ng Linear Regression, Random Forest, at Gradient Boosting ay ginagamit para sa mga gawain sa regression.
Hindi Pinangangasiwaang Pag-aaral
Ang Unsupervised learning ay nagsasangkot ng pagsasanay ng isang modelo sa isang unlabeled dataset. Dito, sinusubukan ng algorithm na maghanap ng mga nakatagong pattern o intrinsic na istruktura sa data nang walang anumang tahasang pangangasiwa. Ang layunin ay upang galugarin ang data, maunawaan ang istraktura nito, at kumuha ng mga makabuluhang insight. Ang mga karaniwang uri ng hindi pinangangasiwaang pag-aaral ay kinabibilangan ng:
-
Clustering: Pagsasama-sama ng magkakatulad na data point batay sa ilang partikular na feature o pagkakatulad. Halimbawa, ang pag-cluster ng mga segment ng customer batay sa kanilang gawi sa pagbili gamit ang mga algorithm tulad ng K-Means o Hierarchical Clustering.
-
Pagbabawas ng Dimensyon: Pagbabawas sa bilang ng mga feature habang pinapanatili ang mahahalagang impormasyon. Ang Principal Component Analysis (PCA) at t-Distributed Stochastic Neighbor Embedding (t-SNE) ay ginagamit para i-visualize ang high-dimensional na data sa isang lower-dimensional na espasyo.
Kailan Gagamitin ang Bawat isa
-
Ginagamit ang Pinangangasiwaang Pag-aaral kapag may label kang data at gusto mong hulaan o uriin ang mga instance sa hinaharap batay sa may label na data na iyon. Halimbawa, kung mayroon kang dating data sa mga pagbili ng customer at gusto mong hulaan ang mga pagbili sa hinaharap, angkop ang pinangangasiwaang pag-aaral.
-
Ginagamit ang Unsupervised Learning kapag wala kang naka-label na data o kapag gusto mong galugarin at maunawaan ang pinagbabatayan na istraktura ng data. Halimbawa, sa anomaly detection o paghahanap ng mga nakatagong pattern sa malalaking dataset.
Minsan, ang kumbinasyon ng parehong uri ng pag-aaral, na kilala bilang semi-supervised learning, ay maaaring gamitin kapag mayroon kang maliit na halaga ng may label na data at malaking halaga ng walang label na data, na nagpapahintulot sa mga modelo na makinabang mula sa parehong mga mapagkukunan ng impormasyon. .