การเรียนรู้แบบมีผู้สอน
การเรียนรู้ภายใต้การดูแล เกี่ยวข้องกับการฝึกอบรมโมเดลบน ชุดข้อมูลที่ติดป้ายกำกับ ข้อมูลที่ติดป้ายกำกับหมายถึงข้อมูลอินพุตถูกจับคู่กับเอาต์พุตที่ถูกต้อง เป้าหมายคือเพื่อให้แบบจำลองเรียนรู้การแมปหรือความสัมพันธ์ระหว่างอินพุตและเอาต์พุต เพื่อให้สามารถคาดการณ์หรือจัดประเภทข้อมูลใหม่ที่มองไม่เห็นได้อย่างแม่นยำ การเรียนรู้แบบมีผู้สอนมีสองประเภทหลัก:
-
การจัดหมวดหมู่: เกี่ยวข้องกับการทำนาย ป้ายกำกับหมวดหมู่ ตัวอย่างเช่น การพิจารณาว่าอีเมลเป็นสแปมหรือไม่โดยพิจารณาจากคุณสมบัติบางอย่าง (เช่น คำที่ใช้ ผู้ส่ง ฯลฯ) อัลกอริทึมเช่น Support Vector Machines (SVM), Decision Trees และ Neural Networks ถูกนำมาใช้ในการจำแนกประเภท
-
การถดถอย: เกี่ยวข้องกับการทำนาย ค่าต่อเนื่อง ตัวอย่างเช่น การทำนายราคาบ้านตามคุณลักษณะของบ้าน เช่น พื้นที่ จำนวนห้องนอน ฯลฯ อัลกอริทึม เช่น Linear Regression, Random Forest และ Gradient Boosting ใช้สำหรับงานการถดถอย
การเรียนรู้แบบไม่มีผู้ดูแล
การเรียนรู้แบบไม่มีผู้ดูแล เกี่ยวข้องกับการฝึกอบรมโมเดลบน ชุดข้อมูลที่ไม่มีป้ายกำกับ ในที่นี้ อัลกอริธึมจะพยายามค้นหารูปแบบที่ซ่อนอยู่หรือโครงสร้างภายในข้อมูลโดยไม่มีการควบคุมดูแลที่ชัดเจน จุดมุ่งหมายคือการสำรวจข้อมูล ทำความเข้าใจโครงสร้างของข้อมูล และดึงข้อมูลเชิงลึกที่มีความหมาย การเรียนรู้แบบไม่มีผู้ดูแลประเภททั่วไป ได้แก่:
-
การจัดกลุ่ม: การจัดกลุ่มจุดข้อมูลที่คล้ายคลึงกันโดยอิงตามคุณลักษณะบางอย่างหรือความคล้ายคลึงกัน ตัวอย่างเช่น การจัดกลุ่มลูกค้าตามพฤติกรรมการซื้อโดยใช้อัลกอริทึม เช่น K-Means หรือการจัดกลุ่มแบบลำดับชั้น
-
การลดขนาด: ลดจำนวนฟีเจอร์โดยยังคงรักษาข้อมูลที่สำคัญไว้ การวิเคราะห์องค์ประกอบหลัก (PCA) และ t-Distributed Stochastic Neighbor Embedding (t-SNE) ใช้เพื่อแสดงภาพข้อมูลมิติสูงในพื้นที่มิติต่ำกว่า
เมื่อใดควรใช้แต่ละรายการ
-
Supervised Learning จะใช้เมื่อคุณติดป้ายกำกับข้อมูลและต้องการคาดการณ์หรือจัดประเภทอินสแตนซ์ในอนาคตตามข้อมูลที่ติดป้ายกำกับนั้น ตัวอย่างเช่น หากคุณมีข้อมูลประวัติการซื้อของลูกค้าและต้องการคาดการณ์การซื้อในอนาคต การเรียนรู้แบบมีผู้สอนก็เหมาะสม
-
การเรียนรู้แบบไม่มีผู้ดูแลจะใช้เมื่อคุณไม่มีข้อมูลที่มีป้ายกำกับ หรือเมื่อคุณต้องการสำรวจและทำความเข้าใจโครงสร้างพื้นฐานของข้อมูล ตัวอย่างเช่น ใน การตรวจจับความผิดปกติ หรือการค้นหารูปแบบที่ซ่อนอยู่ในชุดข้อมูลขนาดใหญ่
บางครั้ง การเรียนรู้ทั้งสองประเภทผสมผสานกันที่เรียกว่า การเรียนรู้แบบกึ่งมีผู้สอน สามารถนำมาใช้ได้เมื่อคุณมีข้อมูลที่ติดป้ายกำกับจำนวนเล็กน้อยและข้อมูลที่ไม่มีป้ายกำกับจำนวนมาก ซึ่งช่วยให้โมเดลได้รับประโยชน์จากแหล่งข้อมูลทั้งสอง .