แผนผังการตัดสินใจ เป็นอัลกอริทึมยอดนิยมที่ใช้สำหรับงานทั้ง การจัดหมวดหมู่ และ การถดถอย ทำงานโดยการแบ่งพาร์ติชันข้อมูลออกเป็นชุดย่อยซ้ำๆ ตามคุณลักษณะที่แยกตัวแปรเป้าหมายได้ดีที่สุด
ขั้นตอนในการทำนายและจัดการการตัดสินใจ
1. การก่อสร้างต้นไม้
-
Root Node: เริ่มต้นด้วยชุดข้อมูลทั้งหมด
-
การเลือกคุณสมบัติ: เลือกคุณสมบัติที่ดีที่สุดในการแบ่งข้อมูลออกเป็นส่วนย่อย คุณลักษณะ "ดีที่สุด" ถูกกำหนดโดยเกณฑ์ (เช่น สิ่งเจือปนของ Gini หรือการรับข้อมูล)
-
การแยก: แบ่งข้อมูลออกเป็นส่วนย่อยตามค่าของคุณสมบัติที่เลือก
-
การแยกแบบเรียกซ้ำ: ดำเนินกระบวนการนี้ต่อไปสำหรับแต่ละเซ็ตย่อย โดยสร้างกิ่งก้านหรือโหนดจนกว่าจะถึงเกณฑ์การหยุดที่แน่นอน (เช่น เข้าถึงความลึกสูงสุดหรือมีตัวอย่างน้อยเกินไป)
2. การตัดสินใจและการทำนาย
-
การสำรวจ: เมื่อทำการคาดการณ์ข้อมูลใหม่ ระบบจะสำรวจแผนภูมิตามค่าของคุณลักษณะสำหรับจุดข้อมูลนั้น
-
การประเมินโหนด: ที่แต่ละโหนด จะทดสอบค่าของคุณลักษณะเทียบกับเกณฑ์และเลื่อนลงมาตามแผนผังตามสาขาที่เหมาะสม
-
Leaf Nodes: ในที่สุดก็จะไปถึง leaf nodes ที่ให้คำทำนายหรือการตัดสินใจขั้นสุดท้าย
3. การจัดการคุณสมบัติหมวดหมู่และตัวเลข
-
สำหรับคุณสมบัติตามหมวดหมู่ แผนผังการตัดสินใจสามารถแบ่งตามหมวดหมู่ที่แตกต่างกันได้
-
สำหรับคุณลักษณะเชิงตัวเลข แผนผังการตัดสินใจลองใช้เกณฑ์ที่แตกต่างกันเพื่อแยกข้อมูลอย่างเหมาะสมที่สุด
4. การจัดการการโอเวอร์ฟิต
- ต้นไม้การตัดสินใจมีแนวโน้มที่จะมีความเหมาะสมมากเกินไป เทคนิคต่างๆ เช่น การตัดแต่งกิ่ง การจำกัดความลึกของต้นไม้ หรือการกำหนดจำนวนตัวอย่างขั้นต่ำที่จำเป็นสำหรับการแยกโหนดจะช่วยป้องกันการติดตั้งมากเกินไป
5. ความเชื่อมั่นและความน่าจะเป็นในการทำนาย
- ในการจำแนกประเภท แผนผังการตัดสินใจสามารถให้ความน่าจะเป็นของชั้นเรียนโดยพิจารณาจากการกระจายตัวของตัวอย่างในโหนดใบ สำหรับการถดถอย จะให้เอาต์พุตต่อเนื่องตามค่าเฉลี่ยหรือค่าส่วนใหญ่ในโหนดปลายสุด
6. การตีความ
- ข้อดีอย่างหนึ่งที่สำคัญของแผนผังการตัดสินใจคือความสามารถในการตีความได้ มองเห็นและเข้าใจได้ง่าย ช่วยให้เข้าใจถึงคุณลักษณะที่สำคัญที่สุดในการตัดสินใจ
7. วิธีการทั้งมวล
- แผนผังการตัดสินใจสามารถนำมารวมกันในวิธีการทั้งมวล เช่น Random Forests หรือ Gradient Boosting เพื่อปรับปรุงประสิทธิภาพและความทนทาน
แผนผังการตัดสินใจนำเสนอแนวทางที่ตรงไปตรงมาแต่ทรงพลังในการสร้างแบบจำลองความสัมพันธ์ที่ซับซ้อนภายในข้อมูล อย่างไรก็ตาม พวกเขาอาจต้องดิ้นรนกับข้อมูลบางประเภทที่ไม่ได้แบ่งแยกอย่างดีตามขอบเขตการตัดสินใจง่ายๆ หรือเมื่อมีคุณสมบัติที่รบกวนหรือไม่เกี่ยวข้อง