การตรวจสอบข้าม K-fold เป็นเทคนิคที่ใช้ในการ ประเมินประสิทธิภาพของแบบจำลอง มีประโยชน์อย่างยิ่งในการประมาณค่า ว่าโมเดลจะสรุปข้อมูลทั่วไป กับข้อมูลใหม่ที่มองไม่เห็นได้ดีเพียงใด กระบวนการนี้เกี่ยวข้องกับการแบ่งชุดข้อมูลออกเป็นชุดย่อย 'k' หรือพับที่มีขนาดเท่ากันโดยประมาณ ต่อไปนี้เป็นรายละเอียดขั้นตอนต่างๆ:
1. การแยกชุดข้อมูล:
ชุดข้อมูลแบ่งออกเป็นชุดย่อยหรือพับขนาดเท่ากัน 'k' ตัวอย่างเช่น หากคุณมี 1,000 ตัวอย่างและเลือก 'k' เป็น 5 แต่ละพับจะมี 200 ตัวอย่าง
2. การฝึกอบรมและการประเมินผลซ้ำ:
โมเดลได้รับการฝึกฝน 'k' ครั้ง ในการวนซ้ำแต่ละครั้ง จะมีการใช้พับที่แตกต่างกันเป็นชุดการตรวจสอบ และพับที่เหลือจะถูกใช้สำหรับการฝึก ตัวอย่างเช่น:
-
การวนซ้ำ 1: พับ 1 เป็นการตรวจสอบ พับ 2 ถึง k เพื่อการฝึก
-
การวนซ้ำ 2: พับ 2 เป็นการตรวจสอบ พับ 1 และ 3 ถึง k สำหรับการฝึก
-
การวนซ้ำ 3: พับ 3 เป็นการตรวจสอบ พับ 1 และ 2 และ 4 ถึง k สำหรับการฝึก
-
... และต่อไปเรื่อยๆ จนกว่าการพับทั้งหมดจะถูกนำมาใช้เป็นชุดการตรวจสอบความถูกต้อง
3. การประเมินผลการปฏิบัติงาน:
หลังจากการวนซ้ำแต่ละครั้ง ประสิทธิภาพของแบบจำลองจะได้รับการประเมินโดยใช้หน่วยเมตริกที่เลือก (เช่น ความแม่นยำ ความแม่นยำ การเรียกคืน ฯลฯ) ในชุดการตรวจสอบความถูกต้อง เมตริกประสิทธิภาพจากการวนซ้ำแต่ละครั้งจะได้รับค่าเฉลี่ยหรือรวมกันเพื่อให้ ประมาณการโดยรวมของประสิทธิภาพของโมเดล
4. การรวมตัววัด:
ตัวชี้วัดประสิทธิภาพ (เช่น คะแนนความแม่นยำ) จากการวนซ้ำแต่ละครั้งจะถูกนำมาเฉลี่ยหรือรวมกันเพื่อให้การประเมินโดยรวมของประสิทธิภาพของแบบจำลอง เมตริกรวมนี้แสดงถึงประสิทธิภาพที่คาดหวังของโมเดลจากข้อมูลที่มองไม่เห็น
ข้อดีของการตรวจสอบข้าม K-fold เหนือการแยกรถไฟ/การทดสอบแบบธรรมดา
-
การใช้ข้อมูลที่ดีขึ้น: การตรวจสอบข้าม K-fold ช่วยให้ใช้ข้อมูลที่มีอยู่ได้ดีขึ้น เนื่องจาก แต่ละตัวอย่างใช้สำหรับทั้งการฝึกอบรมและการตรวจสอบ
-
ความแปรปรวนที่ลดลงในการประมาณประสิทธิภาพ: ให้การประมาณประสิทธิภาพของแบบจำลองที่เชื่อถือได้มากขึ้นโดย การลดความแปรปรวนที่เกี่ยวข้องกับการแยกขบวนรถไฟ/การทดสอบเดี่ยว
-
ลักษณะทั่วไป: ช่วยในการทำความเข้าใจว่าโมเดลทำงานอย่างไรกับชุดย่อยต่างๆ ของข้อมูล จึงเป็นการประเมินความสามารถในการวางนัยทั่วไปของโมเดล
การเลือกค่าของ 'k'
-
ค่า 'k' ที่สูงขึ้น: การใช้ค่า 'k' ที่สูงขึ้น (เช่น 10 หรือมากกว่า) ส่งผลให้ชุดการตรวจสอบความถูกต้องน้อยลง ซึ่งอาจนำไปสู่ อคติที่ต่ำกว่า ในการประมาณประสิทธิภาพ แต่ ต้นทุนการคำนวณที่สูงขึ้น.
-
ค่า 'k' ต่ำกว่า: การใช้ค่า 'k' ต่ำกว่า (เช่น 3 หรือ 5) ลดค่าใช้จ่ายในการคำนวณ แต่อาจทำให้ มีอคติสูงขึ้น ในการประมาณประสิทธิภาพเนื่องจากการตรวจสอบความถูกต้องน้อยลง ชุด
ในสถานการณ์จริง
-
สำหรับชุดข้อมูลขนาดใหญ่ ค่า 'k' ที่สูงกว่าอาจมีราคาแพงในการคำนวณ
-
เมื่อชุดข้อมูลมีขนาดเล็ก ค่า 'k' ที่สูงกว่าอาจให้ข้อมูลไม่เพียงพอในแต่ละพับสำหรับการฝึกโมเดลที่มีประสิทธิภาพ
-
โดยทั่วไปแล้ว ค่าต่างๆ เช่น 5 หรือ 10 มักใช้กันเนื่องจากมีความสมดุลระหว่างประสิทธิภาพในการคำนวณและการประมาณประสิทธิภาพที่เชื่อถือได้