การตรวจสอบข้าม K-fold ในการเรียนรู้ของเครื่อง

การตรวจสอบข้าม K-fold
การประเมินแบบจำลอง
ความสามารถทั่วไป
การตรวจสอบข้าม K-fold ในการเรียนรู้ของเครื่อง cover image

การตรวจสอบข้าม K-fold เป็นเทคนิคที่ใช้ในการ ประเมินประสิทธิภาพของแบบจำลอง มีประโยชน์อย่างยิ่งในการประมาณค่า ว่าโมเดลจะสรุปข้อมูลทั่วไป กับข้อมูลใหม่ที่มองไม่เห็นได้ดีเพียงใด กระบวนการนี้เกี่ยวข้องกับการแบ่งชุดข้อมูลออกเป็นชุดย่อย 'k' หรือพับที่มีขนาดเท่ากันโดยประมาณ ต่อไปนี้เป็นรายละเอียดขั้นตอนต่างๆ:

1. การแยกชุดข้อมูล:

ชุดข้อมูลแบ่งออกเป็นชุดย่อยหรือพับขนาดเท่ากัน 'k' ตัวอย่างเช่น หากคุณมี 1,000 ตัวอย่างและเลือก 'k' เป็น 5 แต่ละพับจะมี 200 ตัวอย่าง

2. การฝึกอบรมและการประเมินผลซ้ำ:

โมเดลได้รับการฝึกฝน 'k' ครั้ง ในการวนซ้ำแต่ละครั้ง จะมีการใช้พับที่แตกต่างกันเป็นชุดการตรวจสอบ และพับที่เหลือจะถูกใช้สำหรับการฝึก ตัวอย่างเช่น:

  • การวนซ้ำ 1: พับ 1 เป็นการตรวจสอบ พับ 2 ถึง k เพื่อการฝึก

  • การวนซ้ำ 2: พับ 2 เป็นการตรวจสอบ พับ 1 และ 3 ถึง k สำหรับการฝึก

  • การวนซ้ำ 3: พับ 3 เป็นการตรวจสอบ พับ 1 และ 2 และ 4 ถึง k สำหรับการฝึก

  • ... และต่อไปเรื่อยๆ จนกว่าการพับทั้งหมดจะถูกนำมาใช้เป็นชุดการตรวจสอบความถูกต้อง

3. การประเมินผลการปฏิบัติงาน:

หลังจากการวนซ้ำแต่ละครั้ง ประสิทธิภาพของแบบจำลองจะได้รับการประเมินโดยใช้หน่วยเมตริกที่เลือก (เช่น ความแม่นยำ ความแม่นยำ การเรียกคืน ฯลฯ) ในชุดการตรวจสอบความถูกต้อง เมตริกประสิทธิภาพจากการวนซ้ำแต่ละครั้งจะได้รับค่าเฉลี่ยหรือรวมกันเพื่อให้ ประมาณการโดยรวมของประสิทธิภาพของโมเดล

4. การรวมตัววัด:

ตัวชี้วัดประสิทธิภาพ (เช่น คะแนนความแม่นยำ) จากการวนซ้ำแต่ละครั้งจะถูกนำมาเฉลี่ยหรือรวมกันเพื่อให้การประเมินโดยรวมของประสิทธิภาพของแบบจำลอง เมตริกรวมนี้แสดงถึงประสิทธิภาพที่คาดหวังของโมเดลจากข้อมูลที่มองไม่เห็น

ข้อดีของการตรวจสอบข้าม K-fold เหนือการแยกรถไฟ/การทดสอบแบบธรรมดา

  • การใช้ข้อมูลที่ดีขึ้น: การตรวจสอบข้าม K-fold ช่วยให้ใช้ข้อมูลที่มีอยู่ได้ดีขึ้น เนื่องจาก แต่ละตัวอย่างใช้สำหรับทั้งการฝึกอบรมและการตรวจสอบ

  • ความแปรปรวนที่ลดลงในการประมาณประสิทธิภาพ: ให้การประมาณประสิทธิภาพของแบบจำลองที่เชื่อถือได้มากขึ้นโดย การลดความแปรปรวนที่เกี่ยวข้องกับการแยกขบวนรถไฟ/การทดสอบเดี่ยว

  • ลักษณะทั่วไป: ช่วยในการทำความเข้าใจว่าโมเดลทำงานอย่างไรกับชุดย่อยต่างๆ ของข้อมูล จึงเป็นการประเมินความสามารถในการวางนัยทั่วไปของโมเดล

การเลือกค่าของ 'k'

  • ค่า 'k' ที่สูงขึ้น: การใช้ค่า 'k' ที่สูงขึ้น (เช่น 10 หรือมากกว่า) ส่งผลให้ชุดการตรวจสอบความถูกต้องน้อยลง ซึ่งอาจนำไปสู่ ​​อคติที่ต่ำกว่า ในการประมาณประสิทธิภาพ แต่ ต้นทุนการคำนวณที่สูงขึ้น.

  • ค่า 'k' ต่ำกว่า: การใช้ค่า 'k' ต่ำกว่า (เช่น 3 หรือ 5) ลดค่าใช้จ่ายในการคำนวณ แต่อาจทำให้ มีอคติสูงขึ้น ในการประมาณประสิทธิภาพเนื่องจากการตรวจสอบความถูกต้องน้อยลง ชุด

ในสถานการณ์จริง

  • สำหรับชุดข้อมูลขนาดใหญ่ ค่า 'k' ที่สูงกว่าอาจมีราคาแพงในการคำนวณ

  • เมื่อชุดข้อมูลมีขนาดเล็ก ค่า 'k' ที่สูงกว่าอาจให้ข้อมูลไม่เพียงพอในแต่ละพับสำหรับการฝึกโมเดลที่มีประสิทธิภาพ

  • โดยทั่วไปแล้ว ค่าต่างๆ เช่น 5 หรือ 10 มักใช้กันเนื่องจากมีความสมดุลระหว่างประสิทธิภาพในการคำนวณและการประมาณประสิทธิภาพที่เชื่อถือได้


Career Services background pattern

บริการด้านอาชีพ

Contact Section background image

มาติดต่อกันกันเถอะ

Code Labs Academy © 2024 สงวนลิขสิทธิ์.