K-кратная перекрестная проверка – это метод, используемый для оценки эффективности модели. Это особенно полезно для оценки насколько хорошо модель будет обобщаться на новые, ранее неизвестные данные. Этот процесс включает в себя деление набора данных на подмножества или складки примерно одинакового размера. Вот разбивка шагов:
1. Разделение набора данных:
Набор данных разделен на подмножества или складки одинакового размера. Например, если у вас 1000 образцов и вы выбрали «k» как 5, каждый сгиб будет содержать 200 образцов.
2. Итеративное обучение и оценка:
Модель обучается k раз. На каждой итерации в качестве набора проверки используется другая складка, а оставшиеся складки используются для обучения. Например:
-
Итерация 1: Свертывание 1 для проверки, Свертывание 2 с k для обучения.
-
Итерация 2: Сложите 2 для проверки, сложите 1 и 3 до k для обучения.
– Итерация 3: Сгиб 3 для проверки, Сгибы 1 и 2 и от 4 до k для обучения.
- ... и так далее, пока все складки не будут использованы в качестве проверочного набора.
3. Оценка производительности:
После каждой итерации производительность модели оценивается с использованием выбранной метрики (например, точности, точности, полноты и т. д.) в наборе проверки. Показатели производительности каждой итерации усредняются или объединяются, чтобы дать общую оценку производительности модели.
4. Агрегация показателей:
Показатели производительности (например, показатели точности) каждой итерации усредняются или объединяются для получения общей оценки производительности модели. Этот агрегированный показатель представляет ожидаемую производительность модели на невидимых данных.
Преимущества K-кратной перекрестной проверки по сравнению с простым разделением поезда/теста
-
Лучшее использование данных: K-кратная перекрестная проверка позволяет лучше использовать доступные данные, поскольку каждая выборка используется как для обучения, так и для проверки.
-
Уменьшение дисперсии в оценке производительности: обеспечивает более надежную оценку производительности модели за счет уменьшения дисперсии, связанной с разделением одного поезда/теста.
-
Обобщение: помогает понять, как модель работает с различными подмножествами данных, и, следовательно, оценить ее способность к обобщению.
Выбор значения 'k'
-
Более высокие значения «k»: использование более высокого значения «k» (например, 10 или более) приводит к уменьшению наборов для проверки, что может привести к меньшей погрешности в оценке производительности, но высоким вычислительным затратам..
-
Более низкие значения «k»: использование более низких значений «k» (например, 3 или 5) снижает вычислительные затраты, но может привести к более высокой погрешности в оценке производительности из-за меньшего объема проверки. наборы.
В практических сценариях
-
Для больших наборов данных более высокие значения «k» могут потребовать больших вычислительных затрат.
-
Если набор данных небольшой, более высокое значение «k» может не обеспечить достаточного количества данных в каждом сгибе для надежного обучения модели.
-
Обычно обычно используются такие значения, как 5 или 10, поскольку они обеспечивают баланс между эффективностью вычислений и надежной оценкой производительности.