K-кратная перекрестная проверка в машинном обучении

K-кратная перекрестная проверка
оценка модели
возможность обобщения
K-кратная перекрестная проверка в машинном обучении cover image

K-кратная перекрестная проверка – это метод, используемый для оценки эффективности модели. Это особенно полезно для оценки насколько хорошо модель будет обобщаться на новые, ранее неизвестные данные. Этот процесс включает в себя деление набора данных на подмножества или складки примерно одинакового размера. Вот разбивка шагов:

1. Разделение набора данных:

Набор данных разделен на подмножества или складки одинакового размера. Например, если у вас 1000 образцов и вы выбрали «k» как 5, каждый сгиб будет содержать 200 образцов.

2. Итеративное обучение и оценка:

Модель обучается k раз. На каждой итерации в качестве набора проверки используется другая складка, а оставшиеся складки используются для обучения. Например:

  • Итерация 1: Свертывание 1 для проверки, Свертывание 2 с k для обучения.

  • Итерация 2: Сложите 2 для проверки, сложите 1 и 3 до k для обучения.

Итерация 3: Сгиб 3 для проверки, Сгибы 1 и 2 и от 4 до k для обучения.

  • ... и так далее, пока все складки не будут использованы в качестве проверочного набора.

3. Оценка производительности:

После каждой итерации производительность модели оценивается с использованием выбранной метрики (например, точности, точности, полноты и т. д.) в наборе проверки. Показатели производительности каждой итерации усредняются или объединяются, чтобы дать общую оценку производительности модели.

4. Агрегация показателей:

Показатели производительности (например, показатели точности) каждой итерации усредняются или объединяются для получения общей оценки производительности модели. Этот агрегированный показатель представляет ожидаемую производительность модели на невидимых данных.

Преимущества K-кратной перекрестной проверки по сравнению с простым разделением поезда/теста

  • Лучшее использование данных: K-кратная перекрестная проверка позволяет лучше использовать доступные данные, поскольку каждая выборка используется как для обучения, так и для проверки.

  • Уменьшение дисперсии в оценке производительности: обеспечивает более надежную оценку производительности модели за счет уменьшения дисперсии, связанной с разделением одного поезда/теста.

  • Обобщение: помогает понять, как модель работает с различными подмножествами данных, и, следовательно, оценить ее способность к обобщению.

Выбор значения 'k'

  • Более высокие значения «k»: использование более высокого значения «k» (например, 10 или более) приводит к уменьшению наборов для проверки, что может привести к меньшей погрешности в оценке производительности, но высоким вычислительным затратам..

  • Более низкие значения «k»: использование более низких значений «k» (например, 3 или 5) снижает вычислительные затраты, но может привести к более высокой погрешности в оценке производительности из-за меньшего объема проверки. наборы.

В практических сценариях

  • Для больших наборов данных более высокие значения «k» могут потребовать больших вычислительных затрат.

  • Если набор данных небольшой, более высокое значение «k» может не обеспечить достаточного количества данных в каждом сгибе для надежного обучения модели.

  • Обычно обычно используются такие значения, как 5 или 10, поскольку они обеспечивают баланс между эффективностью вычислений и надежной оценкой производительности.


Career Services background pattern

Карьерные услуги

Contact Section background image

Давай останемся на связи

Code Labs Academy © 2024 Все права защищены.