Вступ
Дерева рішень (DTs) — це непараметричний контрольований метод навчання, який використовується для класифікації та регресії. Мета полягає в тому, щоб створити модель, яка передбачає значення цільової змінної шляхом вивчення простих правил прийняття рішень, виведених із характеристик даних.
Ентропія
Мета навчання — знайти найкращі розбиття у вузлах, щоб знайти найбільш оптимальне дерево. Розподіл виконується за такими критеріями, як: Ентропія.
Існує багато визначень ентропії, наприклад:
-
Ентропія відповідає кількості інформації, що міститься в джерелі інформації.
-
Ентропію також можна розглядати як випадковість або вимірювання несподіванки в наборі.
-
Ентропія - це метрика, яка вимірює непередбачуваність або забруднення в системі.
У деревах рішень ми розглядатимемо ентропію як міру чистоти всередині вузла. Метою моделі дерева рішень є зменшення ентропії вузлів при кожному розділенні:
Таким чином, ми хочемо максимізувати різницю між ентропією батьківського вузла та ентропією дочірніх вузлів. Ця різниця називається Посиленням інформації.
Ентропія набору математично формулюється так:
Збільшення інформації
Інформаційний приріст — це різниця між ентропією батьківського вузла та зваженою сумою ентропій вузлів chlid, і, отже, його можна сформулювати так:
де:
-
- це ентропія.
-
— сукупність до розбиття, вона представляє батьківський вузол.
-
- це змінна, яку ми хочемо використовувати для розбиття.
-
є унікальним значенням X.
-
— це розділений список лише зі значеннями .
візьмемо правильний приклад:
Ми обчислимо приріст інформації, коли розділимо батьківський вузол на значення X:
Спочатку ми обчислюємо ентропію батьківського вузла:
Потім ми обчислимо внутрішню ймовірність кожного дочірнього вузла після розбиття, використовуючи унікальні значення X:
Як от:
-
: представляє ентропію першого дочірнього вузла.
-
: представляє ентропію другого дочірнього вузла.
Ми починаємо з першого дочірнього вузла:
А потім другий дочірній вузол:
\
Нарешті, ми підставляємо ентропії у формулу отримання інформації:
\
\
Як було сказано раніше, метою поділу вузла є максимізація отримання інформації та, таким чином, мінімізація ентропії в отриманому дочірньому вузлі. Для цього нам потрібно спробувати розділити вузол на різні набори вхідних даних , і ми збережемо лише той розподіл, який максимізує приріст інформації:
Коли припинити розділення
Поділ вузлів у деревах рішень є рекурсивним, тому має бути критерій, який ми можемо використати, щоб зупинити поділ. Нижче наведено деякі з найбільш реалізованих критеріїв:
-
Якщо вузол чистий: H(вузол) = 0. Безглуздо далі розбивати вузол.
-
Максимальна кількість глибин: Ми можемо встановити максимальну глибину, яку може досягти модель, це означає, що навіть якщо вузол не є чистим, розщеплення зупиняється.
-
Мінімальна кількість зразків на вузол: Ми також можемо встановити мінімальну кількість зразків на вузол. Якщо кількість вибірок на вузол дорівнює , ми припиняємо розщеплення, навіть якщо вузол не є чистим.
До кінця навчання (розщеплення) кожен вузол, який спирається на кінець дерева рішень, називається «Листком», оскільки він не є коренем жодного піддерева. Кожен лист представлятиме врожайність класу з найбільшою кількістю зразків.
Висновок
Дерево рішень є одним із найвідоміших алгоритмів машинного навчання завдяки своїй ефективності, інтуїтивно зрозумілій основі та простій реалізації. Далі цей алгоритм можна використовувати з незалежними числовими змінними (дерево рішень Гауса), а також розширити його для вирішення завдань регресії.