Какие критерии информативности используются при синтезе решающего дерева и почему?

Машинное обучениеАлгоритмы+3

Анонимный вопросМашинное обучение и Нейронные сети

14 июля 2022 · 2,5 K

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 14 июл 2022

Дерево решений — это контролируемый алгоритм обучения, используемый как для задач классификации, так и для задач регрессии. Проще говоря, он принимает форму дерева с ветвями, представляющими возможные ответы на заданный вопрос. Существуют метрики, используемые для обучения деревьев решений. Одним из них является получение информации

Можно определить прирост информации как меру того, сколько информации предоставляет функция о классе. Получение информации помогает определить порядок атрибутов в узлах дерева решений. Главный узел называется родительским узлом, тогда как подузлы называются дочерними узлами. Мы можем использовать прирост информации, чтобы определить, насколько хорошо разделение узлов в дереве решений. Это может помочь определить качество расщепления.Расчет прироста информации поможет лучше понять эту концепцию.

Gain = Eparent - E_{children}

Термин Gain - «выигрыш» означает прирост информации. Eparent - это энтропия родительского узла, а E_{children} - средняя энтропия дочерних узлов. Используем пример, чтобы визуализировать получение информации и ее расчет.

Чем больше удалено энтропии, тем больше прирост информации. Чем выше прирост информации, тем лучше разделение. В качестве родительского (корневого) узла следует выбрать атрибут с наибольшим информационным приростом из набора.

Создавайте дочерние узлы для каждого значения атрибута A, следуя тому же принципу. Повторяйте итеративно, пока не закончите построение всего дерева.

Смотри детально https://informatics-ege.blogspot.com/2022/07/entropy-and-information-gain-to-build.html

Горюнов Владимир

Начальник информационного отдела НЧОУ ВО "Северный институт предпринимательства" · 14 июл 2022

Во время построения решающего дерева необходимо задание такого критерия, как функционал качества, на основе которого осуществляется разбиение выборки на каждом шаге. С этой целью обозначение идет через Rm 4 множество объектов, попавших в вершину, разбиваемую на данном шаге, а через Rℓ и Rr — объекты, попадающие в левое и правое поддерево соответственно при заданном... Читать далее

Павел Кочкин

20 y.o. ML Engineer. MTS SDA & KFU Computing Technology · 14 июл 2022

При построении вершины для решающего дерева мы максимизируем функционал: по j — признак, s - порог разбиения. N_l, N_r — количество объектов в левой и правой частях после разбиения по выбранному предикату, а N_m количество объект до разбиения. Это и есть критерий информативности по его сути, так как уменьшает хаотичность двух вершин после разбиения(r — правой, l —... Читать далее

1 эксперт согласен

Борис Державец

подтверждает

14 июля 2022

Сравните с одним из других ответов на этот же вопрос https://yandex.ru/q/tech/12214890753/?answer_id=5313a41d-e23c-... Читать дальше