Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Какие критерии информативности используются при синтезе решающего дерева и почему?

Машинное обучениеАлгоритмы+3
  · 2,5 K
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of...  · 14 июл 2022
Дерево решений — это контролируемый алгоритм обучения, используемый как для задач классификации, так и для задач регрессии. Проще говоря, он принимает форму дерева с ветвями, представляющими возможные ответы на заданный вопрос. Существуют метрики, используемые для обучения деревьев решений. Одним из них является получение информации
Можно определить прирост информации как меру того, сколько информации предоставляет функция о классе. Получение информации помогает определить порядок атрибутов в узлах дерева решений. Главный узел называется родительским узлом, тогда как подузлы называются дочерними узлами. Мы можем использовать прирост информации, чтобы определить, насколько хорошо разделение узлов в дереве решений. Это может помочь определить качество расщепления.Расчет прироста информации поможет лучше понять эту концепцию.
Gain = Eparent - E_{children}
Термин Gain - «выигрыш» означает прирост информации. Eparent - это энтропия родительского узла, а E_{children} - средняя энтропия дочерних узлов.  Используем пример, чтобы визуализировать получение информации и ее расчет. 
Чем больше удалено энтропии, тем больше прирост информации. Чем выше прирост информации, тем лучше разделение. В качестве родительского (корневого) узла следует выбрать атрибут с наибольшим информационным приростом из набора.
Создавайте дочерние узлы для каждого значения атрибута A, следуя тому же принципу. Повторяйте итеративно, пока не закончите построение всего дерева.
Начальник информационного отдела НЧОУ ВО "Северный институт предпринимательства"  · 14 июл 2022
Во время построения решающего дерева необходимо задание такого критерия, как функционал качества, на основе которого осуществляется разбиение выборки на каждом шаге. С этой целью обозначение идет через Rm 4 множество объектов, попавших в вершину, разбиваемую на данном шаге, а через Rℓ и Rr — объекты, попадающие в левое и правое поддерево соответственно при заданном... Читать далее
20 y.o. ML Engineer. MTS SDA & KFU Computing Technology  · 14 июл 2022
При построении вершины для решающего дерева мы максимизируем функционал:  по j — признак, s - порог разбиения. N_l, N_r — количество объектов в левой и правой частях после разбиения по выбранному предикату, а N_m количество объект до разбиения. Это и есть критерий информативности по его сути, так как уменьшает хаотичность двух вершин после разбиения(r — правой, l —... Читать далее
1 эксперт согласен
Сравните с одним из других ответов на этот же вопрос https://yandex.ru/q/tech/12214890753/?answer_id=5313a41d-e23c-... Читать дальше