Дерево решений — это контролируемый алгоритм обучения, используемый как для задач классификации, так и для задач регрессии. Проще говоря, он принимает форму дерева с ветвями, представляющими возможные ответы на заданный вопрос. Существуют метрики, используемые для обучения деревьев решений. Одним из них является получение информации
Можно определить прирост информации как меру того, сколько информации предоставляет функция о классе. Получение информации помогает определить порядок атрибутов в узлах дерева решений. Главный узел называется родительским узлом, тогда как подузлы называются дочерними узлами. Мы можем использовать прирост информации, чтобы определить, насколько хорошо разделение узлов в дереве решений. Это может помочь определить качество расщепления.Расчет прироста информации поможет лучше понять эту концепцию.
Gain = Eparent - E_{children}
Термин Gain - «выигрыш» означает прирост информации. Eparent - это энтропия родительского узла, а E_{children} - средняя энтропия дочерних узлов. Используем пример, чтобы визуализировать получение информации и ее расчет.
Чем больше удалено энтропии, тем больше прирост информации. Чем выше прирост информации, тем лучше разделение. В качестве родительского (корневого) узла следует выбрать атрибут с наибольшим информационным приростом из набора.
Создавайте дочерние узлы для каждого значения атрибута A, следуя тому же принципу. Повторяйте итеративно, пока не закончите построение всего дерева.