Применение методов регуляризации при создании алгоритмов деревьев решений является важным шагом для повышения эффективности вычислений и точности классификации древовидной модели. Методы обрезки уменьшают сложность древовидной структуры, сохраняя при этом точность классификации. Подробности и экспериментальное сравнение эффективности ряда методов обрезки приведены в [1] и [2].
Методы обрезки можно разделить на две группы:
• Методы предварительной обрезки: в методах предварительной обрезки дерево обрезается путем остановки его построения на ранней стадии, т. е. во время индукции дерева. После остановки узел дерева становится конечным узлом, содержащим наиболее часто встречающийся класс для подмножества объектов.
• Методы пост-обрезки: пост-обрезка работает путем удаления незначимых узлов из полностью построенного дерева. При этом сравниваются вероятности одноуровневых листовых узлов, и любое подавляющее доминирование определенного листового узла или поддерева приведет к сокращению этого узла.
В таблице приведена краткая характеристика основных методов обрезки [1].
Литература
Esposito F. [и др.]. A Comparative Analysis of Methods for Pruning Decision Trees // Pattern Analysis and Machine Intelligence, IEEE Transactions on. 1997. (19). C. 476–491.
Mingers J. An Empirical Comparison of Pruning Methods for Decision Tree Induction // Machine Learning. 1989. № 2 (4). C. 227–243.
Priyanka and Kumar, D. (2020) ‘Decision tree classifier: a detailed survey’, Int. J. Information and Decision Sciences, Vol. 12, No. 3, pp.246–269.