Зачем делается редукция решающих деревьев?

ПрограммированиеМашинное обучение+3

Анонимный вопросМашинное обучение и Нейронные сети

20 июля 2022 · 1,7 K

Увлекаюсь физикой, астрономией и финансами. · 30 июл 2022 · forecast.nanoquant.ru

Когда вы даете решающему дереву расти на столько, на сколько оно сможет, то получается такое дерево, у которого в каждом листе будет находится один экземпляр из датасета. То есть, если размер датасета, например, 1000 экземпляров, то вы получите дерево с 1000 листьями, в каждом листе которого сидит один из экземпляров датасета.

Это бывает не плохо, когда у вас в некотором смысле хороший датасет. Например, если это задача регрессии, и у вас все точки достаточно хорошо лежат на прямой линии или на достаточно плавной кривой линии нигде особо не сгущаясь. Или если это, например, задача классификации, и у датасета хорошая разделимость на классы, как что отсутствуют области, где точки разных классов перемешаны друг с другом.

Но это бывает редко.

Например, в задачах регрессии часто встречаются достаточно зашумленные датасеты с какими-нибудь выбросами, сильно удаленными от прямой или кривой, которая должна быть решением. А лист решающего регрессионного дерева захватывает не только координаты точки выброса, но и некоторую координатную окрестность точки выброса. Поэтому если вам нужен прогноз значения точки, которая попала в эту окрестность, то прогноз будет сделан тем листом, где сидит точка выброса. То есть будет прогнозироваться очень далекое значение от нужного значения.

Было бы гораздо лучше, если бы в лист попала не одна точка выброса, а например, 3 или 5 или 10 точек, которые окружают точку выброса. В этом случае прогноз будет сделан по среднему значению всех этих точек. Мало того, что такое локальное усреднение приведет к уменьшению влияния выброса, так еще при усреднении компенсируют друг друга значения, которые отклоняются в большую и в меньшую сторону от реального решения. То есть будет больше вероятность, что прогноз будет точнее.

В задачах классификации то же самое. Выброс, который сильно залез в область чужого класса будет подавлен голосованием в таком листе, в котором находится не один экземпляр датасета, а еще несколько ближайших экземпляров. А если это смешанная область с точками нескольких классов, то принадлежность к классу будет решаться тем фактом, представителей какого класса больше находится в том листе, куда попал наш образец, у которого надо определить класс. Более вероятно, что это область именно того класса, представителей которого в данном листе больше.

Поэтому, когда обучают модель Решающего Дерева, то задают параметры редукции роста дерева, чтобы дерево не выросло так, что в каждом листе только один образец датасета.

Рост Решающего Дерева, обычно, ограничивают или по глубине (количество уровней от корня) или по количеству экземпляров датасета в конечном листе, или по количеству экземпляров датасета в таком листе, который требуется расщепить на две ветки.

Эксперт по оптимизации инвестиционного портфеля и прогнозированию биржевых цен.

Перейти на forecast.nanoquant.ru

Борис Державец

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 20 июл 2022

Сокращение дерева решений помогает предотвратить переобучение модели, чтобы наша модель хорошо обобщала невидимые данные. Сокращение дерева решений означает удаление избыточного и бесполезного разделения поддерева и замену его конечным узлом. Post Pruning : Этот метод используется после построения дерева решений. Этот метод используется, когда дерево решений будет... Читать далее