Когда вы даете решающему дереву расти на столько, на сколько оно сможет, то получается такое дерево, у которого в каждом листе будет находится один экземпляр из датасета. То есть, если размер датасета, например, 1000 экземпляров, то вы получите дерево с 1000 листьями, в каждом листе которого сидит один из экземпляров датасета.
Это бывает не плохо, когда у вас в некотором смысле хороший датасет. Например, если это задача регрессии, и у вас все точки достаточно хорошо лежат на прямой линии или на достаточно плавной кривой линии нигде особо не сгущаясь. Или если это, например, задача классификации, и у датасета хорошая разделимость на классы, как что отсутствуют области, где точки разных классов перемешаны друг с другом.
Но это бывает редко.
Например, в задачах регрессии часто встречаются достаточно зашумленные датасеты с какими-нибудь выбросами, сильно удаленными от прямой или кривой, которая должна быть решением. А лист решающего регрессионного дерева захватывает не только координаты точки выброса, но и некоторую координатную окрестность точки выброса. Поэтому если вам нужен прогноз значения точки, которая попала в эту окрестность, то прогноз будет сделан тем листом, где сидит точка выброса. То есть будет прогнозироваться очень далекое значение от нужного значения.
Было бы гораздо лучше, если бы в лист попала не одна точка выброса, а например, 3 или 5 или 10 точек, которые окружают точку выброса. В этом случае прогноз будет сделан по среднему значению всех этих точек. Мало того, что такое локальное усреднение приведет к уменьшению влияния выброса, так еще при усреднении компенсируют друг друга значения, которые отклоняются в большую и в меньшую сторону от реального решения. То есть будет больше вероятность, что прогноз будет точнее.
В задачах классификации то же самое. Выброс, который сильно залез в область чужого класса будет подавлен голосованием в таком листе, в котором находится не один экземпляр датасета, а еще несколько ближайших экземпляров. А если это смешанная область с точками нескольких классов, то принадлежность к классу будет решаться тем фактом, представителей какого класса больше находится в том листе, куда попал наш образец, у которого надо определить класс. Более вероятно, что это область именно того класса, представителей которого в данном листе больше.
Поэтому, когда обучают модель Решающего Дерева, то задают параметры редукции роста дерева, чтобы дерево не выросло так, что в каждом листе только один образец датасета.
Рост Решающего Дерева, обычно, ограничивают или по глубине (количество уровней от корня) или по количеству экземпляров датасета в конечном листе, или по количеству экземпляров датасета в таком листе, который требуется расщепить на две ветки.