Как случайный лес оценивает важность объекта?

ПрограммированиеМашинное обучение+3

Анонимный вопросМашинное обучение и Нейронные сети

4 февраля 2022 · 866

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 7 февр 2022

Важность на основе точности

У каждого дерева есть своя готовая выборка данных, которая не использовалась при построении. Эта выборка используется для расчета важности конкретной переменной. Во-первых, измеряется точность предсказания для выборки из упаковки. Затем значения переменной в выборке «из коробки» случайным образом перемешиваются, оставляя все остальные переменные неизменными. Наконец, измеряется снижение точности предсказания для перетасованных данных.

Сообщается о среднем снижении точности по всем деревьям. Эта мера важности также разбита по классам результатов. Например, возраст важен для прогнозирования того, что человек зарабатывает более 50 000 долларов, но не важен для прогнозирования того, что человек зарабатывает меньше. Интуитивно случайная перетасовка означает, что в среднем перетасованная переменная не имеет предсказательной силы. Эта важность является мерой того, насколько удаление переменной снижает точность, и наоборот — насколько включение переменной повышает точность. Обратите внимание, что если переменная имеет очень маленькую предсказательную силу, перетасовка может привести к небольшому увеличению точности из-за случайного шума. Это, в свою очередь, может привести к небольшим отрицательным оценкам важности, которые можно рассматривать как эквивалентные нулевой важности.

========================

Важность на основе Джини

========================

Когда дерево построено, решение о том, какую переменную разделить в каждом узле, использует вычисление примеси Джини.

Для каждой переменной сумма убывания Джини по каждому дереву леса накапливается каждый раз, когда эта переменная выбирается для разделения узла. Сумма делится на количество деревьев в лесу, чтобы получить среднее значение. Масштаб не имеет значения: важны только относительные значения. Важность для числовых результатов

Процентное увеличение среднеквадратичной ошибки аналогично важности, основанной на точности, и рассчитывается путем перетасовки значений образцов из упаковки.Увеличение чистоты узла аналогично важности на основе Джини и рассчитывается на основе уменьшения суммы квадратов ошибок всякий раз, когда переменная выбирается для разделения.

===================

Резюме

===================

Одним из преимуществ важности на основе Джини является то, что вычисления Джини уже выполняются во время обучения, поэтому требуются минимальные дополнительные вычисления. Недостатком является то, что разделение смещено в сторону переменных со многими классами, что также приводит к смещению меры важности. Оба метода могут преувеличивать важность коррелированных предикторов.

Ни один из показателей не идеален, но просмотр обоих вместе позволяет сравнить ранжирование важности всех переменных по обоим показателям.

Источник https://www.displayr.com/how-is-variable-importance-calculated-for-a-random-forest

=====================================

Важность функции дерева решений

Алгоритмы деревьев решений, такие как деревья классификации и регрессии (CART), предлагают оценки важности на основе снижения критерия, используемого для выбора точек разделения, таких как Джини или энтропия. Этот же подход можно использовать для ансамблей деревьев решений, таких как алгоритмы случайного леса и стохастического повышения градиента. Давайте посмотрим на рабочий пример каждого из них.

====================

CART (short for Classification And Regression Trees) есть рекурсивный алгоритм обучения, сокращенно от «Деревья классификации и регрессии». Каждый узел разбивается таким образом, чтобы примесь Джини дочерних узлов (точнее, среднее значение Джини дочерних элементов, взвешенное по их размеру) было сведено к минимуму.

======================

Мы можем использовать алгоритм CART для определения важности функций, реализованный в scikit-learn в виде классов DecisionTreeRegressor и DecisionTreeClassifier.

После подгонки модель предоставляет свойство feature_importances_, доступ к которому можно получить для получения оценок относительной важности для каждой входной функции. Давайте посмотрим на пример этого для регрессии и классификации.

Важность функции регрессии CART

Полный пример подбора DecisionTreeRegressor и суммирования вычисленных показателей важности признаков приведен ниже.

Сode 1 from https://informatics-ege.blogspot.com/2022/02/calculate-feature-importance-with-python.html

Важность функции классификации CART

Полный пример подбора DecisionTreeClassifier и суммирования вычисленных показателей важности признаков приведен ниже.

Сode 2 from https://informatics-ege.blogspot.com/2022/02/calculate-feature-importance-with-python.html

Выполнение примера соответствует модели, а затем сообщает значение коэффициента для каждой функции.Примечание. Ваши результаты могут отличаться из-за стохастического характера алгоритма или процедуры оценки, а также из-за различий в численной точности. Попробуйте запустить пример несколько раз и сравните средний результат.

Результаты предполагают, что, возможно, четыре из 10 функций важны для предсказания.

Источник https://machinelearningmastery.com/calculate-feature-importance-with-python/