Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Как случайный лес справляется с пропущенными значениями?

ПрограммированиеМашинное обучениеDeep learning

Анонимный вопросМашинное обучение и Нейронные сети

21 января 2022 · 3,4 K

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 13 апр 2022

Алгоритм случайного леса — один из самых популярных и мощных контролируемых алгоритмов машинного обучения, способный выполнять как задачи классификации, так и регрессии. Как следует из названия, этот алгоритм создает лес с несколькими деревьями решений. В целом, чем больше деревьев решений в лесу, тем более надежным будет прогноз, что приведет к более высокой точности.

Чтобы создать лес с несколькими деревьями решений, мы будем использовать тот же метод, который мы использовали в деревьях решений, например получение информации и индекс Джини.

=============================

Как работает случайный лес:

=============================

В Random Forest мы создаем несколько деревьев, а не одно дерево в модели CART. Чтобы классифицировать новый объект на основе атрибутов, каждое дерево дает классификацию, и мы говорим, что дерево будет голосовать за этот класс. Алгоритм случайного лесного классификатора выбирает классификацию, набравшую наибольшее количество голосов. В случае регрессии алгоритм регрессора RF берет среднее значение результатов различных деревьев.

===========================

Отсутствующие значения:

===========================

В реальных данных бывают случаи, когда определенный элемент отсутствует по разным причинам — от человеческих ошибок при вводе данных, неверных показаний датчиков до программных ошибок в конвейере обработки данных. Обучение модели набором данных с большим количеством пропущенных значений может существенно повлиять на качество модели машинного обучения.

Обработка пропущенных значений — одна из самых больших проблем, с которыми сталкиваются аналитики, потому что принятие правильного решения о том, как с этим справиться, создает надежные модели данных.

===========================

Типы отсутствующих данных:

Случайно пропавшие без вести (MCAR)

Вероятность отсутствия не коррелирует с данными (мы знаем, что данные отсутствуют совершенно случайно)

Случайно пропавший без вести (MAR)

Это происходит, когда отсутствие не является случайным, а когда отсутствие может быть полностью объяснено переменными, в которых есть полная информация (мы знаем, почему данные отсутствуют, и мы измерили причину этого).

Пропавшие без вести не случайно (MNAR)

Данные отсутствуют из-за чего-то, что мы не измеряли. (Мы понятия не имеем, почему данные отсутствуют, или знаем почему, но не измеряли их)

====================================

Одним из основных преимуществ алгоритма случайного леса является то, что он лучше всего справляется со значениями MCAR и MAR, а также поддерживает точность отсутствующих данных. Он адаптируется к структуре данных с учетом высокой дисперсии или смещения, обеспечивая лучшие результаты на больших наборах данных.

===================================

Случайные леса и недостающие данные:

===================================

Отсутствующие данные создают проблемы, поскольку для многих статистических анализов требуются полные данные. Это вынуждает исследователей, которые хотят использовать статистический анализ, требующий полных данных, выбирать между подстановкой данных или отбрасыванием отсутствующих значений. Но простое отбрасывание отсутствующих данных не является хорошей практикой, так как ценная информация может быть потеряна, а сила логического вывода поставлена
под угрозу. Таким образом, вменение отсутствующих данных в таких случаях является более практичным способом.

Хотя для вмененных отсутствующих данных было разработано множество статистических методов, многие из них плохо работают в условиях многомерных и крупномасштабных данных.

====================================

Но, наоборот, случайные леса могут

====================================

обрабатывать смешанные типы отсутствующих данных,
адресные взаимодействия и нелинейность,
масштабировать до больших размеров, избегая переобучения,
и генерировать показатели важности переменной , полезные для выбора переменных.

======================================

Некоторые алгоритмы отсутствующих данных в RF:

======================================

Алгоритм радиочастотной близости.

Подробное объяснение алгоритма радиочастотной близости можно найти по ссылке ниже.

https://samaheee.medium.com/way-to-handle-missing-values-proximity-imputation-13d683a6c053

MICE (многомерное вменение с использованием цепного уравнения).

Подробное объяснение MICE можно найти по ссылке ниже (есть масса других ссылок в Сети по MICE)

https://rdrr.io/cran/mice/man/mice.impute.rf.html

==========

Вывод:

==========

Способность эффективно вводить отсутствующие данные имеет большое значение для ученых, работающих сегодня с реальными данными. Многие выводы показали, что случайные леса показали лучшие результаты среди различных методов, с превосходной производительностью прогнозирования и способностью обрабатывать все формы данных. Учитывая, что RF соответствует всем характеристикам для обработки отсутствующих данных, очень желательно использовать RF для ввода данных.

Источник https://www.numpyninja.com/post/all-about-random-forests-and-handling-missing-values-in-the m

=========================================

Реальный код на Пайтон можно посмотреть здесь

=========================================

В этом примере методы/пакеты случайного леса поддерживают два способа обработки отсутствующих значений: а) удалить точки данных с отсутствующими значениями (не рекомендуется); b) заполнить пропущенные значения медианой (для числовых значений) или модой (для категориальных значений).

https://informatics-ege.blogspot.com/2022/04/introduction-to-random-forests-in.html

Финальная версия кода источника строит плот (аккуратность 0.97)

Артём Бойко

Специалист в области управления и информатики в технических системах. Data Engeneer, IT... · 13 апр 2022

Модель случайного леса не решает проблему пропущенных и отсутствующих данных (речь о RandomForest из SKLearn ). Эта проблема решается на этапе подготовки данных. И от качественного выполнения данного этапа предварительной обработки данных зависит насколько качественную модель вы получите.

2 эксперта согласны