Как обрабатывать пропущенные данные в датасете?

Question

ElectricSecretUser · Accepted Answer

Мне известны следующие варианты:
1) Отбросить строки с недостающими данными (либо не использовать столбцы с большим кол-вом NaN в качестве параметра для модели). По возможности, разумеется
2) Если ...

Андрей Бахматов · Answer

Если значение пропущенного элемента влияет на машинное обучение, содержащую этот элемент запись следует полностью игнорировать, причём на малой выборке это особенно важно, так как всякие неверные д...

Ilya Tolokonov · Answer

Здравствуйте, есть много способов обработки пропущенных значений, предлагаю начать с самого простого - исключения строк с пропущенными элементами из датасета. Если у вас большой датасет, то процеду...

Сергей Ильин · Answer

я попробую написать несколько решений навскидку:
1/ дропнуть те строки, в которых имеется Null / NA / что там у вас.
Хорошее решение, если датасет большой, плохое - если маленький (или дикий дисбал...

Леонид Никифоров · Answer

1. Модельно-независимым способом невозможно восстановить, кажется, это Теорема Шеннона.
2. Следовательно, вы можете только ухудшить количество информации, полученой математически. 
3. Применение За...

Андрей Плахов · Answer

Это зависит от задачи и от применяемого метода.

Наиболее распространенные методы "табличного" ML -- Catboost и XGBoost -- умеют работать с пропущенными данными "из коробки", см. https://catboost....

Теперь Кью работает в режиме чтения

Как обрабатывать пропущенные данные в датасете?