Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Что делать, если классы не сбалансированы? Что делать, если групп больше двух?

ПрограммированиеData science+3
Анонимный вопрос
Data Science
  · 646
Робототехника, к.т.н.  · 18 апр 2022
Есть 2 варианта минимум:
  • undersampling - решение заключается в выкидывании части данных. Например, если два класса: первый — очень большой; второй —  совсем маленький. В этом случае, можно выкинуть большую часть объектов первого класса, чтобы размеры классов примерно сравнялись.  При этом то, сколько именно объектов каждого класса мы выбрасываем,  это гиперпараметр,  который надо подобрать по отложенной выборке или на кросс-валидации. 
  • oversampling - ровно противоположный, выборку из маленького класса мы дублируем чтобы сравнять размеры классов. Аналогично предыдущему варианту, насколько мы будем увеличивать меньший класс – тоже гиперпараметр.