Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Какие формы ошибок выборки (selection bias) можно встретить в данных?

Ирина Беккер
Data Science
  · 1,8 K
Старший разработчик компании Google. Основная специальность - машинное обучение, глубокое...  · 17 сент 2021
Классификацию таких ошибок я не встречал, но приведу примеры, которые видел:
  1. Компания Google пару лет назад решила внедрить автоматическую классификацию фотографий пользователей в облаке. В результате часть фотографий темнокожих людей были промаркированы "Горилла" [1]. Причина скорее всего в смещенной выборке фотографий при обучении классификатора. Результат - большие репутационные издержки.
  2. Компания Майкрософт решила обучить чат-бота на данных переписки в интернете (форумы, твитер и прочее). Бот стал отборно материться и оскорблять пользователей. Причина - люди в интернете общаются не так вежливо, как это ожидается от чат-бота. Репутация компании не пострадала, но люди повеселились.
  3. Автопилоты компании Tesla периодически попадают в аварии из-за того, что на дороге оказывается что-то, чего обычно там не должно быть. Например, перевернутый грузовик. Во время обучения автопилот просто никогда не видел или видел слишком мало таких ситуаций.
Если говорить про примеры из научной области:
  1. Выборка MVSEC [4] для обучения предсказания оптического потока. Обучение происходит на данных с движущейся машины, а тестирование в том числе и на данных с летающего дрона. На таких данных результаты хуже, так как алгоритм "привыкает" к определенному шаблону движения объектов в кадре
  2. Алгоритмы, обученные на идентификации человека по изображению лица на данных с vk/facebook, могут ужасно работать на данных городского видеонаблюдения, так как качество фотографий будет хуже, и изменятся условия съемки.
  3. Идентификация человека по изображению лица, обученная на данных российских пользователей, будет плохо работать в Китае или Индии.
младший научный сотрудник ФТИ им. Иоффе  · 18 сент 2021  ·
astropolytech
Большинство открытых экзопланет относятся к классу горячие Юпитеры. Следует ли из этого, что действительно большинство экзопланет такие? - нет, просто их проще всего обнаружить
астрофизическое образованиеПерейти на vk.com/astropolytech
преподавание математики, высшей математики, data science, автор бестселлера "Математика...  · 28 сент 2021
С уважением к другим ответам позвольте добавить свои 5 копеек. (1) Конечно, самая неприятная - не репрезентативность выборки. То есть 1000 штук из всей 100 000 - неправильно представляет свойства всей совокупности. Допустим, собрали по Москве 1000 бомжей. Они совсем не представляют москвичей en masse ( в массе). (2) Попроще, но тоже - ошибка размера выборки. (3) А вот... Читать далее