Какой алгоритм регрессии выбрать для шумных (разбросанных) данных?

ПрограммированиеМашинное обучение+3

Анонимный вопросМашинное обучение и Нейронные сети

17 марта 2022 · 1,0 K

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 17 мар 2022

Консенсус случайной выборки (RANSAC) — это итерационный метод оценки параметров математической модели по набору наблюдаемых данных, который содержит выбросы, когда выбросы не должны влиять на значения оценок. Следовательно, его также можно интерпретировать как метод обнаружения выбросов. Это недетерминированный алгоритм в том смысле, что он дает разумный результат только с определенной вероятностью, причем эта вероятность увеличивается по мере того, как разрешено больше итераций. Алгоритм был впервые опубликован Фишлером и Боллесом в SRI International в 1981 году. Они использовали RANSAC для решения задачи определения местоположения (LDP), где цель состоит в том, чтобы определить точки в пространстве, которые проецируются на изображение в набор ориентиров с известные локации.

RANSAC использует повторную случайную подвыборку (repeated random sub-sampling).Основное предположение состоит в том, что данные состоят из «выбросов», т. е. данных, распределение которых может быть объяснено некоторым набором параметров модели, хотя и может подвергаться шуму, и «выбросов», которые представляют собой данные, не соответствующие модели. Выбросы могут возникать, например, из-за экстремальных значений шума или из-за ошибочных измерений или неверных гипотез об интерпретации данных. RANSAC также предполагает, что при заданном (обычно небольшом) наборе вставок существует процедура, которая может оценить параметры модели, которая оптимально объясняет эти данные или соответствует им.

============================

Повторная проверка случайной подвыборки (repeated random sub-sampling)

Этот метод, также известный как перекрестная проверка Монте-Карло,создает несколько случайных разбиений набора данных на данные для обучения и проверки. Для каждого такого разделения модель подгоняется к обучающим данным, а точность прогнозирования оценивается с использованием проверочных данных. Затем результаты усредняются по сплитам. Преимущество этого метода (по сравнению с k-кратной перекрестной проверкой) заключается в том, что пропорция разделения обучения/проверки не зависит от количества итераций (т. е. количества разделов). Недостатком этого метода является то, что некоторые наблюдения могут никогда не быть выбраны в подвыборке проверки, тогда как другие могут быть выбраны более одного раза. Другими словами, подмножества проверки могут перекрываться. Этот метод также демонстрирует вариацию Монте-Карло, что означает, что результаты будут различаться, если анализ повторяется с другими случайными разбиениями. По мере того, как количество случайных разбиений приближается к бесконечности, результат повторной проверки случайной подвыборки стремится к результату перекрестной проверки с исключением. В стратифицированном варианте этого подхода случайные выборки генерируются таким образом, чтобы среднее значение ответа (т. е. зависимая переменная в регрессии) было одинаковым в обучающей и тестовой выборках. Это особенно полезно, если ответы являются дихотомическими с несбалансированным представлением двух значений ответа в данных.Метод, в котором применяется повторяющаяся случайная подвыборка, называется RANSAC.

================================

Входными данными для алгоритма RANSAC является набор наблюдаемых значений данных, способ подгонки некоторой модели к наблюдениям и некоторые параметры достоверности.

RANSAC достигает своей цели, повторяя следующие шаги:

Выберите случайное подмножество исходных данных. Назовите это подмножество гипотетическими вкладышами.Модель подгоняется к набору гипотетических вкладышей. Затем все остальные данные проверяются на соответствие подобранной модели. Те точки, которые хорошо соответствуют оценочной модели, в соответствии с некоторой специфичной для модели функцией потерь, рассматриваются как часть согласованного множества. Предполагаемая модель достаточно хороша, если достаточно много точек классифицируется как часть согласованного множества. Впоследствии модель можно улучшить, переоценив ее, используя все элементы консенсусного множества.

================================

Эта процедура повторяется фиксированное количество раз, каждый раз создавая либо модель, которая отклоняется из-за того, что в консенсусный набор входит слишком мало точек, либо уточняющую модель вместе с соответствующим размером консенсусного набора.

В последнем случае мы сохраняем уточненную модель, если ее консенсусный набор больше, чем ранее сохраненная модель.

Run Code 1 from https://informatics-ege.blogspot.com/2022/03/robust-linear-model-estimation-using.html

Преимуществом RANSAC является его способность выполнять надежную оценку параметров модели, то есть он может оценивать параметры с высокой степенью точности, даже когда в наборе данных присутствует значительное количество выбросов. Недостатком RANSAC является отсутствие верхней границы времени, необходимого для вычисления этих параметров (кроме исчерпания). Когда число вычисляемых итераций ограничено, полученное решение может быть неоптимальным и даже не соответствовать данным. Таким образом, RANSAC предлагает компромисс; за счет вычисления большего количества итераций вероятность создания разумной модели увеличивается. Более того, RANSAC не всегда может найти оптимальный набор даже для умеренно загрязненных наборов и обычно плохо работает, когда количество вставок меньше 50%. Оптимальный RANSAC был предложен для решения обеих этих проблем и способен найти оптимальный набор для сильно загрязненных наборов, даже для более низкого отношения менее 5%. Еще одним недостатком RANSAC является то, что он требует установки пороговых значений для конкретных задач. RANSAC может оценить только одну модель для определенного набора данных. Что касается любого подхода с одной моделью, когда существуют два (или более) экземпляра модели, RANSAC может не найти ни один из них. Преобразование Хафа является одним из альтернативных методов надежной оценки, который может быть полезен, когда присутствует более одного экземпляра модели. Другой подход к подбору нескольких моделей известен как PEARL,который сочетает в себе выборку модели из точек данных, как в RANSAC, с итеративной переоценкой вставок, а подбор нескольких моделей формулируется как задача оптимизации с глобальной функцией энергии, описывающей качество общего решения.

Основа https://en.wikipedia.org/wiki/Random_sample_consensus

Борис Державец

17 марта 2022

Второй пример from sklearn import datasets from sklearn.preprocessing import StandardScaler from sklearn.model_sele... Читать дальше