Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 1 авг 2022
Одним из методов фильтрация выбросов в непараметрической регрессии является DBSCAN кластеризация
Метод основан на методе кластеризации DBSCAN. DBSCAN - это непараметрический метод обнаружения выбросов на основе плотности в одномерном или многомерном пространстве признаков. Это непараметрический алгоритм кластеризации базированный на плотности: при заданном наборе точек в некотором пространстве он группирует вместе точки, которые плотно упакованы (точки со многими соседними соседями), помечая как выбросы точки, которые лежат поодиночке в областях с низкой плотностью. (у которых ближайшие соседи слишком далеко). DBSCAN является одним из наиболее распространенных алгоритмов кластеризации.
DBSCAN вычисляет графы ближайших соседей и создает кластеры произвольной формы в наборах данных (которые могут содержать шум или выбросы), в отличие от кластеризации k-средних, которая обычно генерирует кластеры сферической формы. В отличие от кластеризации методом k-средних, DBSCAN не требует первоначального указания количества кластеров. Однако DBSCAN требует два параметра, а именно. радиус окрестностей для данной точки данных p (eps или ε) и минимальное количество точек данных в данной ε-окрестности для формирования кластеров (minPts).
Выбросами называются данные, которые подозрительно сильно отличаются от остальных данных.
Возникают выбросы по самым разным причинам. Но чаще всего, это или опечатка, которую допустил человек, когда вводил данные с клавиатуры (при передачи данных голосом по телефону или устно или корявым почерком или еще как-то), или сбой датчика по причине его неисправности или по... Читать далее