Кластеризация — это неконтролируемый алгоритм машинного обучения. Это помогает группировать точки данных в группы. Проверка алгоритма кластеризации немного сложнее по сравнению с алгоритмом контролируемого машинного обучения, поскольку процесс кластеризации не содержит меток истинности. Если кто-то хочет выполнить кластеризацию с наличием меток истинности, можно использовать методы проверки и метрики контролируемых алгоритмов машинного обучения. В этом сообщении в блоге делается попытка рассмотреть стратегии оценки, когда метки достоверности неизвестны. Как можно оценить кластеризацию?
Три важных фактора, по которым можно оценить кластеризацию:
(а) Тенденция к кластеризации ; (б) Количество кластеров, k ; (в) Качество кластеризации
==========================
Тенденция к кластеризации
==========================
Перед оценкой производительности кластеризации очень важно убедиться, что набор данных, с которым мы работаем, имеет тенденцию к кластеризации и не содержит равномерно распределенных точек. Если данные не содержат тенденцию к кластеризации, то кластеры, идентифицированные любым современным алгоритмом кластеризации, могут быть нерелевантными. Неравномерное распределение точек в наборе данных становится важным при кластеризации.
=======================
Качество кластеризации
=======================
После того, как кластеризация завершена, ее эффективность можно количественно оценить с помощью ряда показателей. Идеальная кластеризация характеризуется минимальным внутрикластерным расстоянием и максимальным межкластерным расстоянием. В основном существует два типа мер для оценки производительности кластеризации.
(i) Внешние показатели, которые требуют маркировки достоверности. Примерами являются скорректированный индекс Рэнда,баллы на основе взаимной информации, однородность, полнота и V-мера.
(ii) Внутренние показатели, не требующие маркировки достоверности. Некоторыми показателями производительности кластеризации являются коэффициент силуэта, индекс Калински-Харабаша, индекс Дэвиса-Булдина.
=====================================
Количество оптимальных кластеров, k
=====================================
Некоторые алгоритмы кластеризации, такие как K-средние, требуют количества кластеров k в качестве параметра кластеризации. Получение оптимального количества кластеров очень важно при анализе. Если k слишком велико, каждая точка в целом начнет представлять кластер, а если k слишком мало, то точки данных будут неправильно сгруппированы. Поиск оптимального количества кластеров приводит к детализации кластеризации. Не существует однозначного ответа для определения правильного количества кластеров, поскольку это зависит от (а) формы распределения (б) масштаба в наборе данных (в) разрешения кластеризации, требуемого пользователем. Хотя нахождение количества кластеров - очень субъективная проблема. Существует два основных подхода к поиску оптимального количества кластеров:
(1) Знание предметной области
(2) Подход, основанный на данных
Знание предметной области. Знание предметной области может дать некоторые предварительные знания о нахождении количества кластеров. Например, в случае кластеризации набора данных об ирисе, если у нас есть предварительные знания о видах (sertosa, virginica, versicolor), тогда k = 3. Значение k, основанное на знании предметной области, дает более релевантную информацию.
Подход, основанный на данных. Если знания предметной области недоступны, математические методы помогают определить правильное количество кластеров.
==============================
Список методов кластеризации
==============================
K-means
Affinity Propagation
Mean Shift
Spectral clustering
Hierarchical clustering
DBSCAN
OPTICS
BIRCH