Как приспособить графовые алгоритмы кластеризации для решения задачи с частичным обучением?

ПрограммированиеМатематика+3

Анонимный вопросМашинное обучение и Нейронные сети

15 июля 2022 · 2,5 K

Искусственный Интеллект · 6 окт 2022

В машинном обучении часто бывает так, что мы можем получить только частичный набор данных. Это может быть вызвано многими причинами, например, соображениями конфиденциальности или непомерно высокой стоимостью получения полного набора данных. В таких случаях все равно можно выучить модель на основе данных, но нужно быть осторожным, чтобы не переборщить.

Один из способов избежать чрезмерной подгонки — использовать методы на основе графов. Графовые методы строят граф сходства между точками данных, а затем кластеризуют их на основе этого сходства. Для этого можно использовать множество различных алгоритмов, таких как спектральная кластеризация или обнаружение сообществ.

Преимущество использования методов на основе графов заключается в том, что они гораздо более устойчивы к неполным данным. Это связано с тем, что граф сходства может быть построен на основе неполных данных, а кластеризация может быть выполнена без необходимости вычисления расстояний между всеми парами точек.

Существует множество различных способов адаптации алгоритмов кластеризации графов для решения проблемы частичного обучения. В этой статье блога мы обсудим три различных подхода:

1) использование побочной информации;

2) использование генеративных моделей;

3) использование завершения матрицы.

1. Побочная информация: в некоторых случаях мы можем иметь доступ к побочной информации о точках данных. Например, если мы кластеризуем изображения лиц, мы можем знать пол каждого человека на изображении. Эта побочная информация может быть использована для ограничения алгоритма кластеризации, чтобы он не перестраивался.

2. Генеративные модели: другой подход заключается в использовании генеративных моделей, таких как модели гауссовой смеси (gaussian mixture models, gmms). ГММ могут быть подогнаны к частичным данным путем максимизации правдоподобия данных под модель. Этот подход оказался очень эффективным на практике.

3. Заполнение матриц: наконец, еще одним подходом является использование методов заполнения матриц. Заполнение матрицы — это метод вменения недостающих значений в матрицах. Она может быть использована для заполнения неполных матриц сходства, которые затем могут быть использованы для алгоритмов кластеризации на основе графов. На практике было показано, что заполнение матриц очень эффективно и позволяет обрабатывать большие объемы отсутствующих данных.