Объясните чайнику, что такое факторный анализ и как он работает в социологии?

ОбществоСоциология+2

Анна Прибылова

10 апреля 2016 · 997

Сотрудник группы компаний ФИНАМ · 11 апр 2016

Это способ превратить большую таблицу в маленькую. Превратить сто колонок таблицы - в две. Способ сжатия данных, который позволяет увидеть в огромной таблице простую структуру.

Допустим, у вас в руках поисковая машина, и вы знаете, кто часто спрашивает про условия кредитования, кто - про лучшие цены, кто - про автоматы для мгновенных платежей, кто - про рефераты, про Гарри Поттера, про даты выходных в этом году и т.п. Миллионы запросов. Вы знаете всё про всех, и тонете в этих данных.

Однако вы предварительно классифицировали запросы по 50 или 100 темам. Таким образом, вы теперь знаете, сколько запросов по каждой из тем задал каждый пользователь. И всё равно у вас в руках - море данных. Между прочим, аналогичная информация есть в руках владельцев проекта TheQuestion, только в этом случае речь - о вопросах к людям, а не о запросах к поисковой машине.

Итак, у нас в руках - огромная таблица. В первой колонке - имена пользователей (ну не имена, а какие-нибудь cookies). Во второй - число запросов про кредиты, которые задал каждый пользователь. В третьей - число запросов про цены. В четвёртой - про дипломы.

Но как извлечь пользу из этого огромного массива данных? Как описать его "в целом", как описать его двумя или тремя перемеными? Чтобы легче было работать и объяснять другим. (А уж совсем здорово было бы одной, заключив, например: "Миром правит золото").

Факторный анализ преобразует исходную таблицу данных. Он предложит, скажем, две строчки и две колонки, комбинируя которые вы точнее всего опишете всю таблицу в целом. (В исходных данных не было ни таких строчек, ни таких колонок)

Например, вы говорите - хочу оставить только один показатель, к которому всё и сводится - найдите мне его! Факторный анализ попытается это сделать. Найдёт одну строчку, которой опишет важность тем, и один столбец, для описания пользователей. А уж насколько метод действительно решает задачу - зависит от задачи и от интерпретатора.

Правда, теперь с этими столбцом и строчкой в руках мы исходные данные до последней цифры после запятой, конечно, не восстановим. Будут ошибки, и даже грубые. Но в целом может выйти неплохо. Как при сильном сжатии картинки при переводе в jpeg - цвета потеряются, но разглядеть можно будет. А объём в байтах - многократно уменьшился.

Иногда один показатель даёт чересчур бедную картину, и нужны не одна колонка, а две или три. Например, пятнадцать лет назад я счёл, что все запросы к поисковой машине Рамблера можно в общих чертах описать при помощи двух таких обобщённых (синетических, латентных, скрытых) показателей - "Деньги" и "Информация". Их называют факторами. Разумеется, ни один пользователь не спрашивал у поисковой машины "найди мне деньги". Однако, поглядев на то, по каким темам этот обобщённый показатель набирал больше всего очков (банки, товары и услуги, электронные платежи), я решил назвать его "деньгами". Компьютер сам предложить название, конечно, не сможет. Название приходится придумывать человеку-интерпретатору. (Теперь я смотрю на сайт analyzethis.ru и вижу, что эксперты выделяют "транзакционные запросы", "информационные запросы", "навигационные запросы" и т.п. Похожие названия!)

Итак у меня было пятьдесят колонок, а стало - три. В первой - имя пользователя, во второй - число его запросов "про деньги", в четвёртой - число "информационных" запросов. Теперь я знаю, что Иванов, в основном, озабочен тем, чтобы разбогатеть, Петров - как потратить, а Сидоров ищет не деньги, а информацию (где скачать реферат).

Если я использую метод главных компонент (самый популярный метод факторного анализа), то у меня фактор "деньги" описывается строчкой, скажем, такого вида [ 90, 80, 100, 2, 0, -1]

Это означает, что "банки" родственны "деньгам" на 90%, "товары и услуги" - на 80%, "электронные платежи" - на 100%, и т.п. Рефераты - на 2%, Гарри Поттер - деньгам ортогонален, а выходные чуть-чуть антикоррелируют с деньгами. В общем, все последние три темы к деньгам практически не имеют отношения, зато первые три - с ними связана.

Фактор "информация", напротив, будет описываться строчкой наподобие [8,5,-3,90, 85, 74]

Если значения высокие, значит, данная тема (например, "рефераты" - скорее информационная, чем "денежная". Не всегда так легко отнести реальную тему к одному из факторов. Вполне возможны средние оценки по всем факторам.

Итак, теперь я больше знаю про исходные темы. Я даже могу их кластеризовать на две группы - про деньги и про информацию.

И людей я теперь могу описать в двух словах. Иванов - он больше "про деньги", а Сидоров - "про информацию". Петров - ни то, ни сё. Гармонически развит. Уточню здесь. Иванов - "про деньги" не обязательно значит, что он ищет, где их взять. Может быть, наоборот - где потратить. Главное, что деньги точно описывают его бестолковую жизнь. Или, скажем, дедушка Сидорова оказывается "про коммунистов". Он может быть за них или против них, главное, что они занимают важное место в его жизни. В то время как его внук, Сидоров-младший, может вообще не знать о коммунистах, а только о рефератах и Джастине Бибере.

(Сколько выделять групп? Это определяет сам исследователь. Есть подходы, позволяющие это определить, они все - не особо надёжные. Смысл в том, чтобы постараться выбрать поменьше факторов, но так, чтобы исходная таблица почти точно ими аппроксимировалась).