Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Объясните, пожалуйста, метод главных компонент (факторный анализ) простым языком на примерах.?

ПсихологияСоциология+3
Kocour Barsik
  · 7,7 K
разнос дисков, демоническое обновление  · 13 сент 2019

Факторный анализ на пальцах. Следите за руками.

Считаем яблочки.

Вот у тебя есть сад. В саду растут яблони.

Тебе дают блокнот с карандашом и требуют расписать координаты всех яблок, растущих на всех деревьях. Как ты это сделаешь?

  1. Прямолинейным способом будет взять линейку и померить расположение каждого яблока по декартовой сетке координат: расстояние, перпендикулярно воротам, затем расстояние влево или вправо от ворот, и наконец, высоту яблока над уровнем земли.

Это трудно, муторно, и полученные данные в блокнотике получатся в нечитаемом виде, пригодном только для того, чтобы запихать в компьютер. Живому человеку из таких цифр не будет понятно, где же все таки находятся яблоки.

  1. Можно поступить умнее и заметить, что яблоки растут не где попало, и существуют закономерности в их распределении в пространстве.

Во-первых, яблоки растут на яблонях, которые высажены не хаотично, а рядами, с примерно равными промежутками между ними.

Во-вторых, сами яблони тоже не абы какие, а примерно одинаковые высотой, и яблоки у них встречаются только либо в районе кроны, либо лежат на земле. На стволе дерева яблоки не растут, и в воздухе над деревом не летают, т.е. можно разделить яблоки на лежачие и висячие.

В третьих, можно заметить, что лежачие яблоки распределены относительно равномерно и хаотично в форме кольца вокруг ствола.

В четвертых, висячие яблоки распределены в кроне неравномерно. Можно обнаружить, что они растут только на концах черенков, которые растут из маленьких веток, которые, в свою очередь, растут из больших и т.д. до центрального ствола дерева.

Имея на руках эти "четыре закономерности яблоневого сада", можно построить более полезную сетку координат, чем стандартные изометрические XYZ, например, такую: Номер ряда, номер дерева в ряде, крона или земля, азимут ветки по отношению к стволу, и расстояние от начала ветки до черенка с яблоком.

Координат получилось больше, их пять, а не три, но это в разы более полезная информация, чем безмозглая запись каждой точки пространства в прямоугольной сетке.

А теперь факторный анализ.

Представь, что у тебя два блокнота: в первом записаны координаты в ортогональной сетке (по первому методу), а во втором - структурированные (по второму).

Ты подходишь к математику и показываешь ему первый блокнот, спрятав второй, и просишь проанализировать инфу. Математик берет формулы из метода главных компонент, подставляет в них твои цифры, и получает некоторый набор факторов, примерно такой.

Во-первых точки пространства, расположены не хаотично, а группами, выстроенными в ряды, с некоторым шагом.

Во-вторых, группы делятся на подгруппы, одна шарообразная, другая плоская круглая, причем эти подгруппы всегда идут парами.

В-третьих,  точки в плоской подгруппе раскиданы случайно, но никогда не занимают центр.

В-четвертых, точки в шарообразной подгруппе также никогда не встречаются в районе центральной оси, и образуют под-подгруппы, напоминающие древовидную структуру.

В итоге математик выстраивает новую сетку координат, изучив которую, приходит к выводу, что твои данные - это что-то вроде описания листьев в парке, или фруктов в саду.

Затем ты достаешь свой второй блокнот, и сверяешь с результатами расчета математика. И тут выясняется, что то, что метод компонент выделил, как "фактор 1", "фактор 2" и "фактор 3" почти точно совпадает с твоими "рядами", "деревьями" и "ветками", и неодушевленный факторный анализ воспроизвел твое осознанное представление о том, как должны располагаться яблоки в саду.

То есть факторный анализ позволяет структурировать любые данные, не имея ни малейшего понятия о их сути и происхождении, не хуже, а иногда даже и лучше, чем если такое же структурирование производить вручную, исходя из собственного понимания природы изучаемого предмета. 

Очень вероятно, что в нашем примере математик выделил бы больше факторов, чем мы учли в "блокноте №2". Например, обнаружилось бы, что деревья в одном углу участка, почему-то выше, чем в противоположном, что в середине участка есть какое-то "гнилое" пятно, где на деревьях растет меньше яблок. А самое интересное, обнаружилось бы, что  в кронах каждого дерева с одной и той же стороны яблок чуть меньше, и одновременно с этим точно в тех же местах на земле яблок больше. Из чего можно было бы сделать вывод о том, что яблоки с этой стороны дерева дозревают быстрее, следовательно, это южная сторона дерева.

То есть факторный анализ позволяет в "случайном" наборе цифр не только увидеть сад, но и определить его ориентацию по сторонам света, найти больные участки и многое другое.

Вот так-то.

Ответ Бога :) спасибо