Зачем нужны методы решения линейных регрессий вроде машины опорных векторов, основанные на обучении?

Есть метод наименьших квадратов.

Ведь, казалось бы, наименьшие квадраты дают математически просчитанную разделяющую плоскость оптимальной конфигурации.

МатематикаНаука+3

Алексей Верещагин

17 июня 2021 · 500

Борис Державец

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 20 нояб 2021

Логистическая регрессия

Логистическая регрессия - это алгоритм, который используется при решении задач классификации. Это прогнозный анализ, который описывает данные и объясняет взаимосвязь между переменными. Логистическая регрессия применяется к входной переменной (X), где выходная переменная (y) представляет собой дискретное значение, которое находится в диапазоне от 1 (да) до 0 (нет).

Он использует логистическую (сигмовидную) функцию, чтобы найти взаимосвязь между переменными. Сигмоидальная функция - это S-образная кривая, которая может принимать любое действительное число и отображать его на значение от 0 до 1, но никогда не находится точно в этих пределах.

Проблемы применения алгоритма логистической регрессии

Обнаружение рака - может использоваться, чтобы определить, есть ли у пациента рак (1) или нет (0).

Оценка теста - предугадывайте, сдал ли студент (1) или не прошел (0) тест.

Маркетинг - предсказать, купит ли клиент товар (1) или нет (0).

=================================================

Машина опорных векторов (SVM)

Машина опорных векторов - это модель, используемая как для задач классификации, так и для задач регрессии, хотя в основном она используется для решения задач классификации. Алгоритм создает гиперплоскость или линию (границу решения), которая разделяет данные на классы. Он использует трюк с ядром, чтобы найти лучший разделитель строк (граница решения, которая находится на одинаковом расстоянии от граничной точки обоих классов). Это ясный и более эффективный способ изучения сложных нелинейных функций.

Подробный обзор алгоритма опорной векторной машины.

Проблемы, которые можно решить с помощью SVM

Классификация изображений

Распознавание почерка

Обнаружение канера

Разница между SVM и логистической регрессией

SVM пытается найти «лучший» запас (расстояние между линией и опорными векторами), который разделяет классы, и это снижает риск ошибки в данных, в то время как логистическая регрессия этого не делает, вместо этого она может иметь разные границы решения с разными весами. которые находятся около оптимальной точки.

SVM хорошо работает с неструктурированными и полуструктурированными данными, такими как текст и изображения, в то время как логистическая регрессия работает с уже идентифицированными независимыми переменными.

SVM основан на геометрических свойствах данных, а логистическая регрессия основана на статистических подходах. Риск переобучения меньше в SVM, в то время как логистическая регрессия уязвима к переобучению. Когда использовать логистическую регрессию вместо машины опорных векторов. В зависимости от количества обучающих наборов (данных) / функций, которые у вас есть, вы можете выбрать использование либо логистической регрессии, либо поддержки векторной машины. Давайте возьмем это в качестве примера, где:

n = количество функций,

m = количество обучающих примеров

Если n велико (1–10 000), а m мало (10–1000): используйте логистическую регрессию или SVM с линейным ядром.
Если n мало (1–10 00), а m промежуточное (10–10 000): используйте SVM с ядром (гауссовым, полиномиальным и т. д.)
Если n мало (1–10 00), m велико (50 000–1 000 000 +): сначала вручную добавьте дополнительные функции, а затем используйте логистическую регрессию или SVM с линейным ядром.

Как правило, обычно рекомендуется сначала попытаться использовать логистическую регрессию, чтобы увидеть, как работает модель, если она не работает, вы можете попробовать использовать SVM без ядра (также известный как SVM с линейным ядром). Логистическая регрессия и SVM с линейным ядром имеют схожую производительность, но в зависимости от ваших функций одна может быть более эффективной, чем другая. Логистическая регрессия и SVM - отличные инструменты для обучения задач классификации и регрессии. Полезно знать, когда использовать какой из них, чтобы сэкономить вычислительные затраты и время.

Источник https://medium.com/axum-labs/logistic-regression-vs-support-vector-machines-svm-c335610a3d16

Игорь Д

образование и др. · 17 июн 2021

Прежде всего потому, что не все задачи в жизни линейные, и не всегда лучшее деление пространства образцов - это деление плоскостью.

Поэтому в ряде задач намного эффективнее методы машинного обучения, выполняющие нелинейное деление, такие как деревья решений или нейронные сети.

Алексей Верещагин

18 июня 2021

Для нелинейных - да. Но речь-то идет именно о линейных методах.