В каких алгоритмах можно узнать и классовую принадлежность объекта и вероятность того, что данный объект принадлежит каждому из классов?

ПрограммированиеМашинное обучение+3

Анонимный вопросМашинное обучение и Нейронные сети

23 июня 2022 · 1,2 K

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 24 июн 2022

Классификация — это процесс распознавания, понимания и группировки идей и объектов в предустановленные категории или «подгруппы». Используя предварительно классифицированные обучающие наборы данных, программы машинного обучения используют различные алгоритмы для классификации будущих наборов данных по категориям.

Алгоритмы классификации в машинном обучении используют входные обучающие данные, чтобы предсказать вероятность того, что последующие данные попадут в одну из заранее определенных категорий. Одним из наиболее распространенных применений классификации является фильтрация электронных писем на «спам» или «не спам».

Короче говоря, классификация — это форма «распознавания образов», когда к обучающим данным применяются алгоритмы классификации, чтобы найти тот же образец (похожие слова или настроения, числовые последовательности и т. д.) в будущих наборах данных.

Используя алгоритмы классификации,программное обеспечение для анализа текста может выполнять такие задачи, как анализ тональности на основе аспектов, чтобы классифицировать неструктурированный текст по теме и полярности мнений (положительные, отрицательные, нейтральные и т. д.).

Популярные алгоритмы классификации:

Logistic Regression

Naive Bayes

K-Nearest Neighbors

Decision Tree

Random Forrest

Support Vector Machines

==============================

Логистическая регрессия

Логистическая регрессия — это расчет, используемый для предсказания бинарного результата: либо что-то происходит, либо нет. Это может отображаться как Да/Нет, Пройдено/Не пройдено, Жив/Мертв и т. д.

Независимые переменные анализируются для определения бинарного результата, при этом результаты попадают в одну из двух категорий. Независимые переменные могут быть категориальными или числовыми, но зависимая переменная всегда категорична. Написано так:

P(Y=1|X) или P(Y=0|X)

Он вычисляет вероятность зависимой переменной Y, учитывая независимую переменную X.Это можно использовать для расчета вероятности того, что слово имеет положительную или отрицательную коннотацию (0, 1 или по шкале между ними). Или его можно использовать для определения объекта, содержащегося на фотографии (дерево, цветок, трава и т. д.), причем каждому объекту присваивается вероятность от 0 до 1.

=============================

K-Nearest Neighbors

K-ближайших соседей (k-NN) — это алгоритм распознавания образов, который использует обучающие наборы данных для поиска k ближайших родственников в будущих примерах.

Когда k-NN используется в классификации, вы рассчитываете поместить данные в категорию ближайшего соседа. Если k = 1, то он будет помещен в класс, ближайший к 1. K классифицируется путем опроса множества его соседей.

============================

Decision Tree

Дерево решений — это контролируемый алгоритм обучения, который идеально подходит для задач классификации, поскольку он может упорядочивать классы на точном уровне. Он работает как блок-схема, разделяя точки данных на две похожие категории за раз: от «ствола дерева» до «ветвей» и «листьев», где категории становятся более сходными в конечном итоге. Это создает категории внутри категорий, что позволяет органическую классификацию с ограниченным человеческим контролем

===========================

Random Forrest

Алгоритм случайного леса — это расширение дерева решений, в котором вы сначала строите множество деревьев решений с обучающими данными, а затем вписываете свои новые данные в одно из деревьев как «случайный лес».

По сути, он усредняет ваши данные, чтобы связать их с ближайшим деревом на шкале данных. Модели случайного леса полезны, поскольку они устраняют проблему дерева решений, связанную с «вынуждением» точек данных внутри категории без необходимости.

============================

SVM

Машина опорных векторов (SVM) использует алгоритмы для обучения и классификации данных в пределах степеней полярности, доводя их до уровня, выходящего за пределы предсказания X/Y.

Для простого визуального объяснения мы будем использовать два тега: красный и синий, с двумя функциями данных: X и Y, а затем обучим наш классификатор выводить координату X/Y как красную или синюю. Затем SVM назначает гиперплоскость, которая лучше всего разделяет теги. В двух измерениях это просто линия. Все, что находится по одну сторону линии, окрашено в красный цвет, а все, что по другую сторону, — в синий. Например, в анализе настроений это было бы положительным и отрицательным. Чтобы максимизировать машинное обучение, лучшей гиперплоскостью является та, у которой наибольшее расстояние между каждым тегом:

Однако по мере того, как наборы данных становятся более сложными, может оказаться невозможным провести единую линию, чтобы разделить данные на два лагеря:

Используйте RBF SVM , это ядро сработает для cложных данных, и даст неплохой предиктор. Представьте вышеописанное в трех измерениях с добавленной осью Z, чтобы оно стало кругом.Отображение обратно в два измерения с лучшей гиперплоскостью выглядит так:

Смотри также

https://informatics-ege.blogspot.com/2022/06/svm-rbf-classifieng-sample-circles.html

https://informatics-ege.blogspot.com/2022/06/rbf-svm-parameters.html