Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 24 июн 2022
Классификация — это процесс распознавания, понимания и группировки идей и объектов в предустановленные категории или «подгруппы». Используя предварительно классифицированные обучающие наборы данных, программы машинного обучения используют различные алгоритмы для классификации будущих наборов данных по категориям.
Алгоритмы классификации в машинном обучении используют входные обучающие данные, чтобы предсказать вероятность того, что последующие данные попадут в одну из заранее определенных категорий. Одним из наиболее распространенных применений классификации является фильтрация электронных писем на «спам» или «не спам».
Короче говоря, классификация — это форма «распознавания образов», когда к обучающим данным применяются алгоритмы классификации, чтобы найти тот же образец (похожие слова или настроения, числовые последовательности и т. д.) в будущих наборах данных.
Используя алгоритмы классификации,программное обеспечение для анализа текста может выполнять такие задачи, как анализ тональности на основе аспектов, чтобы классифицировать неструктурированный текст по теме и полярности мнений (положительные, отрицательные, нейтральные и т. д.).
Популярные алгоритмы классификации:
Logistic Regression
Naive Bayes
K-Nearest Neighbors
Decision Tree
Random Forrest
Support Vector Machines
==============================
Логистическая регрессия
Логистическая регрессия — это расчет, используемый для предсказания бинарного результата: либо что-то происходит, либо нет. Это может отображаться как Да/Нет, Пройдено/Не пройдено, Жив/Мертв и т. д.
Независимые переменные анализируются для определения бинарного результата, при этом результаты попадают в одну из двух категорий. Независимые переменные могут быть категориальными или числовыми, но зависимая переменная всегда категорична. Написано так:
P(Y=1|X) или P(Y=0|X)
Он вычисляет вероятность зависимой переменной Y, учитывая независимую переменную X.Это можно использовать для расчета вероятности того, что слово имеет положительную или отрицательную коннотацию (0, 1 или по шкале между ними). Или его можно использовать для определения объекта, содержащегося на фотографии (дерево, цветок, трава и т. д.), причем каждому объекту присваивается вероятность от 0 до 1.
=============================
K-Nearest Neighbors
K-ближайших соседей (k-NN) — это алгоритм распознавания образов, который использует обучающие наборы данных для поиска k ближайших родственников в будущих примерах.
Когда k-NN используется в классификации, вы рассчитываете поместить данные в категорию ближайшего соседа. Если k = 1, то он будет помещен в класс, ближайший к 1. K классифицируется путем опроса множества его соседей.
============================
Decision Tree
Дерево решений — это контролируемый алгоритм обучения, который идеально подходит для задач классификации, поскольку он может упорядочивать классы на точном уровне. Он работает как блок-схема, разделяя точки данных на две похожие категории за раз: от «ствола дерева» до «ветвей» и «листьев», где категории становятся более сходными в конечном итоге. Это создает категории внутри категорий, что позволяет органическую классификацию с ограниченным человеческим контролем
===========================
Random Forrest
Алгоритм случайного леса — это расширение дерева решений, в котором вы сначала строите множество деревьев решений с обучающими данными, а затем вписываете свои новые данные в одно из деревьев как «случайный лес».
По сути, он усредняет ваши данные, чтобы связать их с ближайшим деревом на шкале данных. Модели случайного леса полезны, поскольку они устраняют проблему дерева решений, связанную с «вынуждением» точек данных внутри категории без необходимости.
============================
SVM
Машина опорных векторов (SVM) использует алгоритмы для обучения и классификации данных в пределах степеней полярности, доводя их до уровня, выходящего за пределы предсказания X/Y.
Для простого визуального объяснения мы будем использовать два тега: красный и синий, с двумя функциями данных: X и Y, а затем обучим наш классификатор выводить координату X/Y как красную или синюю. Затем SVM назначает гиперплоскость, которая лучше всего разделяет теги. В двух измерениях это просто линия. Все, что находится по одну сторону линии, окрашено в красный цвет, а все, что по другую сторону, — в синий. Например, в анализе настроений это было бы положительным и отрицательным. Чтобы максимизировать машинное обучение, лучшей гиперплоскостью является та, у которой наибольшее расстояние между каждым тегом:
Однако по мере того, как наборы данных становятся более сложными, может оказаться невозможным провести единую линию, чтобы разделить данные на два лагеря:
Используйте RBF SVM , это ядро сработает для cложных данных, и даст неплохой предиктор. Представьте вышеописанное в трех измерениях с добавленной осью Z, чтобы оно стало кругом.Отображение обратно в два измерения с лучшей гиперплоскостью выглядит так: