Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 25 февр 2022
Типы логистической регрессии
===========================
Логистическую регрессию можно разделить на типы в зависимости от типа классификации, которую она выполняет. С учетом этого существует 3 типа логистической регрессии :-
Бинарная логистическая регрессия
Полиномиальная логистическая регрессия
Порядковая логистическая регрессия
====================================
Бинарная логистическая регрессия
Бинарная логистическая регрессия является наиболее часто используемым типом.
В этом типе зависимая/целевая переменная имеет два разных значения: 0 или 1, злокачественное или доброкачественное,
пройдено или не пройдено, допущено или не допущено.
====================================
Пример логистической регрессии в Python
====================================
В общем, бинарная логистическая регрессия описывает взаимосвязь между зависимой бинарной переменной и одной или несколькими независимыми переменными. Бинарная зависимая переменная имеет два возможных результата:
«1» для истины/успеха; или
«0» для ложного/неудачного
Давайте теперь посмотрим, как применить логистическую регрессию в Python на практическом примере.
Шаги по применению логистической регрессии в Python
Шаг 1. Собираем данные
Чтобы начать с простого примера, предположим, что ваша цель — построить модель логистической регрессии на Python, чтобы определить, будут ли кандидаты поступать в престижный университет.Здесь есть два возможных результата: допущено (представлено значением «1») и отклонено (представлено значением «0»).
Затем вы можете построить логистическую регрессию в Python, где: Зависимая переменная показывает, принимается ли человек; а также
3 независимые переменные: балл GMAT, средний балл и количество лет опыта работы.Вот как будет выглядеть набор данных:
Обратите внимание, что приведенный выше набор данных содержит 40 наблюдений. На практике вам понадобится больший размер выборки, чтобы получить более точные результаты. Затем примените train_test_split. Например, вы можете установить размер теста равным 0,25, и поэтому тестирование модели будет основано на 25% набора данных, а обучение модели будет основано на 75% набора данных. Запустите код на Python, и вы получите следующую матрицу путаницы с точностью 0,8 (обратите внимание, что в зависимости от вашей версии sklearn вы можете получить разные результаты точности.
==================
Импортируйте необходимые пакеты в Python виртуальное окружение.
Прежде чем начать, убедитесь, что в Python установлены следующие пакеты:
pandas — используется для создания DataFrame и загрузки набора данных в Python pandas dataframe .
sklearn — используется для построения модели логистической регрессии в Python.
seaborn - используется для создания матрицы путаницы
matplotlib — используется для отображения диаграмм
Напомним, что наш исходный набор данных (из шага 1) содержал 40 наблюдений. Поскольку мы установили размер теста равным 0,25, матрица путаницы отобразила результаты для 10 записей (=40*0,25). Это 10 тестовых записей:
В фактическом наборе данных (из шага 1) вы увидите, что для тестовых данных мы получили правильные результаты в 8 из 10 раз:
Это соответствует уровню точности 80%
=======================
Проверка прогноза для нового набора данных
Допустим, у вас есть новый набор данных с 5 новыми кандидатами:
Полный код для получения прогноза для 5 новых кандидатов: