Общие шаги для машинного обучения/глубокого обучения:
Собирать данные
Проверьте наличие аномалий, отсутствующих данных и очистите данные
Выполнить статистический анализ и первоначальную визуализацию
Построить модели
Проверьте точность
Представьте результаты
==================================
Задачи машинного обучения можно разделить на
Контролируемое обучение
Неконтролируемое обучение
Полуконтролируемое обучение
Обучение с подкреплением
В этом документе — мы не акцентируем внимание на двух последних
=================================
Ниже приведены некоторые подходы к выбору модели для машинного обучения/глубокого обучения.
=================================
ОБЩИЕ ПОДХОДЫ
Работа с несбалансированными данными: используйте стратегии передискретизации. Создание новых функций: анализ основных компонентов (PCA) для уменьшения размерности, автоэнкодеры для создания скрытого пространства и, возможно, кластеризация для создания новых функций.Чтобы предотвратить переобучение, выбросы и шум в линейной регрессии, используйте такие методы регуляризации, как lasso и ridge.
Преодоление проблемы искусственного интеллекта «черного ящика» — рассмотрите стратегии построения интерпретируемых моделей. Алгоритмы, не чувствительные к выбросам: рассмотрите выбор случайного леса для преодоления выбросов.
==============================
МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ
==============================
Первый подход к прогнозированию непрерывных значений: линейная регрессия, как правило, является хорошим первым подходом к прогнозированию непрерывных значений (например, цен).
=============================
Бинарная классификация: логистическая регрессия является хорошей отправной точкой для бинарной классификации. Метод опорных векторов SVM также является хорошим выбором для двухклассовой классификации.
=============================
Многоклассовая классификация: Случайный лес — это выбор для многоклассовой классификации. См. Использование SVM и Random Forest
Есть ли самая простая или легкая категория моделей, с которой можно начать? Деревья решений часто кажутся простыми для понимания и использования. Деревья решений реализуются с помощью таких моделей, как случайный лес или повышение градиента (Random forest or Gradient boosting )
===============================
МОДЕЛИ ГЛУБОКОГО ОБУЧЕНИЯ
===============================
Сложные функции, которые не могут быть легко определены, но у вас есть большое количество помеченных примеров:
Многослойные персептроны
Машинное обучение на основе зрения: классификация изображений, обнаружение объектов, сегментация изображений — сверточные нейронные сети
Задачи моделирования последовательности: RNN (обычно LSTM) для задач моделирования последовательности, например, классификация текста или языковой перевод.