Сразу хочу уточнить. Я не специалист по машинному обучению. Я интересуюсь некоторыми вопросами и в силу своего инженерного образования, на автомате задаюсь вопросом "А как бы это сделал я". Теперь немножко про мой так сказать бэкграунд. Первое с чем я столкнулся - это в книжке занимательная алгебра (если мне не изменяет память) лет в 10 прочитал про САМ (самообучающаяся машина). Суть в следующем. Игровое поле 3х3 и правила по типу шашек. Предлагалось взять спичечные коробки и поместить в них бусинки (бисер, зерно). каждый коробок соответствовал определенной игровой позиции на поле. Если ход приводил к победе, то в коробки добавлялось зернышко, если проигрыш - забиралось. По результату игр можно было прийти к выигрышной стратегии (сейчас уже не вспомню). Специальность у меня связана с медициной и одним из направлений является диагностика (неважно чего). А так как человек не является строго детерминированной системой, то построение диагностических аппаратов (которые в автоматизированном режиме формируют какой-то формализованный диагноз) является не тривиальной задачей. У нас на кафедре работали 2 разработчика автоматизированной системы для анализа ЭКГ. В то время задачу решали на 286 PC AT под DOS. Естественно ни про какие датасеты в несколько терабайт и речи не шло. Поэтому задачу решали алгоритмически. Т.е. раскладывали ЭКГ на составляющие и практикующих кардиологов спрашивали что здесь не так. Таким образом находили граничные условия для формирования диагноза. Уточню, в то время 10 мегабайтный диск и 8 битный EGA монитор считалось роскошью. Но кардиологи, которые использовали эту систему, говорили о её несовершенстве. Т.е. она могла выдавать заключения на уровне врача начального уровня. А вот например анализ нечетко выраженных явлений типа экстрасистолы, изменение формы зубца и т.п. на большом интервале провести было нельзя (сняли 12 отведений на 2 минуты, что вылезло, то и описали). А если патология выявлялась только например при специфической физической нагрузке? Сейчас же сверточные сетки могут превзойти по скорости анализа и точности маститых кардиологов, в силу того, что им могут скормить маркированные датасеты тысяч пациентов. и машина их не забудет и глаз не замылится. Поэтому я периодически возвращаюсь к теме и пытаюсь что-то на коленке сваять.