Основная идея это анализ входных данных и расставление веса важности каждому отличию.
Анализируем сотни фотографий уток вперемешку с гусями и лебедями и алгоритмы делают вывод, что у этих водоплавающих должны быть лапы с перепонками-это критично, если их нет, то это что-то другое. Если шея изгибом-лебедь, если изгиб небольшой-гусь. В моделях строятся матрицы зависимостей с какого момента изгиб шеи переходит от лебедя к гусю и вместе с ним растёт вероятность (предсказание модели "что на фото") гусь ли это или лебедь.
Т.е. самая суть это создание вот таких баз-меток, признаков, что важно а что не важно для модели. Вода на фото не имеет никакого значения, небо тоже и в модели эти признаки игнорируются. А вот объект по центру уже анализируется от и до.
С текстом -тоже самое. Ловим контекст, ключевые слова и выкидываем всю "воду".