RNN ( рекуррентная нейронная сеть 1982)
простая, быстро обучается, затухающий градиент - слабая способность обучения.
LSTM (долгая краткосрочная память 1997). Создана для снятия проблемы затухающего градиента.
высокая сложность, долго обучается, большие возможности обучения
GRU (управляемый рекуррентный блок 2014). Создана как "упрощённая" модель LSTM.
средняя сложность, средние скорости обучения, средние возможности
Классическое объяснение работы LSTM в данной статье -