Кандидат физико-математических наук, выпускник ШАД · 17 дек 2021
Игры. Например, в 2015 году программа AlphaGo от DeepMind победила чемпиона мира по игре го. Это был невероятный прорыв, ведь го намного сложнее шахмат, и до появления AlphaGo считалось, что до победы над человеком в этой игре ещё далеко.
Далее были AlphaZero, MuZero и другие творения DeepMind'а с ещё более головокружительными успехами. У всех у них под капотом обучение с подкреплением.
Ютуб блогер, специалист в: ИТ, печатающая техника (принтеры/копиры), связь (рации)... · 16 дек 2021
Самое лучше обучение с подкреплением - обычное обучение в обычном ВУЗе, с условием, что если тебя отчисляют, то тебя сразу же забирают в армию. Самое лучше и почти универсальное подкрепление)