Кроме того, у нас есть отдел исследований и разработки, который специализируется на машинном обучении. Его сотрудники занимаются фундаментальными исследованиями и анализом научных статей, предлагая продуктовым командам новые идеи.
Сейчас она готовит специалистов по четырём направлениям:
Даниил Бурлаков
В Яндексе — больше 6 лет
Медиасервисы всегда славились атмосферой стартапа, особенно наш отдел. Мне с первых дней было очень классно, особенно когда от идеи до ревью и выкатки фичи в прод проходило всего 3‑4 дня.
Рекомендации — это такой полуисследовательский проект, в котором заранее неизвестен результат и почти нет строгих дедлайнов.
Виктор Юрченко
В Яндексе — больше 7 лет
Я довольно рано понял, что мне не интересно делать рутинные задачи, которые и без меня могут сделать другие.
Поэтому меня и привлекло машинное обучение: тут непонятно, как решать задачи — у тебя есть массив данных, и тебе из него нужно с помощью аналитики найти алгоритм, стратегию, как решать задачу. Это вызов.
Никита Рыжиков
В Яндексе — больше 4 лет
Одна из вещей, которая мне дико не нравилась на прошлом месте — я не мог доверять техническим навыкам коллег. Чего‑то мне в них недоставало для того, чтобы делать крутые продукты. Либо им не хватало экспертизы, либо они ленились и не желали разбираться в чём‑то новом.
Здесь тебя окружают люди, которым ты доверяешь, которые в своей области зачастую гораздо сильнее тебя.
Михаил Ройзнер
В Яндексе — почти 15 лет
Я искренне считаю, что в России с точки зрения машинного обучения в индустрии, просто нет равных Яндексу. Здесь работает очень много людей, у которых можно учиться.
Плюс здесь очень большой упор на технологии и на правильно поставленную системную работу сервиса — чтобы правильно строить метрики, улучшать саму систему с точки зрения этих метрик, и улучшать само понятие метрик.
Антон Дворкович
В Яндексе — 8 лет
Машинный перевод был и остаётся большой точкой роста технологий. Большинство крупных революций и изменений в машинном обучении, да и вообще в области искусственного интеллекта и компьютерных науках, связаны с тем, что мы делали в машинном переводе.
Мне нравятся сильные и умные люди вокруг.
Даниил Бурлаков
В Яндексе — больше 6 лет
Даниил выпускник Школы Анализа Данных Яндекса. Он пришёл в компанию разработчиком и занялся созданием рекомендательной системы для Медиасервисов — Радио, Музыки и Кинопоиска, — а в 2018 году возглавил это направление.
«Медиасервисы всегда славились атмосферой стартапа, особенно нашотдел. Мне с первых дней было очень классно, особенно когда от идеи до ревью и выкатки фичи в прод проходило всего 3-4 дня.
Рекомендации — это такой полуисследовательский проект, в котором заранее неизвестен результат и почти нет строгих дедлайнов. Наша главная цель — чтобы качество продукта стало лучше, и мы сами решаем, как этого добиваться.
Мне очень нравится, что я могу сразу увидеть эффект — причём не только в метриках. Помню, когда мы запустили аудио эмбеддинги — промежуточные слои в нейронке, которые определяют, что этот трек похож по аудио на группу других треков. Тогда своими ушами услышал, как круто изменились рекомендации музыки».
Виктор Юрченко
В Яндексе — больше 7 лет
Виктор закончил факультет вычислительной математики и кибернетики МГУ, но программистом не стал: говорит, задачи были слишком простыми и рутинными. Вместо этого он поступил в ШАД, потом стал стажёром в службе компьютерного зрения, а позже попал в команду, которая работает над беспилотниками. Сейчас он возглавляет группу AI‑сервисов для картографии.
«Я довольно рано понял, что мне не интересно делать рутинные задачи, которые и без меня могут сделать другие.
Поэтому меня и привлекло машинное обучение: тут непонятно, как решать задачи — у тебя есть массив данных, и тебе из него нужно с помощью аналитики найти алгоритм, стратегию, как решать задачу. Это вызов.
Беспилотники — это один из самых крутых проектов на сегодняшнее время. Это максимальное приложение и машинного обучения, и компьютерного зрения, в частности, нейронных сетей.
Я был тут с самого начала, когда проект ещё был полноценным стартапом внутри Яндекса, и мы развивали его вдесятером. Это потрясающее ощущение, когда все занимаются всем, действовать нужно максимально быстро — найти такое решение, которое делается за 5 минут и закрывает все задачи. И тебе никто не говорит, что нужно делать, потому что вы — первооткрыватели.
Сейчас многое изменилось, но беспилотники — это по-прежнему классное место, где можно не просто статьи читать, а реально прикладывать знания и видеть, как они работают и приносят пользу».
Никита Рыжиков
В Яндексе — больше 4 лет
До 2018 года Никита был учёным и работал в исследовательском центре международной нефтяной компании, разрабатывая автоматизированные системы исследований — своеобразных роботов для управления экспериментами и сбором данных. Но однажды он загорелся машинным обучением и начал ходить на различные тренировки и мероприятия по ML в Яндексе, а спустя некоторое время устроился аналитиком в одну из команд.
Сейчас Никита возглавляет группу встроенного голосового ввода и помогает Алисе лучше слышать пользователей.
«Одна из вещей, которая мне дико не нравилась на прошлом месте — я не мог доверять техническим навыкам коллег. Чего‑то мне в них недоставало для того, чтобы делать крутые продукты. Либо им не хватало экспертизы, либо они ленились и не желали разбираться в чём-то новом.
Здесь тебя окружают люди, которым ты доверяешь, которые в своей области зачастую гораздо сильнее тебя. В таком месте и в таком окружении хочется делать больше, так как ты чувствуешь что можешь участвовать в создании по‑настоящему крутых, интересных штук, а компании они нужны».
Михаил Ройзнер
В Яндексе — почти 15 лет
Михаил — выпускник первого набора ШАД. Он пришёл в Яндекс стажёром, и за это время успел поработать и в Медиасервисах (как раз над системой рекомендаций), и в Рекламе, и в Медиамониторинге. А сейчас он возглавляет группу ML в отделе компьютерного зрения.
«Я искренне считаю, что в России с точки зрения машинного обучения в индустрии, просто нет равных Яндексу. Здесь работает очень много людей, у которых можно учиться. Плюс здесь очень большой упор на технологии и на правильно поставленную системную работу сервиса — чтобы правильно строить метрики, улучшать саму систему с точки зрения этих метрик, и улучшать само понятие метрик. Всё это в Яндексе очень хорошо построено.
Мы привыкли сравнивать Яндекс, с одной стороны, со стартапами, а с другой стороны — с большими корпорациями типа Google, Microsoft, Amazon. Если сравнить со стартапами, в Яндексе намного лучше инфраструктура для сервисов, намного удобнее работать. А если сравнивать с большими корпорациями, то здесь намного более реально взять себе задачу, в которой можно получить какой-то осмысленный результат для компании.
То есть не просто двигать пиксели на экране налево-направо, а правда делать что-то существенное. Здесь всё заточено на то, чтобы работа была сделана, и пользователям стало лучше».
Антон Дворкович
В Яндексе — 8 лет
Как и многие другие ML-специалисты в Яндексе, Антон пришёл в компанию из ШАД стажёром в отдел машинного перевода. Сейчас он руководитель отдела NLP и занимается улучшением работы Переводчика, работает над распознаванием и синтезом речи, машинным переводом.
«Машинный перевод был и остаётся большой точкой роста технологий. Большинство крупных революций и изменений в машинном обучении, да и вообще в области искусственного интеллекта и компьютерных науках, связаны с тем, что мы делали в машинном переводе.
Мне нравятся сильные и умные люди вокруг. Нравится возможность быть на острие развития технологий, соревноваться, конкурировать с лучшими командами мира — с Google, Microsoft, Amazon, двигать вперёд всю мировую область».
Осенью 2021 года в Яндекс Браузере появилась функция автоматического перевода видео. Выглядит она так: пользователь выбирает язык, оригинальная аудиодорожка становится чуть тише, а поверх неё накладывается новая — сгенерированная приятным голосом.
Антон Дворкович
один из авторов идеи
и разработчик фичи
Сложность была только одна: до нас никто в мире не мог решить эту задачу — аналогичных сервисов нет.
Ситуацию облегчало то, что все смежные технологии (определение языка, распознавание речи, машинный перевод, синтез речи, голосовая биометрия) в Яндексе уже были — Антону и его коллегам нужно было найти способ подружить их между собой.
Чтобы перевести звук, сперва нужно распознать речь — то есть отделить слова от фона. Затем распознать сами слова и перевести их, а потом синтезировать речь. И наконец, вставить в видео, причём так, чтобы речь хорошо звучала.
Антон Дворкович
один из авторов идеи
и разработчик фичи
«Моя волна» собирает информацию об истории прослушивания пользователя: какие песни он лайкал, какие пропускал, какие слушал чаще других, а какие дизлайкал — эти данные обрабатываются в режиме реального времени. В результате из 84 млн уникальных треков по лёгкой формуле создаётся список из пары тысяч. После этого к ним применяются тяжёлая формула и бизнес-правила, которые формируют поток всего из 5 треков. Они и отправляются в очередь на прослушивание.
Если пользователь прослушивает треки, и ему всё нравится, он получает следующие 5. А если он совершает какое-то действие (лайкает или дизлайкает трек), то система рекомендаций мгновенно собирает новую пятёрку аудиозаписей.
Из этих трёх источников выбирается 10 000 последних действий — для пользователя со средней активностью это история действий за последние несколько месяцев. Эти данные и передаются в рекомендации.
Сейчас сервис рекомендаций используется не только в Яндекс Музыке и Яндекс Радио, но и на Кинопоиске. Он охватывает миллионы пользователей, которые ежедневно генерируют порядка миллиарда разных действий.
Для этого требуется настроить систему распознавания таким образом, чтобы она могла сработать не только в обычных городских условиях, но и в нестандартных ситуациях: в плохую погоду, рядом с объектами необычной формы и там, где проводятся дорожные работы, которые сложно объехать.
Руководитель группы AI-сервисов для картографии Виктор Юрченко был одним из создателей системы.
Виктор Юрченко
руководитель группы AI-сервисов
для картографии
Существующие способы шумоподавления не могли значимо улучшить входные данные, когда звук был громче, чем голосовой запрос к Алисе. Человек в похожих условиях мог бы расслышать обращение. Хотелось научить этому и Станцию.
В одной из публикаций тимлид команды голосового ввода Никита Рыжиков натолкнулся на элегантное решение похожей проблемы у Google. За счет наличия нескольких микрофонов, можно было сфокусироваться на источнике шума и отделить его от остального потока звука, формируя «гасящий луч» в направлении шумящего объекта. Оказалось, что способ может работать и на наших устройствах. Вскоре решение адаптировали под инфраструктуру и модели Алисы.
Никита Рыжиков
Тимлид команды голосового ввода