Наша команда занимается аналитикой основных базовых технологий портала: это голосовые технологии для Алисы, перевод на все языки и, конечно, большие языковые модели YandexGPT.
- Какие данные лучше сложить в претрейн, чтобы модель поумнела?
- Как оценивать и контролировать качество этих данных?
- Как собрать корзину запросов на умения и знания всего на свете?
- Как построить процесс сбора данных для идеального finetune модели, если у нас уже есть 100+ талантливых редакторов-специалистов?
- Как оценивать, хорошая модель получилась или плохая?
Все вопросы очень интересные, и на них нет готового ответа.