Как устроены переводные словари Яндекса

Что важнее всего при изучении иностранного языка? Желание, свободное время, проверенный учебник, хороший преподаватель? Безусловно. А ещё — хороший словарь.

У многих из нас на полках стоят бумажные словари: старые и новые, общие и специализированные, многотомные и карманные. С ними, как и с любыми книгами, может быть связано множество воспоминаний: например, о школьных уроках немецкого или о первой поездке за рубеж. Но вряд ли кто-то поспорит с тем, что по удобству использования бумажные словари проигрывают электронным.

Работать с электронными словарями проще и быстрее, чем с бумажными: не нужно перелистывать страницы в поисках слова, можно не только прочитать перевод слова, но и услышать, как оно звучит, а пользоваться словарём можно на любом устройстве. На сервисе Яндекс.Словари представлены три вида электронных словарей: переводные, энциклопедические и словари русского языка: толковые, этимологические, орфографические, фразеологические, словари синонимов и так далее.

Если ввести в поисковую строку Словарей, например, слово [колибри], то словари русского языка дадут его краткое толкование, расскажут, откуда произошло слово, есть ли у него синонимы и на какой слог в нём ставить ударение. Из энциклопедических словарей можно узнать, как выглядит колибри, где обитает и чем питается. Переводные словари, об устройстве которых мы хотим рассказать, подскажут, как слово переводится на иностранные языки.


Сколько у нас словарей

Сейчас в коллекции сервиса Яндекс.Словари — 67 переводных словарей для десяти языков, включая казахский, турецкий и латынь. В нашем индексе есть как общие, так и специализированные словари: для юристов, биологов, врачей, авиаторов. Мы используем готовые электронные словари, а не составляем их самостоятельно: эта работа требует специальных навыков и знаний, и её выполняют ученые-лексикографы.

 

Как формируется словарная статья

Мы не знаем, какая именно задача стоит перед пользователем, заглянувшим в словарь. Возможно, он делает школьное задание по английскому языку, а может быть, переводит статью про плазмохимическое травление в микроэлектронике. Поэтому для каждого слова мы показываем все переводы из всех словарей, где оно нашлось. Само по себе это несложно, но без специальной обработки результатов пользователям придётся продираться через большое количество повторов. Перевод будет выглядеть примерно так:

Чтобы не дублировать информацию, мы научились разбирать словарные статьи на отдельные переводы и склеивать переводы по близости значений. Этим в переводных Яндекс.Словарях занимается специальный алгоритм.

Алгоритм извлекает из словарных статей данные — основные и вспомогательные. Основные — это заголовок и список переводов; иными словами, то, что составляет структуру статьи. К вспомогательным данным относятся часть речи, грамматические пометки, транскрипция, примеры употребления и тематика.

Дальше алгоритм, ориентируясь на основные (а при необходимости — и на вспомогательные) данные, распределяет переводы по частям речи, собирает близкие по значению переводы в одну строку и удаляет дубликаты. В результате получается такая статья:

Многие статьи проиллюстрированы примерами. Примеры мы тоже получаем из словарей, входящих в индекс. В словарях примеры часто даются списком в конце статьи, что не всегда удобно. Наш же алгоритм умеет распределять примеры по значениям – вот так:

По большому счету, переводные Яндекс.Словари – это один большой «мегасловарь», собранный по данным из разных источников. Лишняя информация (переводы-повторы) из него удалена, а нужная (примеры или синонимы) добавлена. Такой «мегасловарь» универсален: им могут пользоваться и профессиональные переводчики, и те, кто только-только приступил к изучению иностранного языка.

Помимо Словарей, у Яндекса есть еще один сервис для тех, кто имеет дело с иностранным языком, – это Перевод. Если Словари предназначены главным образом для тех, кто серьезно изучает язык, то автоматический переводчик может пригодиться, например, в зарубежной поездке или в случае, когда нужно примерно понять содержание текста на незнакомом языке.

 

4 комментария
Как все "сложно". Микро-разметка и сбор данных по шаблону. "Умеет" - собирает и разбирает. Сервис удобен, но пока не доработан и поэтому "сырой".
я ,пока ещё не пользовалась сервисом,но он мне пригодится ,думаю,надо только научится им пользоваться
Наташа Крупенина
26 ноября 2015, 14:58
LI.VIVIEN-2011,
один из самых простых в использовании сервисов! Печатаете слово, нажимаете на кнопку, получаете перевод.
Очень интересная заметка. Частенько пользуюсь переводом, в основном с английского и французского.  Было время, когда активно интересовался переводом с румынского. Он, в целом, был лучше, чем у другой всем известной корпорации.