Еще одна клевая фича

На днях на страницах тех сюжетов Яндекс.Новостей, где упомянуты адреса, появились фрагменты географических карт (см. пресс-релиз). Интеграция новостей с картами - это еще один шаг к формированию автоматического дайджеста события, включающего максимально полную подборку фактов. Почти год назад в блоке "сюжет в лицах" мы вывели основных действующих лиц события, в апреле запустили пресс-портреты - аккумулированную по новостному архиву информацию о человеке, в начале июня на некоторых сюжетах появилась ссылка на мнения в блогах, которые часто служат интересным дополнением к новостным источникам. В основе автоматического выделения адресов из текста лежит та же технология, на которой построен процесс создания пресс-портретов. На специальном языке с помощью словаря ключевых слов, которыми описываются "адресные" объекты (улица, проспект, мост, дом, корпус и т.д.), автоматически выделяются синтаксические шаблоны, соответствующие структуре обозначения адреса в тексте. Выделенные цепочки нормализуются (приводятся к стандартному виду: название населенного пункта, название улицы, номер дома, номер корпуса), что позволяет сформулировать правильный запрос к базе географических объектов и отождествить разные обозначения одного адреса. Вместе с тем для интеграции новостей с картами технология была доработана. Так, для определения города, к которому относится адрес, выделяются обозначения населенных пунктов из всех документов сюжета, а потом для каждого считается вес, который зависит от частотности в документе, близости к адресу, от того, упоминается ли он в заголовке и т.д. Гипотезы в порядке убывания веса верифицируются по базе географических объектов: проверяется, существует ли данный адрес в выбранном городе. Первая верифицированная гипотеза признается лучшей. Этот алгоритм неплохо работает, но и у него бывают сбои: в сюжете про то, что Монголия в честь Москвы переименовала в Улан-Баторе Проспект Мира в Московский проспект, автомат решил, что эти улицы находятся в Москве (на карте Москвы они есть, а вот карты Улан-Батора у нас пока нет). Одновременно на прошлой неделе на страницах сюжетов с картой добавилось предложение, содержащее упоминание адреса, который показывается справа. И если карта показывается одна, то адресов в этом предложении может быть несколько (если, например, на праздник перекрывают несколько улиц) и каждый снабжен ссылкой на соответствующий фрагмент карты. Нам кажется, так и должно быть: в идеале (к которому мы стремимся) сюжет должен содержать все выделенные факты и объекты с иллюстрациями и справочными ссылками.
Лев Гершензон, ведущий разработчик