Как "Яндекс" с "Интегрумом" сделали "Новости в лицах"

Технологии сторонних компаний используются в Яндексе нечасто, поэтому сам факт вполне достоин записи в анналы. Нашим партнером по «Новостям в лицах» стала давно знакомая нам компания «Интегрум» -- крупнейший в мире электронный архив русскоязычных документов. Для запуска потребовалось много усилий с обеих сторон, и я хотела бы поблагодарить коллег из "Интегрума" Льва Гершензона и Дмитрия Панкратова, сделавших все, чтобы наш совместный проект состоялся. А поскольку никто не сказал, что в корпоративный блог "Яндекса" могут писать только сотрудники нашей компании, мы попросили Льва Гершензона рассказать, как дело было.           Татьяна Платонова, руководитель службы Яндекс.Новости Как это было Идея делать автоматические именные указатели была навеяна нам с Димой Панкратовым полтора года назад журналом "Власть" и его "Лицами, упомянутыми в номере". Поскольку журналов, газет и прочих поставщиков текстовых документов в "Интегруме" больше трех тысяч, мы решили не мелочиться и сделать подобный именной указатель, но один для всех источников и полностью автоматический. То, что получилось, было названо "Сегодня в лицах" и опубликовано на http://labs.integrum.ru. Оказалось, что сервис дает представление о событиях дня, ориентирует пользователя в новостном потоке. В большинстве случаев (малочисленные путины, фрадковы, грефы - не в счет), один человек за короткий промежуток времени (1-3 дня) упоминается как участник одного события. Мне показалось, что рубрики и сюжеты Яндекс.Новостей станут интереснее, а главное, читатель сможет быстрее и лучше понять, что к чему, если применить к ним ту же технологию. В Яндексе (Митя Иванов и Илья Сегалович) эту идею поддержали. Году не прошло, и теперь каждый может сам оценить, насколько это удобно (красиво, смешно:). Как мы это делаем На первом этапе из новостных текстов выделяются обозначения людей с помощью морфологической информации, словарей имен собственных и специальных алгоритмов анализа. На втором этапе внутри одного текста и на множестве документов программа отождествляет формально различные обозначения одного человека (ср. Борис Ельцин - Ельцин Борис Николаевич - Б. Н. Ельцин). На последнем этапе из обозначений людей отбирается N самых упоминаемых - тех, о которых написано в наибольшем количестве текстов. Главной особенностью программы является отсутствие какого бы то ни было заранее заданного списка людей - новые несловарные фамилии автоматически определяются и приводятся к словарной форме по специфическому контексту (имя, инициалы и др.). Кроме того, с высокой точностью разграничиваются однофамильцы и разрешается родовая омонимия (ср. Валентина Матвиенко, Александра Лебедева - мужчина или женщина?). Что тут сложного или Откуда столько ошибок В принципе, ничего сложного тут нет. А ошибок бы и вовсе не было, если бы все имена и фамилии были в словаре. Перечислю несколько самых частотных проблем: 1. Имена омонимичны обычным словам. В самом начале в "Сегодня в лицах фигурировали" такие персонажи: Гера Советского, Вячеслав Богу, Надежда Доброй. 2. Фамилии могут совпадать с отчествами. Бывшие бизнес партнеры Борис Абрамович Березовский и Роман Аркадьевич Абрамович и в придачу президент компании КрасЭйр Борис Михайлович Абрамович доставили нам немало хлопот. 3. Некоторые фамилии склоняются, некоторые нет. И если их нет в словаре, по их внешнему виду (по буквам) понять, к какому типу относится фамилия (и если склоняется, то как), далеко не всегда удается. Ардзинба и Анкваба. Знаете, что первая фамилия в именительном падеже, а вторая в родительном? А так похожи. 4. Мужские и женские имена тоже очень часто имеют общие формы (см. выше). 5. Есть такие народы, в которых одного имени человеку недостаточно. Мы этого не понимаем и ошибаемся. Без энциклопедического багажа совершенно не понятно, сколько человек тут упомянуто: Джон Рональд Руэл Толкиен. Что дальше Мы считаем, что в информационном сервисе должны быть представлены разные информативные объекты. Человек - это очень востребованный и интересный объект, а по счастью, выделять его из текста легче, чем многое другое. Выделять другие объекты получается сложнее, но мы работаем над этим...
Лев Гершензон, руководитель отдела лингвистических разработок компании "Интегрум"