Блог Яндекса
август 2005
Теперь мы индексируем быстрее!
1 августа 2005, 16:54
На днях мы запустили "быстрый" робот, который работает одновременно с основным и предназначен для оперативного обнаружения и индексации актуальных страниц.
Используя 4 источника информации о востребованных пользователями документах, быстрый робот находит новые и измененные страницы, делая их доступными для поиска уже через несколько часов после обнаружения.
База быстрого робота обновляется каждые 1,5-2 часа, а время от момента скачивания документа до момента его появления на поиске составляет от 2 до 5 часов. На сегодняшний день база быстрого робота насчитывает около 4 миллионов документов.
На выдаче результаты из быстрого робота отличаются от основных наличием поясняющей надписи о том, как давно была проиндексирована последняя версия документа (столько-то часов назад, вчера, позавчера).
Страницы быстрого робота особенно хорошо заметны при сортировке результатов поиска по дате.
Александр Авдонкин, программист отдела разработки поисковых сервисов
опечатка? возможно, имелось в виду: «афтар»
5 августа 2005, 16:03
Нам задают вопросы про Query-based speller, который наряду со словарным орфографическим корректором работает на поиске Яндекса с начала июля.
> Однако меня все равно не устраивает, когда в ответ на запрос "афтор"
> с одной опечаткой мне говорят, что возможно следует писать "афтар",
> а не "автор"
> http://yandex.ru/yandsearch?text=%E0%F4%F2%EE%F0
Отвечаем: [автор] и [афтар] — два разных слова, они принадлежат к двум разным пластам языка, имеют разную сочетаемость.
По ассоциациям запросов видно, что такую опечатку делают т.н. «падонки», которые намеренно пишут это слово через «ф». Нормальный человек не поставит случайно вместо «в» букву «ф» — и по звучанию не похоже, и расположена на клавиатуре не рядом.
Иными словами замену [афтор] -> [афтар] мы считаем вполне адекватной. Более того, по-видимому, орфографической ошибкой является написание [автор жжот]. Правильно [афтар жжот].
Удачного поиска!
Илья Сегалович, директор по технологиям и разработке
Яндекс.Карты: как объехать тучу
5 августа 2005, 21:26
На карте Московской области теперь можно посмотреть текущую погоду по 44 городам и поселкам – нужно просто включить информационный слой «Погода сейчас» в правой колонке. По клику на значок города показывается прогноз на завтра, двойной клик закрывает окошко прогноза.
Если вас не устраивает текущая погода в родном городе, погодный слой на карте можно в любой момент отключить. Правда, погода от этого не изменится :)
Планируйте выходные со знанием дела – теперь прямо на карте видно, откуда заходит облачность и где теплее всего!
Андрей Стрелков, руководитель службы Яндекс.Карты
Эти типы стали...
9 августа 2005, 19:27
Вот еще одна история с семинаров, но ее приходится рассказывать не очень часто. Иногда случается, что заходит разговор о том, что хорошо бы поисковым системам учитывать не только слова, которые есть в индексируемых документах, но и смысл написанного.
В ответ говорю, что знаю фразу, про которую и человек-то не скажет, о чём это.
Вот она:
Эти типы стали есть в прокатном цехе.
И что тут написано?
Я знаю, минимум, три разных смысла. Не подглядывайте в ответ сразу (он ниже). Попробуйте сначала самостоятельно...
Обычно, когда это предложение видит зал, сначала становится тихо (видно, что думают), потом начинаются смешки (до кого-то дошло), потом хихикают уже все. =
Но к делу, что же здесь все-таки написано?
(скучный такой вариант)
Эти типы стали (варианты металлопроката) есть (имеются в наличии) в прокатном цехе.
Новые Яндекс.Деньги
10 августа 2005, 16:39
Яндекс начинает закрытую тестовую эксплуатацию новой версии проекта Яндекс.Деньги.
Основное, что появилось в Яндекс.Деньгах — web-интерфейс для доступа к счету. Не нужно скачивать никаких программ, можно пользоваться своими деньгами с любого компьютера и под любой операционной системой.
Пока вход только по приглашениям. Чтобы получить приглашение, оставьте свой email в комментариях, и мы рассмотрим вашу кандидатуру:)Алёшин Павел, руководитель отдела платежных систем
Постинг в нарушение канонов
10 августа 2005, 21:15
Обычно в корпоративных блогах пишется о новостях корпорации, в которой работает пишущий. Рискну нарушить канон и поделиться приятной новостью от, как ни крути, конкурента.
Дело в том, что результаты поиска по англоязычным новостям Google News стали доступны в форматах RSS и Atom. Теперь пользователи синдикаторов (программ для чтения RSS-потоков), например, Яндекс.Ленты, могут просматривать в своей ленте подписку по ключевым словам.
Таким образом, теперь в Яндекс.Ленте есть все для мониторинга не только российского, но и западного информационного поля: русскоязычные СМИ из Яндекс.Новостей, блоги из поиска по блогам и западные СМИ из Google News (кстати, аналогичная возможность есть и на Yahoo News, но у Google пока больше англоязычных источников).
Вот так, например, можно добавить в Ленту мониторинг новостей про Яндекс на английском:
Делается это просто: заходите на Google News, делаете нужный запрос, потом нажимаете на ссылку "RSS", полученный адрес копируете на страницу "Добавить RSS-поток" в Яндекс.Ленте. Дмитрий Иванов, директор по проектам
Яндекс.Лента становится удобнее
18 августа 2005, 11:45
У Яндекс.Ленты появились новые возможности.
Теперь, распределив RSS-потоки по нескольким лентам, пользователи смогут выбрать себе основную ленту — ту, которая будет отображаться, когда они в очередной раз зайдут на главную страницу службы. Таким образом можно, например, выделить подписки на поисковые запросы в отдельную ленту и заходить туда от случая к случаю, при этом регулярно читая, что пишут в интересных вам блогах.
Для тех, кто предпочитает просматривать только заголовки сообщений, появился соответствующий режим просмотра лент, который можно указать в настройках службы. Более того, можно свернуть или развернуть сразу все сообщения прямо на странице чтения ленты.
Добавление в Ленту журналов пользователей LiveJournal тоже стало удобнее — теперь в поле ввода можно указать сразу нескольких пользователей, разделив их запятыми. Этот способ помогает быстро занести в Ленту сообщества, на которые вы подписаны в LiveJournal, взяв их со страницы вашего профиля.
Кстати об экспорте. На странице управления RSS-потоками появилась ссылка, позволяющая получить список ваших RSS-потоков в формате OPML — для того, например, чтобы сделать резервную копию или поделиться с друзьями.
И, наконец, мы добавили ещё один полезный инструмент для пользователей службы — расширение для Mozilla Firefox, позволяющее быстро добавлять в свою Ленту RSS-потоки тех сайтов, которые вы посещаете.Николай Яремко, менеджер проектов
Вечные вопросы: куда пойти в пятницу вечером?
19 августа 2005, 12:50
«Поиск XXI века — это когда пользователь получает ответ раньше, чем он успел задать вопрос». Именно такой девиз начертал на своём щите наш отдел поисковых технологий. Поиск — это главный элемент Яндекса, его альфа и омега. Поэтому скромным контент-службам надо как следует стараться, дабы выглядеть достойно на фоне Поиска.
«Выглядеть на фоне» — не фигура речи. Все контент-службы Яндекса создаются с прицелом на то, чтобы, помимо прочего, помогать пользователям в их поиске там, где мы точно знаем правильный ответ. На слово «погода» ещё над списком релевантных веб-страниц вам жирным шрифтом сообщат о температуре и осадках в вашем регионе, на запрос «батискаф» — покажут заголовки последних новостей, посвящённых спасению моряков, на «Марсель» ответят ссылкой на карту Европы. Этот механизм мы называем «параллельным поиском» и недавно туда была добавлена выдача Яндекс.Афиши.
Невелика доблесть: сообщить человеку, что фильм «Ключ от всех дверей» идёт в 21 кинотеатре, сразу уточнить, что это фильм ужасов, и предложить ссылку на рецензии, отобранные специальным алгоритмом из материалов партнёров Яндекс.Новостей — уже лучше. Ещё лучше — ищущему новый кинотеатр «5 звёзд — Рио» дать его адрес и телефон заказа билетов. Причём посетители из Петербурга и Москвы, разумеется, получат ссылки на два разных кинотеатра «Родина» в своих городах. А вот рассказать москвичу, что «Марлени» со Светланой Крючковой, которая специально раз в месяц приезжает из Петербурга играть в этом спектакле, будет сегодня в Театре им. Н.В.Гоголя в 19.00, а после этого вы можете еще успеть на концерт группы «Руки вверх», который начнется в час ночи в «Фараоне» — это почти поиск XXI века. «Почти» — потому что можно попробовать сразу ответить на тот вопрос, который пользователь ещё даже не успел обдумать. Но это будет уже в следующей версии.
NB: само собой, что приведённые примеры выдачи параллельного поиска устареют уже через несколько часов после публикации этой записи. Но вы сами можете найти сотни примеров актуальных ответов на третий после «кто виноват?» и «что делать?» главный вопрос современности: «куда пойти в пятницу вечером?».Сергей Аксёнов, менеджер проекта Яндекс.Афиша
А у нас новое ранжирование результатов поиска
25 августа 2005, 19:34
В начале недели мы усовершенствовали алгоритм ранжирования, что, по нашей оценке, увеличило точность поиска по некоторым видам запросов. Документы, посвященные именно теме запроса, а не более широким или более узким темам, теперь в результатах поиска показываются выше, а по названиям компаний наверху чаще встречаются сайты этих компаний, а не их партнеров или магазинов.
Это изменение алгоритмов не последнее, работы по улучшению ранжирования продолжаются непрерывно, новые изменения могут быть внедрены в ближайшее время.Александр Авдонкин, программист отдела разработки поисковых сервисов
Как "Яндекс" с "Интегрумом" сделали "Новости в лицах"
26 августа 2005, 20:48
Технологии сторонних компаний используются в Яндексе нечасто, поэтому сам факт вполне достоин записи в анналы. Нашим партнером по «Новостям в лицах» стала давно знакомая нам компания «Интегрум» -- крупнейший в мире электронный архив русскоязычных документов.
Для запуска потребовалось много усилий с обеих сторон, и я хотела бы поблагодарить коллег из "Интегрума" Льва Гершензона и Дмитрия Панкратова, сделавших все, чтобы наш совместный проект состоялся.
А поскольку никто не сказал, что в корпоративный блог "Яндекса" могут писать только сотрудники нашей компании, мы попросили Льва Гершензона рассказать, как дело было.
Татьяна Платонова, руководитель службы Яндекс.Новости
Как это было
Идея делать автоматические именные указатели была навеяна нам с Димой Панкратовым полтора года назад журналом "Власть" и его "Лицами, упомянутыми в номере". Поскольку журналов, газет и прочих поставщиков текстовых документов в "Интегруме" больше трех тысяч, мы решили не мелочиться и сделать подобный именной указатель, но один для всех источников и полностью автоматический. То, что получилось, было названо "Сегодня в лицах" и опубликовано на http://labs.integrum.ru. Оказалось, что сервис дает представление о событиях дня, ориентирует пользователя в новостном потоке.
В большинстве случаев (малочисленные путины, фрадковы, грефы - не в счет), один человек за короткий промежуток времени (1-3 дня) упоминается как участник одного события. Мне показалось, что рубрики и сюжеты Яндекс.Новостей станут интереснее, а главное, читатель сможет быстрее и лучше понять, что к чему, если применить к ним ту же технологию. В Яндексе (Митя Иванов и Илья Сегалович) эту идею поддержали. Году не прошло, и теперь каждый может сам оценить, насколько это удобно (красиво, смешно:).
Как мы это делаем
На первом этапе из новостных текстов выделяются обозначения людей с помощью морфологической информации, словарей имен собственных и специальных алгоритмов анализа. На втором этапе внутри одного текста и на множестве документов программа отождествляет формально различные обозначения одного человека (ср. Борис Ельцин - Ельцин Борис Николаевич - Б. Н. Ельцин). На последнем этапе из обозначений людей отбирается N самых упоминаемых - тех, о которых написано в наибольшем количестве текстов. Главной особенностью программы является отсутствие какого бы то ни было заранее заданного списка людей - новые несловарные фамилии автоматически определяются и приводятся к словарной форме по специфическому контексту (имя, инициалы и др.). Кроме того, с высокой точностью разграничиваются однофамильцы и разрешается родовая омонимия (ср. Валентина Матвиенко, Александра Лебедева - мужчина или женщина?).
Что тут сложного или Откуда столько ошибок
В принципе, ничего сложного тут нет. А ошибок бы и вовсе не было, если бы все имена и фамилии были в словаре.
Перечислю несколько самых частотных проблем:
1. Имена омонимичны обычным словам. В самом начале в "Сегодня в лицах
фигурировали" такие персонажи: Гера Советского, Вячеслав Богу, Надежда
Доброй.
2. Фамилии могут совпадать с отчествами. Бывшие бизнес партнеры Борис Абрамович Березовский и Роман Аркадьевич Абрамович и в придачу президент компании КрасЭйр Борис Михайлович Абрамович доставили нам немало хлопот.
3. Некоторые фамилии склоняются, некоторые нет. И если их нет в словаре, по их внешнему виду (по буквам) понять, к какому типу относится фамилия (и если склоняется, то как), далеко не всегда удается.
Ардзинба и Анкваба. Знаете, что первая фамилия в именительном падеже, а вторая в родительном? А так похожи.
4. Мужские и женские имена тоже очень часто имеют общие формы (см. выше).
5. Есть такие народы, в которых одного имени человеку недостаточно. Мы этого не понимаем и ошибаемся. Без энциклопедического багажа совершенно не понятно, сколько человек тут упомянуто: Джон Рональд Руэл Толкиен.
Что дальше
Мы считаем, что в информационном сервисе должны быть представлены разные информативные объекты. Человек - это очень востребованный и интересный объект, а по счастью, выделять его из текста легче, чем многое другое. Выделять другие объекты получается сложнее, но мы работаем над этим...Лев Гершензон, руководитель отдела лингвистических разработок компании "Интегрум"