Блог Яндекса для вебмастеров

Новый Яндекс.Сервер – поранжируем?

7 сентября 2010, 13:38
Сегодня вышел новый Яндекс.Сервер – продукт для организации поиска по сайту или в корпоративной сети, использующий технологии большого поиска Яндекса. В новой версии особое внимание мы уделили качеству поиска, добавив новые возможности по управлению ранжированием.

Теперь можно перемещать найденные документы на первую или последнюю позицию выдачи, указав запросы и ссылку на документ, который необходимо сделать первым или последним. Зачем это нужно? Корпоративные сайты, к примеру, могут по запросу имени сотрудника поставить на первое место страницу с его биографией. А интернет-магазины могут по запросу с упоминанием товара в качестве первой страницы указать карточку этого товара.

В новой версии Яндекс.Сервера реализовано ссылочное ранжирование, которое учитывает ссылки на документ при расчете его релевантности. А также расширился список поддерживаемых документов: MS Office 2007, Open Office и PDF-файлы версии 1.7.

Скачайте Яндекс.Сервер, находите больше и точнее.


Мария Липатова и команда Яндекс.Сервера
50 комментариев
Подписаться на комментарии к посту
Теперь можно перемещать найденные документы на первую или последнюю позицию выдачи, указав запросы и ссылку на документ, который необходимо сделать первым или последним.

Наконец-то перенесли эту фичу из большого Яндекса!
плакалъ
ах, вот он - единственный ценитель сеошного юмора! )
Мы в отделе поиска тоже оценили тонкую шутку юмора :)

Эта возможность любой корпоративной поисковой системы, а не большого поиска. Она есть в аналогичных продуктах для организации корпоративного поиска и не бесполезна для пользователей, поэтому логично и правильно предложить ее пользователям Яндекс.Сервера.
Интересно, нужно проверить работу ...
Скажите, пожалуйста, он уже научился индексировать Медиавики и выкидывать из выдачи одинаковые по контенту ссылки с незначительно различающимися GET-параметрами?
Понятно, я так и думал.
Медиавики индексировать можем уже давно - это источник данных WebDs.
А удалять дубли мы тоже можем, для этого нужно произвести некоторые настройки в конфиге. Если конкретнее в документации об этом есть информация: http://api.yandex.ru/server/doc/concepts/About.xml
Нужно читать про мета поиск и про rd=4 или rd=5
Господа, а можно все-таки подробнее описать эту проблему. В описании я ничего не нашел вообще, про Мета-поиск 3 предложения. У меня проблема: 2 коллекции, в каждой из них есть по 1 записе(с одинаковыми ключами)... Но в одной коллекции запись более свежая чем во 2. В выдаче 2 записи, rd=5 и rd=4 не помогает
Учитывает ссылки внутри сайта или внешние?
Учитывае ссылки со всех сайтов, которые Вы проиндексируете Я.Сервером.
Т.е. и внешние и внутренние!
Это замечательно! :)
т.е получается что это ручная корректировка результатов выдачи? И она используется в большом брате? Следовательно, и в большом брате можно поднять нужный тебе документ повыше?
Или я не прав?
Старались поставить на CentOS 5.5. Запуск dsindexer выкидывает следующую ошибку:
dsindexer: /lib64/libc.so.6: version `GLIBC_2.7' not found (required by dsindexer). glibc в системе стоит 2.5. Причем в системных требованиях указано: Linux               glibc-2.3 и выше.
Исправим документацию.
Пока у нас слинковано в версией 2.7.
bgarkushin,
поправьте меня если я  не прав.
Очень похоже, что вы собирали Яндекс-Сервер на дистрибутивах типа Федоры с glibc-ом высоких версий. Часто Федора используется на десктопах, в отличии от серверных RHEL-а и основанных на нем дистрах с более старыми glibc-ами (например Oracle11 для RHEL-а требует glibc-2.5-12). Чем обусловлено было решение собирать Яндекс-Сервер на не совсем серверной платформе и отказать серверным RHEL-основанным дистрам?

> Пока у нас слинковано в версией 2.7.
 
Пока складывается впечатление что Яндекс-Сервер поддерживается крайне эпизодически, поэтому как скоро можно ожидать сборку с glibc-2.5 и стоит ли ожидать вообще?
Яндекс и Fedora? .... Уверен - Ubuntu! ;)
Вопрос: планируется ли к списку поддерживаемых документов добавить форматы изображений или запустить отдельный поиск по картинкам?

Спасибо.
Добрый день.
Отдельно индексировать картинки мы не умеем. Зато умеем индексировать описание к картинкам.
Поэтому у Вас уже все есть. Это Ваши картинки, делайте к ним xml с описание, ну и индексируйте, а затем находите.
Здравствуйте,

можно ли в Яндекс сервере отключить искажение индексируемых URL?

Это очень важно, т.к. в процессе индексации из URL обрезаются параметры без значений, а веб-сервера (основанные на IBM Lotus) активно используют такие URL.

Пример:

Исходный URL:
[Webds] [DEBUG] - Link found: http://host/Y2010/Any.nsf/aee89?Count=30&OpenDocument
в процессе индексации преобразуется в
[Webds] [DEBUG] - Removed unnecessary parameters: http://host/Y2010/Any.nsf/aee89?Count=30

Без параметра OpenDocument индексируемый сервер выдает не страницу, а ошибку и Яндекс.сервер сообщает:
[Webds] [INFO] - Can't open: http://host/Y2010/Any.nsf/aee89?Count=30
Спасибо за информацию. Мы постараемся в ближайшее время исправить эту ошибку
Спасибо! Будем ждать.

Если интересно еще ряд предложений:

1. Будет здорово, если в яндекс.сервере, устанавливаемом по-умолчанию, появится Поставщик поиска (provider.xml) для браузера.
2. Просто очень необходима возможность для одной коллекции (т.е. к одному набору результатов поиска) настройка разных индексаторов. т.е. в связи с огромным количеством корпоративных ресурсов есть потребность индексировать часть ресурсов очень интенсивно (оперативная информация), другую часть менее интенсивно, остальную совсем по требованию. В такой ситуации хотелось бы сконфигурировать несколько индексаторов с различным интервалом запуска, но область поиска все равно иметь единую.

п. 2 это не проблемма и называется это "метапоисковые источники"


- создаем для каждого вида ресурсов свою коллекцию (задаем необходимые параметры индексации);


- создаем метапоисковый источник, в нем указываем все наши коллекции и используем его для поиска;


- получаем единую поисковую форму, единую выдачу. при этом различные части ресурса индексируются независимо (с разным интервалом и разными правилами)


удачи! ;-)

Петр, спасибо за информацию! Попробую разобраться!

Извините за нубский вопрос: как в результатах поиска Яндекс.Сервера оставить "оригинальные" ссылки, а не ссылки вида ../hl/collection?url=webds...сама_ссылка_на_страницу ?

Посмотрел в report.phtml, но понял, что $url там формируется внутренней функцией, и повлиять на ее формирование уже невозможно. А делать замену строки как-то... ну некошерно чтоли :D Хотя наверное придется...

Спасибо.

Коллеги.  нубский вопрос актуален , помогите кто чем может :) 

Я забил, поставил Solr :)

Хочеться добить вопрос :) 

Нужно использовать директиву usedirecturls - подробнее описано в документации

Нужно использовать директиву UseDirectUrls , подробнее описано в документации

Фуухх , наконец-то , СПАСИБО !!!!!! 

 

Как я заюзал: 

 

        HttpPrefix : http://uakino.net/

        Options : GetHttp:httpOptions UseDirectUrls

   

И все гут , теперь прямые линки на темы с сайта :) Ура , мучался ДОЛГО . Нет прозрачной и понятной инфы, с МНОЖЕСТВОМ ПРИМЕРОВ конфигураций .... , под разные хотелки .

 

Еще вопрос , у меня в кроне стоит периодическая задача: 

0 */4 * * * /ПУТЬ К СРИПТУ/yandex-server.sh reindex

 

так вот , реиндекс занимает около 3-4 часов работы сервера . Это нормально? Может как-то можно сделать что б он отрабатывал за 10-20 минут? А -то получается новые темы на сайте , появляются в поиске спустя 4 часа . Надо более оперативно . 

Чтобы ускорить переиндексацию нового, лучше выполнять индексацию в отдельный индекс, а над полученным поднимать метапоиск

Какие ключевые слова кроме "мета поиск" искать в мануале? (для "выполнять индексацию в отдельный индекс") 

Господа, а где можно взять дистрибутив ЯС для FreeBSD?

В разделе для скачивания я вижу только Линуксовые и Виндовые.


Желатьельно предыдущую версию, т.к. у меня все под нее настроено было, а сейчас переехал на новый сервер и не могу установить ЯС.

 

http://company.yandex.ru/technology/server/shareware/

 

тут , не знаю как вы видите , но в разделе выбора ОС , есть обе фри 

Уважаемые, кто настраивал Яндекс.Сервер для MySQL под Debian через ODBC ― может сталкивались с проблемой.

Идексатор вылетает с ошибкой, вот что остается в логах:

 

Working with "odbcds" data source...
-------------- Odbc DataSource Config --------------
          DataSource : mysqlds
            UserName : root
            Password : ******
           KeepAlive : 1
            DocQuery : SELECT id, name FROM sample
           DocFilter : WHERE id=$1
            MimeType : text/html
-----------------------------------------------------
Error: [unixODBC][Driver Manager]Can't open lib '/usr/lib/odbc/libmyodbc.so' : no symbols defined (stat=01000, err=0)
Error: dindexer.cpp:284: OpenIndexingSession failed on "odbcds" with error #-2

 

Библиотека libmyodbc версии 5.1.6-1. Устал второй день красноглазить, подскажите, в чем может быть проблема.

У меня точно такая же ошибка выдается ((

никак не пойму откуда она возникает.

В итоге - не получатеся никак заставить индексировать таблицу в MySQL

Что странно - можно даже полностью снести libmyodbc и unixodbc

а ошибка все равно именно такая появляется. ваще ниче не понимаю

Получилось это победить ?

Решил установить яндекс.сервер на убунту. Выскочила такая ошибка. В чем проблема?

 

dpkg: не удалось обработать параметр Yandex_Server-2010.9.0-Linux-x86_64.deb (--install):
 архитектура пакета (amd64) не соответствует архитектуре системы (i386)
При обработке следующих пакетов произошли ошибки:
 Yandex_Server-2010.9.0-Linux-x86_64.deb

В общем установить удалось. Нужно было выбрать просто версию i686.

Итак дальше, решил запустить яндекс.сервер. Не вышло. В чем может быть проблема?

 

root@server:/usr/local/etc/rc.d# /usr/local/etc/rc.d/yandex-server.sh restart
Stopping Yandex.Server (/usr/local/sbin/yandex-server)
/usr/local/etc/rc.d/yandex-server.sh stop: error: /usr/local/sbin/yandex-server is not running
Starting Yandex.Server (/usr/local/sbin/yandex-server)
Processing of '':
Warning at line 22, col 3: section 'Collection' does not allow directive 'WorkDir'. The directive will be ignored.
Started daemon
root@server:/usr/local/etc/rc.d# Processing of '':
Warning at line 22, col 3: section 'Collection' does not allow directive 'WorkDir'. The directive will be ignored.
Warning: SearchOpen failed to open /var/local/yandex/workindex/index: (No such file or directory) yrequester.cpp:50: /var/local/yandex/workindex/index not found
Probably index hasn't been created yet

Скажите , написано про фичу в предпоследннй версии http://company.yandex.ru/technologies/server/ability/

Поиск на "лету"

Cекция Collection, атрибут class="memory" — условие того, что индекс хранится в оперативной памяти. В этом случае существует возможность индексирования документов и поиска по ним в момент их появления.

 но она ругается матом и про нее в доке ниче нет ,...


Вопрос2 , вы планируете обновлять версию, работы идут?

Вопрос3 как решить:

Error: [unixODBC][Driver Manager]Can't open lib '/usr/lib/odbc/libmyodbc.so' : no symbols defined (stat=01000, err=0)
Error: dindexer.cpp:295: OpenIndexingSession failed on "odbcds" with error #-2


выше этот вопрос задавался , нет реакции...


 

На самом деле реакция есть. Техподдержка Яндекса ответила, что в данной версии ошибка не может быть устранена. А зачем нужен поисковый движок, если он не умеет индексировать БД? Советую не мучиться и использовать Sphinx.

Эээ ))) Уже много че под яндекс сделано и работает html индексатор, который бы хотелось бы превратить в БД индексатор ....

 

 а предыдущая версия яндекса пашет через одбс адекватно, кто знает?

 

И есть ли место где можно предыдущую версию скачать?

Удалось какнить победить libmyodbc.so no symbols defined (stat=01000, err=0) ?

Добрый день!

Не нашел более нового сообщения о Яндекс-сервере, поэтому пишу сюда.

Я пытаюсь запустить яндекс-сервер на FreeBSD 8.1 i386, в режиме linux-совместимости. Вроде бы он запускается, но потом падает в core dump. Причем если индексатор не был запущен, процесс висит в памяти, но не открывает никакого порта на прослушивание (как минимум по адресу http://localhost/admin/ он же должен отвечать?). Если же запустить индексатор (отрабатывает без ошибок, судя по логам), то затем сервер, при попытке запуска, заваливается в core.

Я попытался протрассировать его, используя gdb и ktrace, но пока ничего интересного не накопал. Всё происходит так:

71545 yandex-server CALL setfib(0,0xbfbfeaf4,0xbfbfea74,0x8)
71545 yandex-server RET setfib 0
71545 yandex-server CALL freebsd6_pwrite(0x11,0,0xbfbfe89c,0x8)
71545 yandex-server RET freebsd6_pwrite 0
71545 yandex-server CALL setfib(0x2,0xbfbfea74,0,0x8)
71545 yandex-server RET setfib 0
71545 yandex-server CALL compat4.getdomainname(0xbfbfeb74,0xbfbfeb74)
71545 yandex-server RET compat4.getdomainname -1 errno 4 Interrupted system call
71545 yandex-server PSIG SIGIOT SIG_DFL
71545 yandex-server NAMI "yandex-server.core"

Если индексы не подготовлены, то compat4.getdomainname работает нормально, т.е. дело, похоже, не в ней самой, а чём-то, происходящем асинхронно.

Я знаю, что Яндекс отказался от использования FreeBSD на своих серверах, но мне кажется, здесь ошибка не в самой фре, а в отсутствии обработки какой-то ошибочной ситуации в ЯС.

Во всяком случае до этого я уже сталкивался с core, вызванным отсутствием файловой системы procfs (но тогда ktrace быстро нашел причину). А ведь её (procfs) может не быть и в линуксе...

Здавствуйте!

А подскажите, пожалуйста, как организовать поиск по файлам по отдельным группам? Например по определённой тематике. И какой xml запрос давать каждой шоуппе?

Помогите разобраться с поиском по атрибутам в версии 2010.09.  Я создаю мета теги с данными по которым я хочу производить поиск. Для этих мета тегов в Collection  указываю  DocProperty  и поиск по ним не работает...( Дале пытался в парсере html и задать атрибуты и зоны и всерано поиск по атрибутам (зонам) не работал. Секцию QueryLanguage я тооже заполняю (пробовал по разному)

Просьба помочь разобратся что может быть не так.