Мы выпустили новую версию Яндекс.Сервера – приложения для полнотекстового поиска в корпоративных сетях и поиска по сайтам.
Что в ней нового?
Формула ранжирования. В Яндекс.Сервере можно влиять на ранжирование - при вычислении релевантности страниц могут учитываться определенные вами показатели: например, популярность, рейтинг, новизна страниц сайта.
Поиск на лету. Благодаря новому хранилищу индексов созданные документы добавляются в Яндекс.Сервер по мере поступления и почти мгновенно попадают в поиск, поэтому ваши пользователи найдут самую свежую и актуальную информацию.
Поддержка новых языков. Продукт полностью переведен на юникод, поэтому поиск возможен на любом алфавитном языке. Например, на тюркских языках (казахский, татарский, турецкий, азербайджанский), арабском, греческом, грузинском, иврите.
Скачивайте и находите всё!
Богдан Гаркушин, подбираю формулу ранжирования...
Ответил видимо не на тот вопрос, который задан. Просто решили попрбовать называть по году и месяцу. Весия 2009.05 говорит о том, что мы сделали версию в мае, а к настоящему моменту, т.е. к сентябрю создали стабильную версию, которую готовы показать во вне.
Метапоиск работает и работает замечательно. А если еще к http-запросу к meta-поиску добавить cgi-параметр: rd=5, то будут удаляться дубликаты по сниппетам.
Ребята, давно слежу за вашим продуктом, т.к. активно использую его в своей работе. Огромный плюс, что вы добавили индексирование баз данных. Но когда же Вы напишите нормальную документацию по нему??? Никаких объяснений по поводу ошибок при старте. Неизвестен полный список поддерживаемых форматов, т.к. везде написано "итд". Не написаны ограничения. Например, нельзя индексировать не html/plain/text форматы в базах данных, а в документации про это ни полслова. В одщем вывод такой. Продукт - СУПЕР, но настолько же плохая документация к нему и , к сожалению, её качество не меняется вот уже те два года, в течении которых я знаком с вашим продуктом.
Здравствуйте! Установил себе на сервер ваш замечательный продукт и столкнулся со следующей проблемой: при выводе результатов поиска у меня по умолчанию сортировка идет по ID документа(а может и по дате, у меня просто сортировка по дате совпадает с сортировкой по ID), но никак не по релевантности. Ставлю по дате - делает по дате по убыванию или по возрастанию, так же работает сортировка по группировкам.
Индексация происходит по базе mySQL все прекрасно работает, кроме сортировки по релевантности :(.
Пробовал ставить &how=rlv - не помогает. Может подскажите в какую сторону копать?
Подскажите, о какой релевантности Вы сейчас говорите: - о встроенной текстовой релевантности - или о пользовательской, доступной через UserRelevanceLibrary?
О встроенной текстовой.
То есть у меня вначале могут идти документы, где сопадают, например, все слова но разбросанные по тексту, а в середине выдачи может быть документ с полным совпадением фразы и в заголовке.
Установлено все на Ubuntu 8.10
Правда есть один глюк, при запуске сервера выдает:
Starting Yandex.Server (/usr/local/sbin/yandex-server)
unknown error
В логах при этом о unknow error ничего не пишет (
Но все работает при этом.. Кроме вот сортировки по релевантности :)
Спасибо за рекомендацию.
Я откатил яндекс.сервер тоже на предыдущую версию. Всё стало работать лучше. И произовдительность поднялась в разы и ошибки исчезли.
Буду теперь поосторожнее относиться к свежим релизам поисковика.
Разобрался с этой проблемой путем установки сервера предыдущей версии. Сразу все заработало, достаточно было заменить только файл самого сервера.
Остается еще один вопрос к вам, Богдан. Умеет ли сервер выдавать каким то образом урезанные данные, в частности надо только один атрибут, по которому идет группировка. Нужно для того, что бы забирать сразу всю выборку одной страницей (например около 5-10тыс. результатов) в ускоренном режиме, а то "стандартный" xml строится уж очень долго(для большого количества), а потом его еще и парсить столько же времени. Может как то можно вытянуть интересующую меня информацию из файлов кеша? При этом надо сохранить возможноть забирать "полные" ответы, как в стандартном XML.
Да, предыдущую версию сложно назвать решением. У меня стоит до сих пор версия FREE-020-3.8.3, т.к. во всех следующих версиях обнаруживались ошибки, делающие невозможным использование. Версии 3.8.9-10 выдавали пустые сниппеты и открывали большое (в смысле не закрывали) количество tcp-соединений, а последняя версия ENT-020-2009.5.3 выдает как и у Олег результаты с сортировкой по дате, а не по релевантности (во всяком случае, выдача по дате и по релевантности совпадает и не имеет ничего общего с релевантной выдачей). Также выводит unknown error при старте и в лог ничего по этому поводу не пишет.
Да, с сортировкой по релевантности теперь все в порядке. Большое спасибо. Можно к вам обратиться по поводу функции Поиск похожего документа - в инструкции она анонсирована как Возможность искать документы, похожие на заданный документ, с использованием специального эвристического алгоритма.
В описании полей поисковой формы также упоминается ds — URL документа для поиска похожих документов, но при запросе http://yandex-server/collection?ds=URL выдает Search request is empty. Старая версия (FREE-020-3.8.3) на такой запрос выдает список похожих документов. Кроме того, что я процитировал, в инструкции об этом ничего не говорится :(
Возможно, вам будет интересно: тоже как и предыдущие комментаторы испытываю проблемы с ранжированием результатов - оно выполняется практически по алфавиту.
Инсталляция - абсолютно стандартный Yandex_Server-2009.5.3--Windows-i386.exe. Из настроек - только указание индексить 3 сайта в локальной сети.
Готов предложить свою помощь, но думаю, что сделать такой тестовый стенд смогут и без меня...
Хотелось бы получить обратную связь об этой проблеме. Спасибо.
Мамочки! Заметил новую версию и сразу же решил её поставить на серверах. С ужасом заметил, что она требует ресурсов раза так в два больше.
Сколько же надо машин под 100к запросов в день?
Сейчас всё работает на двух машинках каждая по 8 процессоров от интелла и с 8 Гб памяти. И машинки эти парятся при 8 тредах и 8 запросах в очереди. База небольшая. Всего 4 миллиона документов.
Что подскажете попробовать сделать? Может где-то есть группа админов яндекс.сервера, а то документации оооочень мало.
Ещё вопрос. Планируется ли реализовать коннектор к субд postgresql? или может быть кто-то из юзеров уже такое написал.
А то как-то через odbc в линуксе к postgresql подключаться не очень хочется.
все эти ?недоделки? присутствуют и в новой версии 2009.05
единственно, что радует, что новая версия пишет логи в utf8
в остальном преимуществ пока не вижу
сейчас экспериментирую ещё раз с новой версией с несколько, убрав из запросов скобки вокруг названия переменных атрибута.
производительность в новой версии хуже, чем в старой.
если не получится методом конфигурации поднять производительность на уровень прошлой версии, придётся обратно поставить старую версию.
Мб. кто нибудь из разработчиков сервера сказал в чём конкретно преимущество новой версии по отношению с предыдущей (за исключением тех пунктов, кот. стоят на сайте)
Отвечу на 2-ой вопрос: Это различия html- и xml-репортов. Первый сам добавляет параметр мягкости //50. Если вы использует xml-репорт, то в запрос нужно добавлять //50
по идее нужно в тест запрос просто добавить //50, если не работает, то опишите пожалуйста ситуацию подробнее. Возьмите один документ, проиндексируйте его, попробуйте задать запрос в XML и, если не заработает, то пришлите описание эксперимента.
Мне кажется что для общения с пользователем лучше сделать следующую схему: 1. Для поиска использовать XML-запросы 2. Для вывода информации пользователю клиентскую часть (браузерную или приложение) которое умеет анализировать получаемый в результате XML и сообщать пользователю результаты поиска.
Для того, чтобы результаты поиска были в XML нужно к http-запросу добавить cgi-параметр xml=da
Так наиболее правильно. Дело в том, что логи ядра продукта - это скорее информация для разработчиков и внедренцев, но это в гораздо меньшей степени информация для пользователя поиска. Удачи!
Хотелось бы попросить как-то отписываться по поводу выкладывания новых релизов. И обратить ваше внимание на ошибку в последней сборке (в которой бинарники от 6 февраля). В linux версиях (rpm и tar.gz) наблюдается ОЧЕНЬ странная структура каталогов ;-) и отсутствие нескольких библиотечек.
Похоже, вы таки читаете и отвечаете на комментарии к этой записи, но мой ответом не удостоили, может, пропустили?
по поводу функции Поиск похожего документа - в инструкции она анонсирована как Возможность искать документы, похожие на заданный документ, с использованием специального эвристического алгоритма.
В описании полей поисковой формы также упоминается ds — URL документа для поиска похожих документов, но при запросе http://yandex-server/collection?ds=URL выдает Search request is empty. Старая версия (FREE-020-3.8.3) на такой запрос выдает список похожих документов. Кроме того, что я процитировал, в инструкции об этом ничего не говорится :(
Последняя версия от 13.02.2010 ведет себя так же - в инструкции есть, а сервер выдает, что запрос-де пуст. Если при этом указать запрос, выдача ничем не отличается от таковой без параметра ds=URL.
ОС FreeBSD 6.3
У меня есть версия, что функция более не поддерживается, а из документации удалить забывают, но надеюсь, что это не так и это просто баг и он будет исправлен.
По утверждению наших ГУРУ - эта функция есть и должна работать. Ну а раз не работает, значит это баг. Будем исправлять, правда большой оперативности не обещаю. Возможно, что ошибку исправи не раньше чем через месяц другой.
Не работает :( Установил на FreeBSD 8 версию Yandex_Server-2009.5.4-ENT-FreeBSD72-x86_64.tar.gz , поиск работает, а при запросе http://host:port/collection?ds=url выдает Search request is empty
Да, есть версии под 6 и 7, но мне удалось запустить старую версию FREE-020-3.8.3 под 8-й FreeBSD и она выдает как поиск по запросу, так и похожих документов; версия 2008.12 (3.10) (собранная под 7.0) также все выдает, но похожих выдает только пару штук, а нередко и только сам документ, заданный для поиска, возможно, там есть еще какие-то параметры типа строгости поиска и можно её "ослабить", сделать менее строгой, чтобы выдавалось больше результатов? А версия 2009.05, собранная под FreeBSD 7.2 выдает только результаты по запросу, а при поиске похожих выдает Search request is empty. Мне кажется все же, что дело тут не в версии операционной системы.
Если для общественности будет доступна пилотная версия документации по эффективному внедрению и интеграции корпоративного поиска с использованием Яндекс.Сервер, это был бы самородок для специалистов!
Сколько ищу - не могу найти где можно загрузить версию Сервера от 13.02.2010...
И еще, будет ли реализована пара параметров, в которых:
1. Можно будет указывать слова-синонимы (к примеру, ДОУ - дошкольное образовательное учреждение, МОУ СОШ - муниципальное образовательное учреждение средняя общеобразовательная школа и т.п., т.е., грубо говоря, можно было указывать расшифровки аббревиатур).
Существующий параметр MorfFixFile может заменять только "одно_слово" на "другое_слово", а не "одно_слово" на "целая_фраза" и наоборот...
2. Можно было бы определенные страницы по определенным запросам выдавать в начале результатов поиска. Иначе получается так, что действительно нужная информация находится внизу, а то и на следующих страницах результатов поиска, а всякие doc'и, pdf'ы и т.п. в начале результатов поиска.
Вот этих двух функций действительно очень не хватает.
Вопрос про язык сообщений об ошибках. Установлена верия Yandex.Server под FreeBSD -отображаются сообщения на английском типа Cannot find these words и тп У коллеги версия более старая и под Linux - все по русски. Как можно получить собщения об ошибках поиска по русски?
А чем не подходит английский? Я.Сервер - это же back end. front end - может отвечать пользователю так, как нужно в данном конкретном случае (на русском, на английской, да хоть на арабском)
Тогда необходимо обрабатывать весь список служебных сообщений перед выдачей пользователю. Такого списка, кстати, нет. Получается в функционале Yandex.Сервера нет возможности смены языка? Это не вопрос версий?
Служебных сообщений крайне мало. Полный список сообщений об ошибках есть в Перловом репорте: report.phtml
Что касается смены языков, то поиск и индексация по разным языкам, включая английский и русский, осуществляется автоматически, ну а сообщения об ошибках всегда на английском.
Здравствуйте! Не могли бы Вы меня кратенько пнуть в нужном направлении по следующему вопросу: Яндекс сервер индексирует базу MySql. На сайте есть поиск, который им пользуется. Всё хорошо. Хотелось бы, чтоб результаты сортировались по такому параметру как сочетание релевантности и коэффициента устаревания информации. Как определять коэффициент - я решу. Главное, чтоб если нашелся мега-релевантный результат, но сильно устаревший, чтоб он оказался ниже чуть менее релевантного, но нового.
Версия 2010 вылетает при индексировании некоторых pdf файлов. Есть ли способо не идексировать или не выдавать одинаковые документы, которые находятся в разных местах?
Интресно куда отправлять багрепорты. У меня например не стартует индексатор на сервере(Ubunut 10.10 x86_64 server, запушенный под openvz). он падает с ошибкой. Сама серверная часть запускается бе з нареканий.
При том что на моем компе (Ubunutu 10.10 x86_64 desktop) c идентичном конфигом все запускается без нареканий. Так же была проверена работа индексатора в виртуальной машине где была установлена Ubunut 10.10 x86_64 server, тоже с тем же конфигом работает.
П.С. Вот так запускается индексатор
# dsindexer Yandex.DsIndexer This program is a part of Yandex.Software 2010.9.0 Copyright (c) 1996-2009 OOO "Yandex". All rights reserved. Call software@yandex-team.ru for support. Product ID: ENT-030-2010.9.0 Start indexing... Indexing was started at Sat Feb 19 13:19:31 2011
Sat Feb 19 13:19:31 2011 [Webds] [INFO] - Indexing: datasource webds opened successfully Indexing was finished at Sat Feb 19 13:19:31 2011 It has been indexed 0 documents. Index contains 0 documents. Error: std::bad_alloc
Возник вопрос по поводу опции LoadLog точнее формата того файла, который ей задается. можно как-нибудь получить его описание и научиться его читать? как минимум, понять какой запрос к какой коллекции был адресован.
Попытался собрать у себя пример UserRelevanceLibrary. Возникла проблемы, поискольку в поставке отсутствуют файлики relevance_type.h и attr_type.h , которые поключаются в uctx.h
Богдан, никак не удается запустить поиск с учетом MorphFixFile
Яндекс сервер не запускает поиск, ошибка
Warning: SearchOpen failed to open /var/local/yandex/workindexlm/index: (No such file or directory) reqdata.cpp:18: Probably index hasn't been created yet
уже все перепробовали, вручную индекс создается (по крайней мере так логи говорят) но вот поиск не запускается.
Что делать? Писал письмо в поддержку, ничего не отвечают