Индексация форумов в поиске по блогам

15 сентября 2008, 16:30

Поиск по блогам Яндекса давно уже индексирует не только блоги, но и форумы и все остальное, у чего есть RSS. Индексирует не всегда хорошо — все выдают RSS по принципу «кто во что горазд». Мы написали специальные плагины для популярных форумов, выдающие «удобный» для нас RSS. Удобство заключается в том, что всё разбито на посты (стартовый пост темы) и комментарии (остальные посты в теме) и — главное — есть «листалка»: выдается не просто 20 самых свежих записей, но и предыдущие страницы. Выгода для владельцев форумов очевидна, форум будет проиндексирован хорошо и целиком, и искать по нему можно будет с помощью Яндекса. Вы сможете или поставить форму для поиска по вашему форуму, которая ведет на поиск по блогам, или получать xml с результатами поиска и оформить все в своем дизайне. Зачем это нужно Яндексу — тоже понятно: мы хотим хорошо индексировать. Плагины работают для форумов на движках PHPBB, Invision Power Board, vBulletin и доступны на Яндекс.Нано в качестве проекта с открытым кодом, распространяемого по лицензии BSD.

Дмитрий Смирнов
35 комментариев
О, это вы молодцы.Максим
А плагин владелец движка должен устанавливать сам?Иван
Конечно, у него ведь доступ есть, а у нас нет.Смирнов Дмитрий
Молодцы! P.S. Было бы просто великолепно, если бы Вы выложили спецификацию формата, в котором лучше отдавать RSS Яндексу - это позволило бы другим людям тоже написать расширения для своих любимых веб-приложений.Шоков Алексей
Спецификация формата есть в плагинах в readme файле.Смирнов Дмитрий
Это понятно, что можно провести обратный инженеринг кода или посмотреть в reame.txt... Хотелось бы чего-то подобного вот этому: http://help.yandex.ru/xml/?id=396706.Шоков Алексей
Постараемся сделать.Смирнов Дмитрий
Теперь понятно, почему Дмитрий столько интересовался форумами у себя в блогах. Совсем классно было бы, если Яндекс пропихнёт эти плагины в ветку разработчиков форумов ;)wiktar
я был бы рад когда это будет полноценным rss reader'om для форумов :)Remm
А что с поддержкой UTF-8?Настенко Роман
Пока все плохо, но мы работаем над этим.Смирнов Дмитрий
Классная вещь! Обязательно установим себе на форумГрем
Это единовременная акция или так будет и дальше? Почему спрашиваю - очень многие ждут новую версию IPB.Zhilinsky
Думаю, что так будет и дальше.Смирнов Дмитрий
Другие движки буду поддерживаться? Интересует smf.Plazik
Будут, как только мы поймем, какие следующие движки идут по популярности.Смирнов Дмитрий
PunBB ^_^skurudo
Будет неплохо, особенно если всё будет реализовано как расширение к PunBB 1.3.Роман Парпалак
PHPBB-2 незаслуженно забыли, мне кажется он все еще популяренКалашкин Алексей
А попадает ли проиндексированный через rss контент в общую выдачу или только в проект яндекс-блоги? Не будет ли взят курс на четкое разделение форумов и сайтов ? Думаю, почти все хотели бы видеть форум и в обычной выдаче яндекса. Далеко не все у нас даже в курсе, что такое блоги. Однако информацию полезную частенько можно найти именно на форумах.pwlnw@yandex.ru
Если мы научимся хорошо индексировать форумы, то лично я не вижу причин (ну, кроме технических, которые решаемы), почему форумы не надо пускать в большую выдачу.Смирнов Дмитрий
А вот я уже вижу - сеонизаторы быстро подхватят и будут проталкивать туда свои сомнительные поделия. Это же быстрейший способ вбросить кучу контента. Собственно rss была в vbulletin давно, но я изучал логику работы индексатора по логам и пришел к выводу, что посты она просто обновляет по времени. соответсвенно много пропускает и не успевает. Хорошо если теперь пропускать не будет. pwlnw
Подозреваю, Дмитрий, что вы страшно далеки от этой кухни, хотя и вцелом успешно разобрались в структуре бд vbulletin. Хотелось бы предупредить, что данный код может привести к свободному доступу к куче обычно скрытых вещей на форуме : мягкоудаленные темы и сообщения, запароленные разделы, непечатные пользователи (это которые "tachy goes coventry"), специфические настройки групп. И это только стандартные возможности исключая массу продуктов-дополнений сторонних производителей. С другой стороны, мы понимаем, что это скорее такой "вброс кода" чем готовый продукт, и теперь сообщество должно довести его до ума.pwlnw
Ну, некоторые стандартные настройки прав доступа оно все-таки понимает.Смирнов Дмитрий
Я вас огорчу, но вообще ни одной. Насколько я вижу, единственная настройка, которую ваш код проверяет, предназначена для фильтра в поиске. Которая "лол бинарная маска". Этот бит называется "indexposts". Он учитывается при выдаче результатов встроенной в форум поисковой системы. Правильный пример кода можно увидеть в каталоге archive. Вообще непонятно, почему бы изначально Яндексу просто не использовать этот "архив"? Он изначально создан разработчиками для поисковых систем. Там существенно облегченные запросы, текстовое оформление,стабильные страницы растущие вперед, никаких бб-кодов и форматирования. Поставьте тестовую копию и все будет видно. По phpbb и ipb точно не могу сказать, на первый взгляд вызовы фукнций проверки доступа из этих движков. Думаю нормально все. pwlnw
Хорошо, я посмотрю еще раз.Смирнов Дмитрий
Сейчас посмотрел туда и вспомнил: ввиду двойственного предназначения архива, а jelsoft в угоду клиентам сделал из него еще и pda-версию форума (совершенно неудобную, на мой взгляд), там образовалась каша из кода. Не так просто это будет. В любом случае мы очень рады тенденции.pwlnw
Подскажите пожалуйста будет ли она корректно работать на "старой" версии Invision Power Board(U) v1.3 ? Ибо переходить на новые тормоза IPB 2.х.х не собираемся... Спасибо.Admin
Попробуйте, а вдруг. Мы не смогли найти такую старую версию для тестирования.Смирнов Дмитрий
могу предоставитьAsh
phpbb 2 нужён, под ним всё-таки полно хороших форумовSilinio Mark
Поддерживаю товарищаAleXX
Индексирование, Дмитрий, индексирование!Ольга
Спасибо за плагин. Постараюсь прикрутить к своему форуму.rdm
Поставил. Для ПХПбб3 - очень не нравиться что надо добавлять каждую ленту в отдельности. saint byte