Клуб о поиске Яндекса

Сеанс черной магии с последующим разоблачением

rp71689
28 июля 2010, 13:01
Давно обещал рассказать, что, как и зачем мы оцениваем в поиске, и что из этого получается. Кому интересно – велкам сюда, с удовольствием расскажу, что могу. Начну с нескольких вопросов, которые мне задавали, что упущу – пишите в комментариях, постараюсь ответить.

Q: У вас есть единая метрика качества, по которой вы можете оценить выдачу по любому запросу?
A: Частично. У нас есть метрика pfound, являющаяся близким родственником классической метрики DCG, и в основном мы оцениваем выдачу по ней. Некоторые аспекты качества поиска такими метриками не ловятся. Например, не ловится разнообразие выдачи, так как каждый документ мы оцениваем независимо от остальных. Для этих аспектов приходится придумывать отдельные способы оценки.

Q: Состав запросов, интересы пользователей ведь непрерывно меняются. Как вы это учитываете?
A: Сейчас мы смотрим на две выборки общим количеством несколько тысяч запросов в каждой. В одной выборке запросы зафиксированы, в другой постепенно меняются (полностью обновляясь примерно два раза в год). По одной группе мы можем отслеживать “рафинированное” качество ранжирования без учета влияния интересов пользователей, а в другой группе видим влияние реального мира. Новая версия алгоритма, чтобы быть принятой, должна улучшать показатели по обеим группам.

Q: Сколько всего запросов оценено асессорами Яндекса?
A: В общей сложности, считая запросы для поисков разных стран, запросы для картинок и для видеопоиска, получается чуть более ста тысяч запросов.

Q: Как вы оцениваете выдачу по узкопрофессиональным запросам, например, медицинским? Нужно же быть специалистом?
A: Когда нам попадается узкопрофессиональный запрос (что, отметим, случается ОЧЕНЬ редко – кроме программистов, мало кто ищет в поисковике ответ на по-настоящему сложный вопрос, связанный со своей работой), мы проводим исследование и пытаемся сами установить правильный ответ. Формализованной процедуры нет, обычно все сводится к тому, чтобы найти специалиста в данной области и спросить его. До того, как запрос и документы попадают на оценку асессорам, наши аналитики проводят предварительное исследование запроса, вот именно на этом этапе мы и устанавливаем ответ.

Q: Чей поиск лучше – Яндекса или Гугла?
A: Я могу несколько часов перечислять запросы, на которые Яндекс отвечает лучше, чем Гугл, а могу также несколько часов перечислять запросы, на которые Гугл отвечает лучше, чем Яндекс. Оба уже довольно хороши с практической точки зрения, и у обоих еще есть много областей для совершенствования.

Роман Поборчий, верю, что магии не существует
50 комментариев
Подписаться на комментарии к посту
 
Q: Чей поиск лучше – Яндекса или Гугла?

Человеческий мозг - последняя инстанция формирования запроса для нахождения ответа при ошибочных результатах у поисковика и выбора ответа. :-)
поделюсь с друзьями
как всегда, ни чего точного ...
какие критерии основные например при оценки выдачи?

на что делать упор для продвижения например: "есть контора в городе Нижний Новгород, она продает на всю Россию. Нужно её по всей России (регионам) продвинуть, но то что привязанна контора может быть только к 7 регионам - жутко этому мешает - регионов то больше", и вот такую контору очень  и очень сложно получается продвинуть ;/
Если компания работает на всю Россию, укажите регион Россия.
C вводом Матрикснета количество работы асессоров увеличилось?
Да, несколько увеличилось, так как МатриксНету для обучения требуется больше оценок, чем предыдущим версиям алгоритма. Но увеличение не очень существенное, не в разы.
до какой глубины оценивается выдача?
первые 10, 20 сайтов?
Для разных задач от 5 до 50.
На первую страницу (первые 10) смотрим все время, на вторую реже, на последующие -- иногда.
В большинстве случаев глубина 10.
Учитывается ли поведение пользователя на сайте, кликабельность на тот или иной результат в выдаче? Меняется ли в соответствии с этим выдача? 
Проводя предварительный анализ запроса, мы, безусловно, смотрим на статистику поведения пользователей (клики, переформулировки и пр.), но применяем эти знания для анализа тематики запроса.

То, что по конкретному сайту много кликают, не является для оценки признаком того, что этот сайт лучше другого с такой же тематикой и информацией. Это является только одним из признаков того, что тематика сайта пользователям интересна.

Если по какому-то запросу кликают вообще почти только на один сайт, это является одним из признаков того, что запрос навигационный [вконтакте].
т.е. если пользователи покидают сайт и возвращаются к результатам поиска что б кликнуть по другому сайту в выдачи или переформулируют запрос тоже ни как не влияет?
=A: Я могу несколько часов перечислять запросы, на которые Яндекс  отвечает лучше, чем Гугл, а могу также несколько часов перечислять  запросы, на которые Гугл отвечает лучше, чем Яндекс=
А как получены данные о таких запросах?
Из разных мест.

В поиске на внутренних рассылках почти всегда, если кто-то нашел проблему у нас, он смотрит, как там конкуренты и пишет об этом всем. И такого несколько штук в день минимум.

У нас есть люди, которые регулярно (это часть их работы) мониторят тематические блоги и форумы, оттуда много интересного накапливается.

Ну а к тому же, есть и систематические проблемы у каждого из поисковиков. Зная систематическую проблему, придумывать под нее запросы можно и самому.

На analyzethis, опять же, смотрим каждый день.
Спасибо, Роман.

Запрос "каско" в московской выдаче - http://yandex.ru/yandsearch?text=%D0%BA%D0%B0%D1%81%D0%BA%D0%BE&clid=9582&tld=ua&lr=213

4 место(вчера было 3), страница http://rus.auto24.ee/used/746596  совершенно нерелевантна запросу, к тому же другая страна! Посмотрите что можно сделать.

притом что эта страница периодически вылазит, периодически пропадает последние несколько месяцев

эстонский сайт пропал, но появился аналогичный белорусский

http://www.av.by/public/public.php?event=View&public_id=1506179

а сейчас на 6м месте вот эта совершенно неполезная страница http://www.i-rate.ru/cgi-bin/otdetail.cgi?id=12777&orgname=%DE%E3%EE%F0%E8%FF&org=156
скажите, на сколько должен быть популярен запрос что бы перед выдачей показалась карта? это оценивается теми же асессорами или работает автоматически при преодолении какого то порога?
Это работает автоматически.

Могу соврать (не на 100% компетентен в вопросе), но думаю, что это не  зависит напрямую от популярности запроса. Есть алгоритмы, которые  определяют, что запрос про объекты, которые можно показывать на картах, и  в большинстве этих случаев пытаются карту показать.

Иногда алгоритм ошибается, иногда не получается объект к карте привязать. Но в принципе карта может показаться и по уникальному запросу.
Роман, приветствую. 

Хотелось бы узнать, не появилось ли у Вас информации по вопросу, который я задавал в предыдущей ветке обсуждения.

Я немного уточню вопрос выберу конкретный запрос и конкретный сайт.
Например, запрос "ноутбуки acer", сайт uti-note.ru на 58 месте выдачи. Почему робот выбрал релевантной для этого запроса страницу http://www.uti-note.ru/product114026939/, а не http://www.uti-note.ru/category67108871/. Данный пример, с выбором роботом нерелевантной запросу страницы в пределах одного сайта не единичен, я могу привести множество подобных примеров. Так вот, как происходит выбор релевантной страницы в пределах одного сайта и как бороться с подобными (как в примере) ошибками?
на странице конкрентного ноутбука множество тегов заголовков с вхождениями.
На странице категрии каталога - один всего и текста кот наплакал.
Так чего же вы хотите-то? =)
Логики же)
Ещё, замечательный пример релевантности.

Запрос "ноутбуки".

1 место

2 место

На мой взгляд сие не есть релевантная выдача, я ошибаюсь?
По поводу ноутбуков Acer и конкретного сайта.
Да, первая из указанных страниц менее релевантна, чем вторая.
Асессор, которому попадутся две такие страницы, оценит их соответственно (вторую -- .как рел, первую -- видимо, как рел-).

При обучении алгоритма, однако, никогда не удается даже на обучающем множестве выстроить все документы в строгом соответствии с порядком оценок.

Техническое объяснение проблемы в данном конкретном случае в этой ветке уже дано.
Техническое объяснение проблемы в данном конкретном случае в этой ветке уже дано.

Не нашёл если честно. Можно ли более подробно описать, как разубедить робота в том, что страница товара релевантнее?
Имхо, стоит:

1. На http://www.uti-note.ru/category67108871/ добавить релевантных текстов, как Вам правильно подсказали.

2. На http://www.uti-note.ru/product114026939/ и подобных страницах поставить ссылку с анкором "ноутбуки Acer" на http://www.uti-note.ru/category67108871/. Можно в навигационной цепочке вверху страницы.
Давно обещал рассказать, что, как и зачем мы оцениваем в поиске
Ну про "что" и "как" более менее понятно, осталось ответить на вопрос "зачем" :)
 
Я могу несколько часов перечислять запросы, на которые Яндекс отвечает лучше, чем Гугл, а могу также несколько часов перечислять запросы, на которые Гугл отвечает лучше, чем Яндекс.

Я готов послушать все эти запросы, где Яндекс круче с субъективной точки зрения одного из производителей продукта. Это будет самая долгая реклама в мире. Дольше, чем реклама пчелайна в иронии судьбы. =)
А перечислять запросы, по которым Гугл круче, придется вечно. Причем объективно лучше, по мнению большиства пользователей.
Яндексу специфичные сложные вопросы действительно не задают - ибо не мог никогда ответить и все забили давно, пополнив собой ряды юзеров Гугла. Яндекс не сможет на них ответить до тех пор, пока его не купит Гугл.

К сожалению, руководство Яндекс не понимает, что в интернете надо сначала сделать, а потом просить денег. Выжимать из площади экрана деньги, забивая её рекламой - с этого в набившей оскомину Америке ржут в лицо и крутят пальцем у виска. Айфон запретили продавать за ненадлежащее качество, а давайте сравним обороты яблочников и яндексоидов? Думаете, они бы не смогли купить весь парламент со всеми патентными бюро с потрохами? Еще как смогли бы. Но Джобс сам признал свою дурость - послушал тех, кто работает на продаваемость, а не на качество.
Почему даже умные люди не учатся на ошибках дураков?
Ребят, чтобы заработать бабла в инете, надо продукт делать качественный и покупаемый, а не впаривать насильно свой шлак.o_O
Роман, Вы понимаете, что сейчас Яндекс уподобился самому настоящему говносайту, забитому рекламой с оплатой за клик, aka MFA (made for adverts/adsense). Разве не против этого всегда боролись АГС и прочие Я.Банщики?
И о каких результатах поиска может вообще идти речь, если я их с трудом нахожу между рекламой?
Я знаю сайт крупнейшего производителя в своей узкой (но не слишком) области, который по странному стечению обстоятельств месяца полтора назад вылетел в московской выдаче по всем релевантным запросам (в других выдачах он в топе),  в первой сотне он находится только по названиям своих торговых марок и то в конце первой десятки.
саппорт всё это время пишет, что разбираются с проблемой.
эти запросы видимо отсутствуют в выборках. давайте добавим их в одну из выборок, чтобы улучшить качество оценки!
Даже если сайт оценен асессорами как релевантный по какому-то запросу, это не гарантирует его появление в топе по этому запросу. Как я уже писал выше, достичь порядка документов, идеально соответствующего порядку по оценкам, не удается.

Давайте сюда вашего крупнейшего производителя. В выборку его добавлять не буду, она случайно собирается, но если по соответствующим запросам без него плохая выдача, можно найти ответственных и их потормошить.
А что с украинской выдачей? Имеем для Украины в индексе одну страницу релевантной, для Харькова(город Украины) другую.


Могу как нибудь в личку передать ссылку на сайт....
Добрый день, Роман.

Скажите пожалуйста, как учитывается выбор пользователем ссылки по запросу в случае если он открыл не первые 10, а например только 3ю.

Это влияет только на позицию данного сайта или на сам алгоритм поиска?

Как вообще вы относитесь к оценки релевантности пользователями и какие мероприятия для этого предпринимаете?

Спасибо.
Я могу говорить только про оценку (и выше уже сказал, что статистику кликов мы используем для определения интересов пользователей по запросу). Для анализа запроса почти неважно, на каких позициях была страница, когда на нее кликали.

Более того, сама страница, на которую много кликали, может получить у асессоров низкую оценку. Так бывает, например, со страницами про скачать что-нибудь, если там ссылки не работают. На странице, в заголовке и в сниппете [скачать бесплатно без регистрации и очень легко], а в реальности там только моженнические блоки "скачать на большой скорости", а все остальные ссылки не работают.

В такую страницу по этому запросу могут много кликать, но мы уверенно поставим ей оценку "нерелевантный".

Про алгоритм поиска не могу прокомментировать.
Интересная мысль, как-то не думал про мошенников :)

Про алгоритм - это же самое интересное :(

Я же не выпытываю у вас строки кода, мне просто концептуально интересно, есть ли польза от того что кликаю только в один сайт внимательно вчитывая в сниппеты (что не всегда удобно) или вред от того что я открываю всю страницу выдачи.
Роман, если вам не трудно, подскажите, эти 2 сайта: http://www.forexclub.ua/ и http://www.fxclub.org/ являются ли аффилиатами? и если да, что как объяснить это: http://yandex.ua/yandsearch?rdrnd=152454&from=fx3&text=%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B1%D0%B8%D1%80%D0%B6%D0%B5%D0%B2%D0%BE%D0%B9%20%D1%82%D0%BE%D1%80%D0%B3%D0%BE%D0%B2%D0%BB%D0%B5&clid=46510&lr=143

Вообще, если ли где-либо описание до какой степени похожести могут быть сайты одного собственника?
Когда, в свете всего вышесказанного компания Яндекс прекратит употреблять словосочетание: «Мы всего лишь зеркало интернета»?
Роман, скажите, есть ли у ответственных за поиск сотрудников понимание того, что его результаты, особенно в коммерческой выдаче, уже социально значимы и любые перетасовки приводят к изменениям, а иногда очень серьезным, в бизнесе компаний, попадающих или наоборот пропадающих из рейтингов / топов, что безусловно отражается на огромном количестве людей, связанных и взаимодействующих между собой в разных ипостасьях, близких к этим группам.
Задумавыется ли об этом Яндекс и понимает ли свою уже довольно значительную роль в этом вопросе?
Как сказать... На то, насколько сильно меняется выдача, мы при приемке смотрим, и иногда это нас останавливает от выпуска тех или иных  изменений. То, что это влияет на бизнес многих людей, тоже понимаем.

Всегда ли мы принимаем верное решение по вопросу "а стоит ли это предполагаемое улучшение тех трудностей, который могут принести некоторым людям столь  обширные изменения"? Конечно, не стану утверждать, что всегда. Но по крайней мере, мы себе этот вопрос задаем.
Роман, общеизвестно, каким должно быть содержание сайтов туристических операторов, многое было сказано про сайты, продающие технику и т.д. Однако у меня возникает вопрос структуры и релевантности сайтов компаний, занимающихся разработкой сайтов.

Ситуация такова, что, как правило, ТОП 30 составляют практически идентичные по релевантности сайты. Понятное дело, хозяева сайтов активно занимаются их совершенствованием, Яндекс меняет алгоритмы и ТОП 10 раз за пару месяцев меняется. При том, в выдаче присутствуют, как новые сайты, так и те, которым уже по пять-семь лет.

Поясните, пожалуйста, ситуацию, по данной тематике.
Существует ли некое особое отношение Яндекса к индексации блогов на блогспоте?
Нет, никакого особенного отношения.

Не знаю чем лучше, кое что еще иногда ищу.
запрос - Энциклопедия спорта - из 300 ссылок только реально 5 ведет на именно ресурс с энциклопедией, все остальное магазины книг, доски обявлений, херня всякая ... и то у 5 сайтов, дальше не стал искать...



Согласен. По запросу с 4-5 словами - возможно не все так плохо.


Но не думаю, что я буду набирать больше 3 слов, как и все пользователи.


Была бы моя воля - да бы не плодить кучу персонала, я бы сделал для пользователей 3 варианта поиска ( ради эксперемента на 1 год )


- Вариант который сейчас
- Вариант без всех ограничений индексируем все как есть
- Вариант индексируем все - без магазинов ( особенно книжных ), досок объявлений, каталогов ссылок и т.п - чисто информационные сайты.


А потом уже смотреть - что больше нравится пользователям.


Потому что "политика партии и правительства" - на свое усмотрение - ни к чему хорошему не приводила. Это хорошо если бы человек был один - хотя и он, со временем всегда меняет вгляды - а по вашему получается один из правительства может забанить сайт, а другой дать зеленый свет - короче русская рулетка - а если в штате который отвечает - большая половина не видет преспективы развития того или иного сайта -это не говорит о том, что сайт плохой - это говорит о том, что талантливых людей все меньше и меньше, в штате. А если сайт найдут пользователи интересным, да еще через другой поисковик - то делайте выводы, где будет искать пользователь интересный сайт.


Спасибо.


P.S. Яндекс поиск держится за счет подключения "новых деревень" которые кроме яндекса ни чего и не знают. Как мамка - а потом начинается взрослая жизнь, и уходят от мамки. Взрослый пользователям покажет своим детям - вот это мамка, но если что и за хочешь найти то лучше пользоваться .... каждый советует свое.


При поиске информации пользую яндекс в 30% случаев.

Понятно, то, что чем дальше в это углубляешься, тем становится еще непонятнее=)
Роман, мы уже около трёх лет безуспешно добиваемся решения проблемы с ранжированием и индексацией одного сайта, который без organic-трафика смог стать к данному моменту лидером в своей тематике. И дело не в том, что в поиске выше его находятся откровенное УГ (продающее ссылки, завешанное рекламой и т.д.), а в том, что вылизанный сайт со всех точек зрения до сих пор имеет проблемы с "вниманием Яндекса".

Мне кажется, что мы (на свою голову) имеем уникальный случай, который было бы полезно рассмотреть с точки зрения совершенствования качества поиска Яндекса. Каждый день на сайте появляется более 1000 страниц уникального UGC, но трафик из Яндекса не то, что не идет вверх, а стремительно падает: вот картинка http://farm6.static.flickr.com/5253/5528477877_8749bb01ab_z.jpg . Я не знаю, как Вас убедить в том, что этот случай следует рассмотреть отдельно. До этого я при обращение в службу поддержки формировал доказательство того, что сайт имеет самую большую глубину просмотра среди сайтов в этой тематике, с открытым счетчиком, низкий показатель отказа, большое кол-во запросов "бренда" сайта в Сети. Я боюсь, что Вы не захотите окунутся в предоставленную мне информацию, которой я могу предоставить очень много, поэтому пишу письмо с вопросом - сможете ли Вы помочь нам (как проекту) и себе (как сотруднику Яндекса)? Служба поддержки отвечает нам дежурными фразами, когда я их "дожимаю" постоянно извиняется, но уже три года ситуация не меняется.

Адрес сайта какой?
А можно я Вам отвечу в почту с дополнительной информацией про качество трафика на сайте, конкретные проблемы? Мой е-мейл netpeak-ua@yandex.ru . Если нельзя, то ок, отвечу тут, но одним доменом (много всего аттачить).

Я Вас помню по конференциям нескольким (на Украине).

Напишите про домен здесь.

Да, я уже тоже Вас распознал :).

Сайт: http://www.nevesta.info/

Пример запроса - "свадьба". Обратите внимания на показатели качества сайта с точки зрения пользователя. Вот данные по тому трафику, который всё-таки из Яндекса приходит - http://clip2net.com/clip/m32868/1300314015-clip-6kb.png . Сравните с конкурентами. Также легко увидеть по топу сайтов в этой тематике кол-во рекламы на этих сайтах, продажных ссылок и т.д..

Дело не столько в запросе. Контент растёт на 1000 страниц в сутки. Яндекс их не индексирует. Либо индексирует, выкидывая старые. Кол-во страниц за долгий период не меняется.

У меня есть много данных по этому вопросу, которые я могу предоставить. И ни одного ответа саппорта кроме стандартных и индивидуальных, типа: "Приносим извинения за временные неудобства.". Но всё это нам отвечают каждые 3 месяца.