Сказка о враче-негомеопате

16 апреля 2010, 13:21

Мы верим, что оценивать качество поиска нужно на реальных запросах, которые задают наши пользователи. Так получается гораздо ближе к правде, чем если бы мы данные для оценки придумывали сами. Но есть одна трудность: в смысле запроса, который задал кто-то другой, нужно сначала разобраться. Иногда это превращается в настоящую детективную историю. Некоторыми из таких историй я хочу поделиться. Вот первая из них.

Весной  2009 года мы начали очередной проект по оценке качества ответов на новостные запросы. Начали, как водится, с получения выборки реальных пользовательских новостных запросов. В теории все просто: если запрос обычно задают редко, а потом вдруг начинают задавать часто, значит, в мире произошло что-то, с ним связанное. Придумано давно, называется Непостоянство Интересов Населения Интернета (сокращенно НИНИ). Известно также, что скачкообразный рост популярности запроса бывает не только из-за новостей. Итак, мы взяли НИНИ-запросы и стали искать среди них новостные. Было это 9 апреля 2009 года.

В первом тестовом наборе запросов почти все было логично. Много спрашивали про Катю Лель, она в этот день родила дочь. Много спрашивали про Ливерпуль – Челси и Барселону – Баварию, которые как раз накануне выясняли отношения в Лиге Чемпионов.

Но был один персонаж, который поставил нас в тупик. Звали его [врач-негомеопат]. Беглый обзор новостей показал, что никакие врачи ничем в этот день не прославились, никаких скандалов, открытий, судебных процессов и других значимых событий найти не удалось. Успокоиться мы уже не могли: что врач-негомеопат делает вместе с Катей Лель и Ливерпулем?

Через несколько дней правда открылась –  врача-негомеопата в этот день загадали в кроссворде в бесплатной газете, и он вызвал у читателей достаточные затруднения, чтобы многие спросили о нем у Яндекса. Правильным ответом было слово «аллопат». Никаких новостей, связанных с ним, не было, и свежие страницы в ответе не требовались.

После этого случая я на многие запросы смотрю другими глазами. Например, человек, спрашивающий [небольшая шкатулка для хранения драгоценностей], может быть, вовсе не хочет эту шкатулку купить (что ему настойчиво предлагают и Яндекс, и Гугл). Может, он хочет узнать, как эта штука одним словом называется?..



Роман Поборчий, отвечаю на вопросы о смысле жизни качестве поиска

43 комментария
Подписаться на комментарии к посту
После этого случая я на многие запросы смотрю другими глазами. Например, человек, спрашивающий [небольшая шкатулка для хранения драгоценностей], может быть, вовсе не хочет эту шкатулку купить

Наконец-то это стало очевидно поисковикам. А то поднадоело изобретать запросы, чтобы отсеять всю коммерцию, и получить чистую информацию.
пластиковые окна на ya.ru

На седьмом месте ссылка, претендующая на информационность, хотя стопудово на 100% коммерческая. Итого, из внешних ссылок, которые открываются по этому запросу, и зависят от этого запроса, имеем следующее.
Нашлось 12 млн. страниц, нам показывают:
3 рекламных объявления перед результатами поиска.
5 рекламных объявлений справа от результатов.
9 рекламных объявлений в самих результатах поиска.
1 "статья".
1 ссылка на картинки.
Итого 5.25% полезной информации.
Справедливости ради, отмечу, что у гугла этот запрос возвращает 100% рекламы.
Да, это правда, что даже по самым коммерческим запросам (а [пластиковые окна], несомненно, один из самых коммерческих запросов рунета), нужно показывать какую-то долю документов, которые не являются коммерческими предложениями. Мы над этим работаем.

Интереса ради, какого рода некоммерческую информацию Вы хотели бы видеть по этому запросу?
Никем не спонсированные сравнения разных моделей, отзывы на работу фирм-производителей и фирм-установщиков, что-то еще?
Я бы по этому запросу хотел видеть что-то нападобии описания товара в контрольной закупе, то есть:
кто из придумал, для какого климата какие модели окон наиболее подходят, какие материалы применяются, чего следует избегать при выборе окон и на что обращать внимание. То есть что-то, что помогло бы сделать правильный выбор.
Ммм. Это не для поисковиков на их текущем уровне развития. Вы говорите об умной энциклопедии.

А то что реально уже сейчас и очень просто - поисковую выдачу отсортированную по объективным причинам, а не по принципу кто больше заплатил.
Ошибаетесь, путь к этому закладывается сейчас. Гляньте на nigma.ru по зпросу халькопирит. Там слева отображаются параметры менерала. Чем пластиковые окна не схожи с камешком? У них, мне кажется, тоже есть фиксированные параметры, пусть сложнее, чем в предоставленном мною примере, но все же.

Но вот поисковую выдачу отсортировать по объективным причинам - полагаю, наиважнейшая задача яндекса. И на каждый шаг которого в эту сторону владельцы сайтов кричат "Изверги, вы пессимизируете наши сайты, у нас оригинальный дизайн и уникальное содержимое", хотя этот дизайн взят из ворованных баз, содержимое слизано со старого-старого блога.
Что-то меня унесло.
Закончу. Все же, надо не противопоставлять оптимизаторов и яндекс, а сотрудничать с ними, давать инструменты, облегчающие и им, и яндексу работу.
с другой стороны, когда я пытался найти [натрия бензоат], или, скажем, [аморфный бор], чтобы в Питере купить, я листал-листал-листал выдачу, которая пестрела либо описанием соединения, которое я уже и так знал, благодаря сайту из закладок, либо совершенно нерелевантными страницами, где либо Питера не было, либо цены не было, либо "купить" не было...
Lyudmila Kudryavtseva
16 апреля 2010, 19:18
Нигма вообще очень умная, много умеет, но поискового рынка у нее всегда было и остается меньше 1%. Интересно, почему это? :)
Нигма вообще очень умная, много умеет, но поискового рынка у нее всегда было и остается меньше 1%. Интересно, почему это? :)
 Я полагаю, что о ней очень мало знают, в отличии от яндекса, гугла или вконтакта. Гугл развешивает рекламу на улицах питера и о нем вообще со всех углов кричат (особенно в проплаченных популярных бложиках), яндекс, помнится, свою рекламу (по первому?) запускал в которой, кстати, снялся Артемий Татьянович. Одна маленькая и бедная Нигма запускала свою рекламу на небольших детских каналах.
Еще у нигмы не очень удобный сайт.
Еще у нигмы слабоват собственный алгоритм поиска. Хотя может стал получше?
Еще нигма довольно молода.
У Нигмы поиск Яндекса. По крайней мере так писали в бюллетене Яндекса в прошлом году.
Lyudmila Kudryavtseva
17 апреля 2010, 00:32
ой, а покажи, где? это очень странно - чтоб Нигма померла, а я не в курсе?
«Поиск в интернете: что и как ищут пользователи»  Отмечается, что поиск Яндекса установлен также на площадках: Поиск@Mail.ru, QIP, Nigma, Quintura, Ngs.ru и Nnov.ru, Ukr.net и Tut.by.

читать полностью тут
Lyudmila Kudryavtseva
18 апреля 2010, 20:28
ну это они перепиарились слегка
Люда, доклад за прошлый год.. На Майле их с этого года нет, а с остальными как обстоят дела сейчас я не знаю.
Lyudmila Kudryavtseva
18 апреля 2010, 20:44
а какая разница? и в прошлом, и в позапрошлом году Нигма использовала для метапоиска несколько поисковиков, плюс какие-то собственные базы и технологии. А Яндекс бессовестно заявил, что там стоит их поиск. Я таким невероятно обескуражена и хочу теперь прояснить.
Проясни общественности ситуацию. Правда, немного запоздалая обескураженность. Между прочим, в вебмастере Яндекс показывает кл - во переходов с Нигмы.
Lyudmila Kudryavtseva
19 апреля 2010, 10:05
мне бы самой себе прояснить :)
короче, я так понимаю, после истории с Mail.ru (не в смысле "вследствие", а в смысле, по времени) Яндекс решил забрендировать всё, где его выдача пока что использовалась White Label. Нигма не стала выпендриваться и написала у себя на морде "Поиск реализован с использованием Яндекс.XML и др". Выдача у нее, как я уже убедилась, с яндексовской не совпадает.
остается непонятным только то, как Нигма смотрит на такие формулировки в пиаре яндекса.
Я не знаю как на это смотрит Нигма.   Ты можешь у них спросить?
Lyudmila Kudryavtseva
19 апреля 2010, 10:29
ага
Lyudmila Kudryavtseva
17 апреля 2010, 00:34
ну если вы не попали под PR-акции Нигмы - это не значит, что их нет :) Среди студентов и школьников она очень активно продвигается. Я думаю, дело не в том, что вы перечислили. Еще у нигмы слабоват собственный алгоритм поиска а как вы это оценили? метапоисковиков у нас подобных Нигме просто нет - и сравнивать-то не с чем
 
Вы говорите об умной энциклопедии.
Ну так, неужели Яндекс не сумеет? Думаю новое направление движение понятно? ;)
Lyudmila Kudryavtseva
16 апреля 2010, 19:18
даже по самым коммерческим запросам (а [пластиковые окна], несомненно, один из самых коммерческих запросов рунета), нужно показывать какую-то долю документов, которые не являются коммерческими предложениями кому именно нужно? вам чтобы чувствовать себя круче оптимизаторов? или пользователям? а если пользователям, то на основании чего вы так решили? какой процент от запросов про пластиковые окна составляют запросы с желанием исключительно узнать информацию без всяких мыслей о покупке, и как выглядят такие запросы? Никем не спонсированные сравнения разных моделей, отзывы на работу фирм-производителей и фирм-установщиков, что-то еще? вы серьёзно верите, что бывают "неспонсированные отзывы и сравнения"? :) Смотрите, вам тут отвечают на ваш вопрос "что бы вы хотели видеть": "что-то, что помогло бы сделать правильный выбор" совсем некоммерческий интерес, однако :)
вы серьёзно верите, что бывают "неспонсированные отзывы и сравнения"? :)

Хотя бы такие, по которым не сразу очевидно, что они кем-то спонсированы. :)

Lyudmila Kudryavtseva
16 апреля 2010, 21:03
А не лучше ли, чтобы очевидно? :) я большой пессимист в отношении UGC. Я хорошо знаю, что когда всё хорошо, люди молчат, а когда все плохо - ругаются эмоционально, не слишком аргументировано и часто субьективно. Например, из-за того, что окна приехали ставить пьяные монтажники, человек может У СЕБЯ В БЛОГЕ (с меньшей вероятностью на чужом сайте) написать, что сами окна плохие. сразу очевидна неспонсированность как раз наименее интересных для изучения отзывов :) зато если видишь текст, где подробно, мотивировано расписаны плюсы или минусы...
Смотрите, вам тут отвечают на ваш вопрос "что бы вы хотели видеть":
"что-то, что помогло бы сделать правильный выбор"
совсем некоммерческий интерес, однако :)
 А кто спорит, что это комерческий интерес? Может я колеблюсь какие окна ме покупать - с тройным стеклопакетом или с двойным, а на этот запрос поисковик мне выдает сплошные предложения по продаже окон. Чувствуете разницу?
Lyudmila Kudryavtseva
16 апреля 2010, 22:06
так я не с вами спорю, я автору поста выражаю точку зрения, что некоммерческих запросов про пластиковые окна, мягко говоря, мало :)
Или вообще не бывает.
Надо понимать, что  хороший контент как правило кем- от проплачен.
Андрей Белов
17 апреля 2010, 01:06
> Или вообще не бывает.
Это еще сильно завитит от того, что именно считать коммерческим запросом :)
когда яндекс вводил региональность , он стал как раз делить запросы на коммерческие и некомммерчекие. Удивительное дело у них получилось.

Конечно мало. Это же один из самых коммерческих запросов рунета. :-)

Тогда вам сюда там подборка ссылок на сравнения, описание различных технологий, нормативные документы.

Интересная история.
А как Вы догадались про кроссворд в газете? Ведь это должен быть сообщить кто-то, кто делал запрос по врачу.

Оффлайн узнали. Родственники одного из наших разработчиков оказались читателями этой газеты и разгадывателями этого кроссворда.
Может несколько не в тему, но у меняя есть несколько идей относительно поиска, напишу их сюда:
- Может воспользоваться тем что обсуждение (а следовательно и отзывы) того или иного товара происходят приемущественно на форумах, и потом, научив Яндекс отличать форум от не-форума (думаю, с этим проблем не будет), сделать раздел "в отзывах" на ряду с "в словарях","в картинках"...
- Ещё только что хотел посоветовать чтоб при вводе одного слова на нерусской раскладке паралельно с результатом поиска отображался перевод, но сразу проверил - уже реализовано (Спасибо)
- Кроме того, заметил что многие из моих знакомых заходят на популярные сайты, введя их название в Яндексе, наверное, чтобы не запоминать полное название с доменами, или, в некоторых случаях, лень переключить раскладку. Моё предложение сделать какой-то яваскрипт, чтобы при начале ввода самых известных сайтов ("контакт", "вконтакте", "вики...", "зайцев.нет", etc...) выползала ссылка на него, не обрабатывая таким образом лишний раз бессмысленные запросы, от которых требуется всего одна ссылка. Если это будет реализовано, дополнительно удобства добавит быстрый переход по предложенной ссылке какой-то клавишей, чтоб не браться за мышку.

Были ещё какие-то идеи.. забыл.
Если не по адресу пишу, исправьте.
Вообще, если человек что-то хочет купить, то он так и пишет в своем запросе "Купить пластиковые окна", "Цена пластиковых окон" и другие подобные слова. С другой стороны, если ввожу простой запрос "пластиковые окна", то вероятно, что я все же хочу их купить, но еще более вероятно, что я хочу прост найти информацию об окнах, картинки, форумы, где обсуждаются окна, их производителей. Может быть, стоит разграничить продающие сайты и информативные. Если попадутся слова типа "купить", то выдавать в первой десятке 100% продающие сайты. Но если таких слов нету, выводить 50х50 информативные и продающие сайты. В информативных могут быть сравнения, форумы, блоги и т.д. Вот, что я вам предлагаю.
"А ларчик просто открывался!". Просто задай правильно запрос и будет тебе счастье. Замени слово "шкатулка" на "ящик".

Поиск это всегда трудно :-).
На http://duckduckgo.com/ в этом плане интересно сделано -- перед результатами поиска выдается короткая справка о различных значениях запроса, ну да вы наверное видели.
Расклассифицировать результаты на выдаче и каким-нибудь осмысленным образом их сгруппировать - дело хорошее, полезное.

Правда, по некоторым запросам, в которых теоретически может быть очень много разных значений, надо действовать аккуратно, чтобы не переборщить.

Например, на том самом duckduckgo, если спросить, скажем, bond, то можно потеряться в потоке. Но это уже детали реализации, а сама идея, безусловно, достойная.
Забавная и поучительная история, спасибо:)
На "Баше" что-ли было, как сисадмин с удивлением услышал, как бухгалтерши обсуждают, как правильно пишется его пароль к серваку. Он был простов ауте, пока не понял в чём дело: ну не мог он даже предположить, что этот вулкан возьмёт и проснётся!

Офтоп: а нельзя ли сделать темы не только "70-е", но и иные деятилетия. И чтобы по ним можно было перемещаться, как по машине времени?
Шустов Сергей
24 апреля 2010, 09:51

Знаете что я думаю? Все эти комментарии о том, что "нам нужны некомерческие сайты в ТОП" и т.п. Все то в пользу бедных. Сайты не впускают в ТОП что ли просто? :) Пластиковые окна - это комерческий запрос (ну согласитесь 90% людей которые вводят его, все таки хотят видеть наименования и цены), так как поисковик не может удовлетворить 100% населения (при том что 5% совершенно больного будут кричать о том, что им все равно не нравится, даже если им нравится), то и нужно бороться за большинство. Я отмел даже то, что вы попросту зарабатываете бабло, я говорю о поисковиках-людям... Любой запрос товара это почти наверняка комерческий запрос, и говорить о том, что надо полюбому туда всунуть статью которая описывает совершенно безполезную информацию для неподготовленного человека, совершенно безсмысленно. Этим не должна заниматся поисковая система, для этого если менеджер в магазине (еще раз поясню, что запрос то комерческий).

С другой же стороны существуют более мягкие запросы. Например как сказал Роман, человек просто хочет узнать название. Так вот. Для поисковой оптимизации уже в тайтле первого сайта, я уверен на 99% будет это самое название, даже если запрос является комерческим. Для этого мне кажется не надо изобретать алгоритмы новые и все тому подобное. Быть может следует "докрутить" систему исправления ошибок? И подписывать нечто вроде "Маленькая женская сумочка может называться - клатч", как пример для девушки которая ищет маленькую сумочку, но о слове клатч слышит впервые.

Роман, слушала Ваш доклад на Киборифе.  Интересно, спасибо.
:-):-)
Основная ошибка разработчиков Яндекса, которой они в течение многих лет продолжают упорно придерживаться - это стремление достичь принципиально недостижимой цели - выдать некий абстрактно лучший результат для любого пользователя. Им нужно понять, что абстрактно лучшего результата быть не может. Пока попытки выдать такой результат будут продолжаться, будет продолжаться лишь путаница и смешивание в алгоритме различных факторов и постоянные колебания то в одну, то в другую сторону в попытках улучшить абстрактный результат и найти "золотую середину" между отклонениями в ту или другую сторону. Разработчикам Яндекса нужно понять, что их цель - выдать не абстрактно лучший результат, а помочь пользователю найти то, что он ищет. Догадаться самостоятельно, что именно нужно пользователю, алгоритм не может принципиально. Куда лучше сделать максимально удобным процесс поиска и предоставить пользователю возможность самому выбирать и решать, по каким критериям осуществлять поиск. Я бы добавил (как минимум в качестве опции для продвинутых пользователей) возможность самому пользователю выбирать при поиске, что он ищет - товары, информацию, конкретный сайт, текст по цитате и т. п., хочет он сайт только из своего региона или нет и т. д. и т. п.