Блог Яндекса для вебмастеров

Технология «Спектр»

15 декабря 2010, 15:26
Сегодня была запущена новая поисковая программа "Краснодар", в основу которой легла  технология "Спектр".Когда пользователи задают запросы к Яндексу, примерно в 20% случаев они формулируют запрос неоднозначно. Например, по запросу [наполеон] кто-то хочет найти полководца, а кто-то – рецепт торта. А задавая запрос [суши], человек может искать и ресторан с доставкой на дом, и рецепт блюда. Спектр возможных целей может быть очень широк – так же, как и спектр возможных ответов. И если пользователь не указал в поисковом запросе, что он ищет, то понять это крайне трудно.

Сегодня мы внедрили новую поисковую технологию, которая умеет учитывать множество неявных целей пользователей и показывать соответствующие ответы. Новая технология так и называется – «Спектр».

В основе работы «Спектра» лежит статистика поисковых запросов. Система исследует запросы всех пользователей Яндекса и выделяет в них различные объекты – это могут быть имена людей, названия фильмов и книг, модели автомобилей и тому подобное. Каждый объект относится к одной или нескольким категориям. Например, в запросе [колдрекс инструкция] название лекарства «Колдрекс» — объект, который попадает в категорию «лекарства». А объект «Пушкин» относится к двум категориям — «поэты» и «города». На данный момент «Спектр» выделяет около 60 категорий, и это количество будет еще расти. Знание категорий позволяет поисковой системе понимать разные значения слов в поисковых запросах.

Кроме того, «Спектр» умеет учитывать при поиске различные потребности пользователей. У каждой категории есть список возможных потребностей – тех намерений, с которыми пользователи ищут тот или иной объект. Например, когда люди ищут какой-нибудь товар, они, как правило, хотят купить его или почитать отзывы и обзоры. То есть для категории «товары» среди потребностей будут «купить», «отзывы» и «обзоры». Всего у категории может быть от двух-трех до нескольких десятков потребностей.

С учетом того, в какие категории попал объект, что люди обычно про него спрашивают, что пишут в интернете и т.д. «Спектр» оценивает процент людей, которые ищут этот объект с каждой из возможных целей. Эти данные используются при ранжировании результатов поиска по многозначным запросам. Используя их, «Спектр» вычисляет пропорции, в которых ответы на ту или иную тему должны быть представлены в результатах поиска. Найденные сайты упорядочиваются таким образом, чтобы спектр ответов соответствовал спектру вопросов. Таким образом, поиск Яндекса максимизирует вероятность того, что человек найдет именно то, что искал. Даже если он не указал это явно в своем запросе, а просто подумал.

«Спектр» анализирует поисковые запросы полностью автоматически – каждый раз рассматривается очень большой массив запросов, более пяти миллиардов. Их обработка происходит одновременно на нескольких сотнях машин. Чтобы данные не теряли актуальность, «Спектр» запускает процесс анализа несколько раз в неделю.

Кроме статистики запросов, «Спектр» умеет использовать данные из справочников и энциклопедий – в том числе из Википедии. Это помогает распознавать недавно появившиеся объекты, узнавать, какие значения объектов не укладываются ни в одну из существующих категорий, и добавлять новые.
47 комментариев
отлично, Краснодар :)
Это только для Краснодара работает?
нет, это просто название версии
хорошо бы!, да не так.
И вновь продолжается бой....

Скоро уже, скоро придет гугл и всех съест. А новый алкгоритм  Яндекса только в помощь.
Думаю, что этого мы не дождемся.
По запросу "Краснодар" и "яндекс Краснодар" Яндекс показал странички о городе Краснодаре, а я думал о поисковой программе :). Или еще не заработало?
а я то думаю, что за левые слова в сниппетах подсвечены
Ну вот, все-таки к запросам применяется классификатор, причем несколько.

Думаю на транзакционных запросах это не отражается, так как по ним явно чего ожидает пользователь поиска, а вот по общим и брендовым... есть материал для анализа :)


яндекс наконец-то рассказал как он использовал вордстат уже 2 года
"анонсировав" алго красноярск. :)
на серче спорят что же показывает вордстат :)
дебилы до сих пор думают, что это показы...

на самом деле, качественный скачек стал возможным во многом благодаря википедии, чья структура коррелирует с вордстатом по правой колонке. Обобщив совпадения, яндекс внес корректировку и теперь ТОЧНЕЕ понимает цель вводившего запрос (+ собранные поведенческие помогли).
Я предлагал сделать яндексу поиск из 2-х строк, одна из которых будет цель. но видимо, с нынешней тупизной юзера 2 строки поиска не коррелируют...и не будут до стогнации их числа...
Яндекс ты меня удивляешь, советую почитать
http://forum.searchengines.ru/showthread.php?t=581305&page=11
Такого неуважения к своей аудитории я не ожидал вовсе..
Извините меня, если вы делаете выдачу на основе поведения википедиков = мне не место в этой поисковой системе. Если пользователь с отсталым развитием не может сформулировать запрос нормально - пусть он лучше останется без информации, чем засорять фигней серп..
Имхо не катит, бэкапа народу бэкапа!
выдачу на основе поведения википедиков

не на основе, а учитывая, и если быть точным, то не поведения википедиков, а структуру ссылок в википедии.
С поведением лишь коррелирует, исходит больше от раскрытия тематики, т.е. статическая вещь, не динамическая. Вот именно эта статика яндекс и интересует.

Если пользователь с отсталым развитием не может сформулировать запрос нормально

а вас не удивит, что ПРОЦЕДУРА поиска, что это И ЕСТЬ формирование у юзера понимания того, что он на самом деле хочет?

Недаром же ВЧ запросы существуют...в принципе...
То есть пользователь сначало чего то хочет, а уже потом понимает то, что он уже хочет? Да... похоже мир действительно произошел от обезъян - еще одно доказательство. Когда я начинаю искать я уже знаю что я хочу и могу сформулировать запрос. Я хочу в кино : "билеты в кино цены", "кинотеатры твери". Что еще нужно?
я не говорю про поиск истины, человек который ищет истину в интернете и в процессе уже формирует "понимание" истины - обречен на провал ибо у каждого она своя, у Яндекса она расходится с моей. С недавних пор причем.
То есть пользователь сначало чего то хочет, а уже потом понимает то, что он уже хочет?
Да...именно так и происходит....и так и должно быть, обезьяны сдесь не при чем.


Когда я начинаю искать я уже знаю что я хочу и могу сформулировать запрос

тогда бы на какой сайт бы вы не пришли, вы посещали бы на нем лишь одну страницу, именно с тем, что вам нужно...
предположим, вы пришли на форум, желая узнать хорош ли холодильник стинол. вы нашли что хотели, и узнали, что самсунг лучше. Вы изменили свое мнение и теперь пошли искать холодильник самсунг.
Т.е. просматиривая информацию на сайте, вы догоняете, что на самом деле вам нужно другое и это другое лучше. Понимаете о каком процессе я говорю?
грубо конечная цель вашего поиска зависит от самого поиска и того, что вы там найдете.
и это НОРМАЛЬНАЯ ситуация.
Подождите товарищь, это как я попал на форум, вогнав туда (в поисковик) слово холодьник что ли? Мля, тогда щас забью туда "Жена!" почитаю форум и женюсь, о чем речь? Если я ищу что-то, я это конкретезирую а не смотрю в монитор реакцию на одно слово "холодильник" как мартышка! (обезьяны тут еще как причем!).
Если я ищу холодильник, я сначала запрошу: "параметры и критерии выбора холодильника", потом основываясь на своих возмоностях (деньгах в кармане) на Яндекс.Маркет посмотрю цены, и если я тупой и не увижу там отзывов, то я запрошу: "Холодильники Samsung отзывы" и найду то, что МНЕ надо, а не то что МНЕ ГОВОРЯТ что мне надо. Надеюсь я понятно выразил свою мысль о великий источник истины ? :D
Мля, тогда щас забью туда "Жена!" почитаю форум и женюсь, о чем речь?

примерно об этом.

вы упорно отрицаете факт влияния прочитанного на формирование вашего конечного желания.
Вы упорно не понимаете что у меня уже есть желание, желание поесть и на это желание никто не может повлиять, что я поем зависит от меня и от обстоятельств, но в большей степени от меня.Бред имхо! Вы упорно не понимаете разницы между: желанием и мнением. Если я думаю что самсунг гавно, потом читаю отзывы что самсунг супер - возможно я прислушаюсь к мнению пользователей, если они адекватные. НО в большей степени я ориентируюсь на свой жизненный опыт, а не на Яндекс и его выдачу.
К примеру можно по быстрому найти шаварму - потом два пальца в рот и смотрим что кушали. А можно потерпеть но найти то, что нужно и то, что хотели. Так давайте сделаем так, чтобы второй можно было найти быстро: те кто жрет хрень - пусть натыкаются на мусор, те кто хочет лакомиться - пусть питаются здоровой пищей а не бредовыдачей.
вот тебе дверь. уходи.
Мне не нравится ваша розовая кофточка коричневая дверь, ваши сиськи шутки и ваши вопросы указания. Я уйду!
но я не уйду, взяла и вышла отсюда вон! :-)
А мне все нравится, здорово получилось, - особенно выдача запроса Рояль радует ;-)
ага, полный баян какой то вышел а не "рояль" - собачий корм роял конин из свежей конины и свежего рояля :-D
Название предлагаю сменить на "Сочи" - напоминает ситуацию на берегу этим летом да и вообще каждым - в выдаче сейчас почти тоже самое - бардак...
:-)С интересом ждем продолжения
За "Краснодаром" сообщество не заметило другую, быть может более важную новость - ПОЯВИЛАСЬ Яндекс-Недвижимость!
Главное то, что этот сервис типичный ДОРВЕЙ который перенаправляет посетителя на другие сайты в зависимости от региона расположения недвижимости.
Это как понимать?!
это значит как в пословице: что русскому можно, то немцу смерть ))
типа мы все немцы и один яндекс русский


 Главное то, что этот сервис типичный ДОРВЕЙ который перенаправляет посетителя на другие сайты

Так вроде основное предназначение Яндекса как раз в том и состоит, что бы перенаправить посетителя на другой сайт.

 

Я посностью согласен с Вашим утверждением ТОЛЬКО  в той части предназначения Яндекса, которая касается его ПОИСКА! Достоинства ранжирования и новый алгоритм "Краснодар" поисковика мною сейчас не обсуждается.

Сервис Яндекс-Недвижимость, как я понимаю, с ОСНОВНОЙ функцией поисковика Яндекс (выдавать релевантные страницы на запрос пользователя) не связан! Выдаются не релевантные СТРАНИЦЫ, а происходит перенаправление посетителя на САЙТ-АГРЕГАТОР (сайт собирающий информацию из других источников и называющий себя "базой недвижимости" в регионе N). При этом, в большинстве случаев нарушается и другое правило установленное Яндексом по отношению к сайтам-партнерам:
"В объявлении должна содержаться следующая актуальная информация: дата размещения, адрес, описание объекта, цена, контакты".
Контактов, как правило либо нет, либо в качестве контактов указаны контакты сайта (компании) -донора, а не первоисточника! Московский донор в качестве "контактов", не сообщает телефон продавца, а наоборот просит сообщить ему номер мобильного телефона посетителя сайта. Как в анекдоте: "Абрам, почему вы всегда отвечаете вопросом на вопрос? - Раазве!?"
Это основное предназначение Яндекса?

ДОРВЕИ, с которыми официально Яндекс борется, создают дополнительный трафик, вводят посетителя в заблуждение. Яндекс-Недвижимость создает дополнительный трафик САЙТАМ-донорам как типичный дорвей. Посмотрите как изменилась их посещаемость после подключения к новому сервису Яндекса. А все говорят о тренде к ПОВЕДЕНЧЕСКОМУ ранжированию!!
Это больше напоминает "управляемую демократию".  
Полностью с вами согласен. Впрочем на серч энджинс меня поперли за схожие утверждения в ветке апдейтов и потерли мессаги. Может я и критичен на счет спектра, но ему слишком много внимания в последнее время уделяют. А под шумок Яндекс нарушает свои собственные правила и это факт. Правда на счет недвижимости ситуация была ожидаема...Года 2 назад над этим шутили с друзьями под пивко...

"Вот оно как Михалыч" (с)
На мой взгляд, Яндекс сделал только первый шаг "на счет недвижки"... Этот и последующие шаги Яндекса, как мне видится, согласованы с единым решением "партии и правительства" по введению с 2013 года РЫНОЧНОГО налога на недвижимость... Только эти шаги плохо вяжутся со свободной конкуренцией и напоминают телодвижения Слона в посудной лавке. Хотелось бы ошибиться в своих "видениях". 
Я как агент по недвижимости скажу, что cian_точка_ru (основной поставщик трафика для яндекс карт) давно юзает яндекс, и это не мудрено. Яндекса просто жаба давит. Скорее всего и он решил просто открыть новый сервис, который сыроват пока,  т.к. нового ничего не смогли придумать. Куча "левых объявлений" об аренде в Москве. [:]|||||||||[:] Все так и будут пользоваться цианом, т.к. привыкли, и недвижимости ничего не светит. Еще одна очередная "мусорка заманушных объявлений". B-)
Радиус действия ЦИАН ограничен МКАД. На мой взгляд, Яндекс задуман как ВСЕРОССИЙСКИЙ современный портал. Поэтому ЦИАНОМ сейчас попользуются, а когда Яндекс наберет силу (если это случится), то про ЦИАН забудут. Этот портал вчерашний день по многим критериям... Яндекс его задушит и переплюнит.
Ахах! Как раз нет) Недавно, около полугода назад Циан стал общероссийским, хотя это нужно было сделать еще года 2 назад как минимум. Вопрос в другом, яндекс видимо загородил все что дальше мкада. Согласен что циан идет медленно и вспотыкается). Я патриот и верю в Яндекс. Давно пользуюсь яндексом еще с 1997 года. Все удобно и главное просто.
Насчет циана - А почему вчерашний? интересно как агенту? 
Юзабилити, навигация, торможение (относительно выхода за МКАД в том числе)... ценовая политика... кроме аренды актуальнее (и марженальней) купля-продажа...
Патриотизм, это хорошо! Но он должен основываться на реалиях сегодняшнего дня и вменяемой концепции. У Яндекса, на мой взгляд, все как в нашей стране... Отсюда события 11 декабря на Манежной площади. Говорим одно (т.н. лицензии, общие правила, соглашения), а на практике сплошные ДОРВЕИ. Главное выход из созданной самим Яндекс.недвижимости ситуации: либо тупик (все останется как есть), либо "кидалово" союзников - цианов, виннеров и пр. попутчиков.
Минимальные вложения в альтернативный проект, либо вменяемая концепция Google на тему российской недвижимости и проект Яндекса будет сравним с аналогичными проектами Рамблера и Mail.ru. Получится пшик.
) Полностью согласен насчет юзабилити, в этом Яндекс немного выигрывает, но Циан, виннер и т.д. изначально позиционировали себя как "Базы". А говорить о  юзабилити в базе как-то совсем не правильно)) Я счтаю, что на Юзабилити как раз Яндекс и хотел выделиться, а что мы имеем? Правильно - Дорвей) ахах! и попадаем опять в "базу". Кинуть союзников будет сложно, т.к. без них это не Я.Н. Насколько мне помнится, раньше циан  работал с гуглекартами. Мне кажется для хорошего стартапа этого проекта нужна рекламная пиар компания, а не простой заголовок в новостной ленте. Никто не знает о Я.Н. а про циан знают все.

Лирическое отступление:
Раньше слово Циан стоило денег, т.е. ЕСЛИ клиент услышал это слово можно было сказать ему "досвидания". Зачем агентство, если есть циан?
"Только тихо никому не говори про циан" - можно було услышать несколько лет назад. Сейчас все наоборот. Интернет пришел в жизнь остальных 80% (цифра из головы :-) ) процентов "пещерных людей", которые кроме газеты в руках ничего не держали))

Что мы имеем? Лично я как агент зайдя на яндекс.недвижимость ощетил интерес к данному сервису, но когда увидел что в топе объявлений по определенному району стоят варианты по 15.000 рублей за "однушку в москве" (аренда) сразу словил такую вот мысль:

"Очередной Маил.ру". Не Успели по радио сказать, что яндекс запустил новый сервис как сотни агентств уже заранее подготовили "заманушные" объявления по аренде и продаже.

Эпилог: Порядка не будет. Считаю что еще развиваться и развиваться Янедексу в этом направлении.

Фух, выговорился  
Наши эпилоги-некрологи практически дословно совпали. За исключением одного - Я.Н. сделал только первый шаг. Однако на этом он, я подозреваю, не остановится. Для превращения в нормальный (не дорвейный) сервис Я.Н. должен "преобразоваться" в ЦИАН и пр. базы с прямыми контактами собственников...
Если Я.Н. станет работать с прямыми собственниками -  воот это будет качество! Циан уйдет в лету.
Семен Воронкин
15 декабря 2010, 17:35
Серьезная новость. И такая краткая..
Вот тут подробней сеопультовцы расписали:
http://blog.seopult.ru/krasnodar/
Хорошо. Неожиданно... будем тестировать) Выпали кое-какие страницы из вашей базы данных, надеюсь вернут.

А почему бы не дать ищущему возможность самому выбирать категорию? Примерно как на нигме-ру.


Зачем при поиске выдавать все составляющие спектра, они ж просто не нужны, если конечно нет желания полюбоваться на этот спектр во всем его великолепии. Для кого это сделано? *риторически* Для виртуального "среднего" ищущего? Полтора землекопа получается.


Человеку при поиске нужна не эта "температура по больнице", а выдача по его конкретной категории.

Не. ИМХО не вариант. Категории ограничивают поиск, сразу начнутся возмущения мол что-то пропустили и т.п.. Для сокращения выдачи "температуры по больницы" достаточно немного фантазии, а если оной не наблюдается, то последующий поиск "в найденном".

Оставляя в стороне критику... Из текста поста я не понял, будут ли кластеризовать спектром выдачу на все запросы, или только на 20% дибильных/неоднозначных.


 


Категории ограничивают поиск.

Только если пользователь захочет ими воспользоваться. Для того и нужны.

"Температура по больнице" меня смущает только, если она будет занимать все верхние 10-20-... позиций. То есть до нужной ветки (составляющей) "спектра" в каких-то случаях нужно будет ещё докопаться, если она вообще есть. Несколько аляпавотым полурешением могло бы быть визуальное разделение разных составляющих спектра в выдаче (легче искать будет нужную моду в спектре).


Мне казалось, что что-то типа "спектра" у гугла давно есть. И выглядит это несколько иначе. Несколько верхний позиций в выдаче занимают по сути "топы" по разным "направлениям" неоднозначного вопроса. По одному "топу" на каждое направление. Получается выдача для тупых или ленивых (кому лень уточнять запрос, но устроит лучший по мнению гугла вариант ответа на запрос). Но это только несколько первых позиций в ответе на запрос. Такой вариант у меня вопросов не вызывает.


Всё бы это ерунда в принципе, если бы всегда можно было слёту уточнить запрос. Но иногда при поиске поначалу даже нужных словов не знаешь. (как называют этакую штуку... понимаю, сказать не могу) Но часто можно их (слова) обнаружить непосредственно в описании найденных документов на странице поиска. Если поначалу при поиске используешь неправильные слова, то "Спектр" скорее всего уведет нужные отрывки текста на n-ю страницу.

а как вы назвали эту смену в Беларуси?
Прошлая была Барановичи....

Значит на И

Ивацевичи?

А не лучше еще добавить пользователю подсказку, что Яндекс может предложить уточнить запрос "Уточните вы искали ПОЭТЫ или ГОРОДА ?"


Для пользователя куда проще указать (при желании) уточняющий вопрос (который он сам не додумался забить в поиске), чем рыться в результатах, половина которых ему не важна

не нравится мне этот алгоритм... Траф на сайтах просто обрубило...
kukoleff.serzh
5 мая 2011, 17:11

Страна советов.

Каждый тематический  документ формируется автором в соответствии с
определёнными правилами. Эти правила, как и стиль изложения, задаётся
и описывается на примерах документов каждой тематики в терминах структуры и связей между ключевыми понятиями и
словами. Это позволяет сразу находить предметные соответствия. Предметность определяется наличием общего и частного понятия в одном
тексте, например, [авто-объявление]. Все слова можно проиндексировать по
степени общности или конкретики, выдавая результаты уже связного поиска. Опционально.