Алгоритм «Палех»: как нейронные сети помогают поиску Яндекса

2 ноября 2016, 11:00

Мы запустили новый поисковый алгоритм — «Палех». Он позволяет поиску Яндекса точнее понимать, о чём его спрашивают люди. Благодаря «Палеху» поиск лучше находит веб-страницы, которые соответствуют запросам не только по ключевым словам, но и по смыслу. За сопоставление смысла запросов и документов отвечает поисковая модель на основе нейронных сетей.

«Длинный хвост»

Каждый день поиск Яндекса отвечает примерно на 280 миллионов запросов. Какие-то из них, например [вконтакте], люди вводят в поисковую строку практически каждую секунду. Какие-то запросы уникальны — их задают один раз, и они, возможно, больше никогда не повторятся. Уникальных и просто редких запросов очень много — около ста миллионов в день.

График частотного распределения запросов в Яндексе часто представляют в виде птицы, у которой есть клюв, туловище и длинный хвост. Список самых распространённых запросов не особо велик, но их задают очень-очень часто — это «клюв» птички. Запросы средней частотности образуют «туловище». Низкочастотные запросы по отдельности встречаются чрезвычайно редко, но вместе составляют существенную часть поискового потока и поэтому складываются в «длинный хвост».

Новый алгоритм позволяет поиску Яндекса лучше отвечать на сложные запросы из «длинного хвоста». Такой хвост есть у сказочной Жар-птицы, которая часто появляется на палехской миниатюре. Поэтому мы дали алгоритму название «Палех».

Запросы из «длинного хвоста» очень разнообразны, но среди них можно выделить несколько групп. Например, одна из них — запросы от детей, которые пока не освоили язык общения с поиском и часто обращаются к нему как к живому собеседнику: [дорогой яндекс посоветуй пожалуйста новые интересные игры про фей для плантика]. Ещё одна группа — запросы от людей, которые хотят узнать название фильма или книги по запомнившемуся эпизоду: [фильм про человека который выращивал картошку на другой планете] («Марсианин») или [фильм где физики рассказывали даме про дейтерий] («Девять дней одного года»).

Особенность запросов из «длинного хвоста» в том, что обычно они более сложны для поисковой системы. Запросы из «клюва» задают многократно, и для них есть масса разнообразной пользовательской статистики. Чем больше знаний о запросах, страницах и действиях пользователей накопил поиск, тем лучше он находит релевантные результаты. В случае с редкими запросами поведенческой статистики может не быть — а значит, Яндексу гораздо труднее понять, какие сайты хорошо подходят для ответа, а какие не очень. Задача осложняется тем, что далеко не всегда на релевантной страничке встречаются слова из запроса — ведь один и тот же смысл в запросе и на странице может быть выражен совершенно по-разному.

Несмотря на то, что каждый из запросов «длинного хвоста» по отдельности встречается крайне редко, мы всё равно хотим находить по ним хорошие результаты. К решению этой задачи мы привлекли нейронные сети.

Семантический вектор

Искусственные нейронные сети — один из методов машинного обучения, который стал особенно популярен в последние годы. Нейросети показывают отличные результаты в анализе естественной информации: картинок, звука, текста. Например, нейронную сеть можно обучить распознавать на изображениях те или иные объекты — скажем, деревья или собак. В ходе обучения ей показывают огромное количество картинок, где есть нужные объекты (положительные примеры) и где их нет (отрицательные примеры). В результате нейросеть получает способность верно определять нужные объекты на любых изображениях.

В нашем случае мы имеем дело не с картинками, а с текстами — это тексты поисковых запросов и заголовков веб-страниц, — но обучение проходит по той же схеме: на положительных и отрицательных примерах. Каждый пример — это пара «запрос — заголовок». Подобрать примеры можно с помощью накопленной поиском статистики. Обучаясь на поведении пользователей, нейросеть начинает «понимать» смысловое соответствие между запросом и заголовками страниц.

Компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. Мы научили нейронную сеть переводить миллиарды известных Яндексу заголовков веб-страниц в числа — а точнее, в группы из трёхсот чисел каждая. В результате все документы из базы данных Яндекса получили координаты в трёхсотмерном пространстве.

Вообразить такую систему координат человеку довольно трудно. Давайте упростим задачу и представим, что каждой веб-странице соответствует группа не из трёхсот, а из двух чисел — и мы имеем дело не с трёхсотмерным, а всего лишь с двумерным пространством. Тогда получится, что каждое число — это определённая координата по одной из двух осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости.

Точно так же в набор чисел можно перевести и текст поискового запроса. Другими словами, мы можем разместить запрос в том же пространстве координат, что и веб-страницу. Замечательное свойство такого представления состоит в том, что чем ближе они будут расположены друг к другу, тем лучше страница отвечает на запрос.

Такой способ обработки запроса и его сопоставления с вероятными ответами мы назвали семантическим вектором. Этот подход хорошо работает в тех случаях,  когда запрос относится к области «длинного хвоста». Семантические векторы позволяют нам лучше находить ответы на сложные низкочастотные запросы, по которым имеется слишком мало пользовательской статистики. Более того, представляя запрос и веб-страницу в виде вектора в трёхсотмерном пространстве, мы можем понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова.

Мы начали использовать семантический вектор несколько месяцев назад, постепенно развивая и улучшая лежащие в его основе нейронные модели. О том, как мы обучали нейронную сеть преобразовывать запросы и документы в семантические векторы, читайте в блоге Яндекса на «Хабрахабре».

Дальше — больше

Семантический вектор применяется не только в поиске Яндекса, но и в других сервисах — например, в Картинках. Там он помогает находить в интернете изображения, которые наиболее точно соответствуют текстовому запросу.

Технология семантических векторов обладает огромным потенциалом. Например, переводить в такие векторы можно не только заголовки, но и полные тексты документов — это позволит ещё точнее сопоставлять запросы и веб-страницы. В виде семантического вектора можно представить и профиль пользователя в интернете — то есть его интересы, предыдущие поисковые запросы, переходы по ссылкам. Далёкая, но чрезвычайно интересная цель состоит в том, чтобы получить на основе нейронных сетей модели, способные «понимать» семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека.

143 комментария
Подписаться на комментарии к посту
Бакалов Игорь
2 ноября 2016, 11:25
>> Уникальных и просто редких запросов очень много — около ста миллионов в день
Это имеется ввиду относительно задаваемых в день 280 миллионов запросов? Если не секрет, если взять не день, а скажем месяц, как изменится это соотношение?
Бакалов Игорь,
Никак, недавно они говорили на конфе что почти 50% запросов - уникальны на всем протяжении запросов. 
Бакалов Игорь,
Если написать проще машина не понимает прочитанного, и не поймет до изобретения искусственного интеллекта.

Трамп, опять яйцеголовые всех подставили.

Медведев, следи за реакцией в твиттере, президенту США нравиться мой образ мысли.  Я могу потребовать отставки премьера РФ, он назвал меня роботом-манипулятором.

Пользователь то точно должен уметь понимать, у вас что нет индекса всех страниц.
Назовём алгоритм Палех II
Как круто!!!
mrusaleva,
О да! концовка особенно впечатляет.
Главное что бы это нормально работало, а не как обычно..)
ИМХО, у нейронных сетей низкая надежность, ввиду чрезвычайной сложности алгоритмов. Проще говоря, ИИ часто сходит с ума. Пример: Мегаиндекс пытается определять естественность ссылок с помощью алго на нейронных сетях. Пока пальцем в небо - об этом есть моя статья на форуме SeoPravda.ru - "SEO-2016 в Казани - доклад Николая Хиврина "Алгоритмы выявления SEO ссылок""
Комментарий удалён
nizhesergej,
ну как бы есть очень много примеров где нейронные сети используются очень эффективно, а ровняться на мегаиндекс это просто край безумия

nizhesergej,
Ты дядя реально одолел, никуда не деться от твоих высказываний, безосновательных на самом деле - "из пустого в порожнее"... Надоел.
kc7275,
)))))))))))))
kc7275,
"Тебя гонят на серпе как худшего Seo-шника всех времен, так ты сюда приперся!!!" - сколько справедливого пролетарского гнева, спасибо за неравнодушие и яркие эмоции. Одна поправка - это я многих особо эмоциональных оппонентов по Серпу выдачи ПС гоняю и подвигаю за ТОП10, вот нервишки-то и шалят :)
nizhesergej,
Нижегородцев? опять ты!??
dmitri.zaporozhets
2 ноября 2016, 12:10
Алгоритм работает только с заголовками страниц или просто в статье пример на заголовках приведен?
dmitri.zaporozhets
2 ноября 2016, 12:13
И каков процент влияния этого алгоритма в общей оценке релевантности документа запросу? 
dmitri.zaporozhets,
написано - трехсотмерный вектор. 300 факторов.
dmitri.zaporozhets
2 ноября 2016, 13:01
elrond-elf,
написано "Мы научили нейронную сеть переводить миллиарды известных Яндексу заголовков веб-страниц в числа — а точнее, в группы из трёхсот чисел каждая". То есть, трехсотмерный вектор для заголовка. А я спрашиваю про остальной документ и остальные факторы. Смотрится ли остальной документ или только заголовок? И каков вклад семантического вектора в общую оценку релевантности документа запросу? Не перешли же они по НЧ запросам на ранжирование только по результатам этого работы алгоритма. Остались же и остальные факторы ранжирования.
А вообще, RankBrain Гугловский напоминает.
Света Чистякова
2 ноября 2016, 14:13
Дмитрий, здравствуйте. Сейчас учитывается заголовок веб-страницы. Насчёт прочих факторов — они, конечно, остаются в игре, в том числе и в случае с запросами из хвоста.
dmitri.zaporozhets
2 ноября 2016, 14:37
Света Чистякова,
спасибо за ответ. А вот относительно всех факторов насколько велика доля семантического вектора?
dmitri.zaporozhets,
это можно читать как намёк на то, что скоро в продвижение заточенными под seo title-ми придёт изрядный рандом, как сейчас с бандитом на выдаче)
Света Чистякова,
эксперименты на людях на предмет качества поиска проводили с репрезентативной выборкой?
Света Чистякова
4 ноября 2016, 01:00
Что-то меня немножко пугает фраза «эксперименты на людях» (но экспериментов точно было много).
Интересно, если ИИ будет уделено большое влияние на выдачу не повлечет ли это "консервацию" самой выдачи, когда все побегут делать однотипные документы?
in@seolt.ru,
Вполне вероятно, алгоритм не будет полагаться только на соотношение тайтла и запроса, есть ещё 800+ (по словам Яндекса) факторов, так что консервации не должно быть.
webdivision.ru,
сейчас многие из этих 800+ параметров сильно ниже по степени значимости по сравнению с заголовками.
Сергей Штыкалов
2 ноября 2016, 12:32
Как Word2Vec от Google https://code.google.com/archive/p/word2vec/
Сергей Штыкалов,
"Из научных публикаций известно довольно много подходов к решению проблемы. Вероятно, самым простым методом здесь является представление текстов в виде векторов с помощью алгоритма word2vec (к сожалению, практический опыт говорит о том, что для рассматриваемой задачи это довольно неудачное решение). " (с) https://habrahabr.ru/company/yandex/blog/314222/
Так алгоритм применяется только к длинным запросам или ко всем?
Света Чистякова
2 ноября 2016, 15:11
Здравствуйте. Семантический вектор — один из более тысячи факторов ранжирования. Решение, когда именно его следует пустить в дело, принимает Матрикснет. Безусловно, семантический вектор может учитываться (и в лучшую сторону влиять на выдачу) и при ответе на высоко- и среднечастотные запросы, но самые заметные результаты он показывает на низкочастотных запросах.
Света Чистякова,
а на сколько в процентах лучше стала работа с вводом нового алгоритма?
Алгоритмы поиска идут вперед! Спасибо за интересную статью!
ОГО
Почему то в голове сразу есть мысль, что весь этот принцип работы алгоритма можно будет накрутить и обмануть.
witalik6662008,
потому что вы из России и ещё, возможно, занимаетесь SEO)
Не нравится, что игра «В города» с названиями алгоритмов перестала быть игрой. Боремся с этим: http://www.pixelplus.ru/samostoyatelno/stati/prodvizhenie-saytov/algoritmy-ranzhirovaniya-yandex.html

Спасибо за анонс и движуху -)
kakBacTam,
 Всё пропало? , может это не-до-алгоритм Палех, т.к. работает не на всем объеме запросов?
amitnik,
Назвать его тогда: кПалех?
[дорогой яндекс посоветуй пожалуйста новые интересные игры про фей для плантика]
demonich2,
Ничего Яндекс не посоветовал. Только какие то одевалки  Винкс. И что такое Плантик?
demonich2,
Google, правда, вообще игр не показал, только новости.
Света Чистякова
2 ноября 2016, 14:07
Здесь плантик — планшет (запрос настоящий, задан знакомым ребёнком).
Света Чистякова,
сам слышал как моя дочь (5лет) спрашивает планшет "- Гугл как мне стать умной?"
Света Чистякова,
Будет ли показан Директ по запросу [марсианин], если пользователь задал [фильм про человека который выращивал картошку на другой планете] ?
Света Чистякова,
 не находите странным, что пока плантик и планшет яндекс не сопоставляет?
Света Чистякова
4 ноября 2016, 00:58
Не-а, не нахожу:). Скорей даже наоборот. Плантик — неологизм, подслушанный у конкретного ребёнка. Я допускаю, что такое слово могут использовать и другие дети, но в том возрасте, когда они в интернете широко не присутствуют: не пишут на форумах, не комментируют в соцсетях. То есть в сети нет материала, на котором можно сделать вывод, что плантик — это планшет. Посмотрите выше по ветке — даже человеку может быть непонятно, что это такое. При этом поиск, несмотря на обилие посторонних слов, в целом понимает, что цель запроса — поиск игр.
Света Чистякова,
Действительно, чудо, что поиск понимает игры, как цель запроса, содержащего фразу "новые интересные игры". Это ли не подтверждение его гениальности)
Будет ли показан Директ по запросу [марсианин], если пользователь задал [фильм про человека который выращивал картошку на другой планете] ?
demonich2,
)))) улыбнуло.
demonich2,
Зачет)))
Выход нейронной сети используется как один из множества факторов? Т.е. МатриксНету добавили еще один малюсенький сигнал?
Dmitry Zhokhov,
это один из факторов для Матрикснета. И он отлично проявляет себя на длинном хвосте запросов. На Хабре есть примеры с числами. 
Павловская Наталья
2 ноября 2016, 13:19
Вопрос немного не в тему. А вы же выбрасываете предлоги и всё такое, да?
Как мне найти например "картинки БЕЗ котиков"?
Это получается не учитывается и в чемантическом пространстве они лежат там же, где картинки с котиками.
Есть подходы к учёту информации из служебных слов? 
Павловская Наталья,
запрос [домашние животные -котики] отфильтрует пушистых вредителей. 
Павловская Наталья
2 ноября 2016, 14:08
Тимур,
Спасибо, так, конечно работает) Но вопрос именно в понимании естественного языка.
Гугл тоже не может предлог обработать, даже на английском.
Павловская Наталья,
предлоги давно обрабатываются без принудительного включения.

Даже на заданном примере неплохо видна разница, в т.ч. с подсветкой предлогов.
Ставим 50 результатов по запросу, вводим фразу и через Ctrl+F подсвечиваем предлоги:

- заданный вариант:

https://yandex.ru/yandsearch?ei=UTF-8&clid=2101082&text=%D0%BA%D0%B0%D1%80%D1%82%D0%B8%D0%BD%D0%BA%D0%B8%20%D0%B1%D0%B5%D0%B7%20%D0%BA%D0%BE%D1%82%D0%B8%D0%BA%D0%BE%D0%B2&lr=213&redircnt=1478193475.1


- без предлога:
https://yandex.ru/yandsearch?ei=UTF-8&clid=2101082&text=%D0%BA%D0%B0%D1%80%D1%82%D0%B8%D0%BD%D0%BA%D0%B8%20%D0%BA%D0%BE%D1%82%D0%B8%D0%BA%D0%BE%D0%B2&lr=213&redircnt=1478193464.1


- включая предлог "с":
https://yandex.ru/yandsearch?ei=UTF-8&clid=2101082&text=%D0%BA%D0%B0%D1%80%D1%82%D0%B8%D0%BD%D0%BA%D0%B8%20%D1%81%20%D0%BA%D0%BE%D1%82%D0%B8%D0%BA%D0%B0%D0%BC%D0%B8&lr=213&redircnt=1478193567.1

Надеюсь, в конце концов, всё это поможет однозначно определить что появилось раньше - яйцо или курица. 
Удачи!.
Ребя все звучит крайне круто! А если к этому еще и анализ поведения человека прибавите, цены не будет. То есть каждый человек вводя НЧЗ как бы стреляет в тире и от попытке к попытке пристреливается на вашем сервисе. Может как идея анализировать эту стрельбу )))
Смогарёв Кирилл
2 ноября 2016, 14:34
Вписываем в Title «маркеры», пишем/корректируем тексты по LSI. По ссылкам, думаю, аналогично.
А раньше эти новые запросы не группировались и не обрабатывались? :-)
Света Чистякова
2 ноября 2016, 14:58
Обрабатывались, конечно. Это история не про то, что «научились отвечать», а про то, что «стали лучше отвечать» — то есть учитывать то, чего, возможно, не учитывали раньше. Совершенствование алгоритмов, в общем.
Яндекс, спасибо! Алгоритм работает на все типы запросов? Попробовал ввести запрос "автомобиль со львом на эмблеме" - документов с "Пежо" или "Peugeot" в заголовке не нашлось пока что(
Второй вопрос: сейчас алгоритм работает только с заголовками страниц, но не с текстами? 
Света Чистякова
2 ноября 2016, 19:55
Антон, здравствуйте. Прямой ответ необязательно должен содержаться в заголовке, он может быть и в теле документа. Я проверила: мне кажется, сейчас выдача по вашему запросу вполне релевантная. Да, «Палех» работает с запросами и заголовками документов, но это только один из факторов; формула ранжирования использует ещё множество факторов и их комбинаций.
Света Чистякова,
спасибо за ответ! Да, выдача релевантная, я согласен, просто ожидал, что сработает "Палех" в данном случае и подмешаются страницы с названием марки в заголовке (ибо их никогда особо и не было в выдаче по таким запросам). Понимаю, что это только один из факторов, призванный улучшить работу текущих. Собственно, ответ я получил, спасибо.


Скажите, есть ли в ближайших планах и с текстами работать по такому принципу?
Света Чистякова
3 ноября 2016, 02:05
Антон, кстати, запрос [автомобиль со львом на эмблеме], вероятно, не из длинного хвоста. Судя по выдаче и похожим запросам, такая формулировка встречается в сканвордах, то есть её ищут довольно часто. Про планы: да, хочется учитывать и тексты. Работа продолжается, ребята обещали рассказывать о результатах.
Света Чистякова,
спасибо! Да, я тоже так подумал потом. А как выделяются запросы, которые можно считать относящимися к "длинному хвосту"? Это запросы, которые в пределах какой-то частотности и не имеющие достаточного количества релевантных страниц без учета "Палеха" и пользовательской статистики? Для указанного запроса число показов весьма небольшое в принципе, но рискну предположить, что по нему может быть какая-то пользовательская статистика, да и страниц релевантных достаточно, как уже выше и отметили.
По текстам: было бы здорово, но понятно, что там совсем другой объем данных. На хабре читал статью, спасибо, будем следить за успехами команды Яндекса)
anton.shaban,
, посмотрите, пожалуйста. 

https://yadi.sk/i/m6uAXiPfy44sa 
page-works,
добрый день. Я видел, но Палех работает с заголовками, я пытался найти пример, где будет ответ на вопрос в заголовке. А в сниппете да, он есть, честь и хвала Яндексу за это, но Палех не отвечает за текст описания в сниппете(
Постарался уложить суть обновления до нескольких предложений, без научной галиматьи) 
http://drb-blog.ru/feedback/novyj-poiskovoj-zapros-yandeksa-palex-chto-realno-pomenyalos.html
Так в итоге, как новый алгоритм позволяет использовать поведенческую информацию по уникальным запросам? Ведь запрос так и остался уникальным, несмотря на то, что вы соотнесли его с заголовками страниц.
Света Чистякова
2 ноября 2016, 17:27
Поведенческая информация используется для обучения нейронной сети. Если люди по такому-то запросу переходят на такую-то страницу (и не сразу уходят с неё), вероятно, эта страница хорошо отвечает на запрос. Эту пару [запрос — страница] (точнее, [запрос — заголовок страницы], мы использовали заголовки) можно считать положительным примером. Плюс отрицательные примеры — как мы их подбирали, подробно рассказывается на хабре. Обучившись на положительных и отрицательных примерах (подобрать которые как раз помогла поведенческая информация), нейросеть научилась выявлять смысловые связи между веб-страницами и запросами, для которых статистики нет.
Ну короче:
кто писал статьи по НЧ, тот выиграл ... ))) 
кто продвигался по ВЧ, тот затеряется в выдаче))))

Написали бы:
какие данные в <meta> будут релевантны???
как изменится выдача wordstat с грядущими изменениями?

 
Vadimslim,
если они раскроют тайну, то все сразу сделают как надо и в итоге Яндекс запутается, как ему теперь выстраивать поисковую выдачу.
Vadimslim,
На картинке у птицы хвост должен быть на голове, а клюв на жо...лтом её окончании, вот и вся суть нового алгоритма, к сожалению результат уже очевиден, можно откатывать алгоритм обратно. Ждем неделю звонков от разгневанных клиентов. Спасибо гугл что живой.
Если количество страниц выдачи огланичить "5" без "дальше", это сэкономит бюджет? "Нашлось 3 млн результатов", существует ли человек, просмотревший результат № 2.000.000? Стоить ли ожидать алгоритма "В точку" ?
Алгоритмы поиска идут вперед! Спасибо за интересную статью!
А основной положительный сигнал обучения нейросетки - время нахождения на кликнутом сайте? Но если выдача будет совсем нерелевантной, то и сигнала не будет. Может научить Палех уточняющие вопросы задавать, мини-диалог с пользователем?
Ну что же, приступим к тесту. Через несколько месяцев повторю поисковый запрос и посмотрим, что покажет выдача.

https://yadi.sk/i/W8Vkm8WIxyjwB 
То есть теоретически получается следующее...

Если раньше была сложность в том, чтобы указать в заголовках страниц как можно больше ключевых слов, но при этом сделать это органично и не переспамить, то теперь достаточно будет грамотно описать в заголовке содержание страницы (необязательно со всеми ключами) и она уже сможет хорошо ранжироваться по всем запросам, которым соответствует ее содержание.


Если так - то круто! )
Добрый вечер.


Подскажите пожалуйста, последнее время по некоторым сайтам наблюдался спад трафика, но при росте позиций. 


Возможно, что это было связно с новым алгоритмом? 


Я говорю не про нч запросы, а по вч и сч
Класс!!!
Мне кажется на графике вообще неудачный пример, или непонятный....или даже фантастический. Потому как вообще не ясно, как лишь с помощью анализа ЗАГОЛОВКА (без учета контента) алгоритм смог определить в словах "Марсианин смотреть онлайн" - что там человек выращивал картошку на Марсе....что-то тут не то...
Дмитрий,
С чего вы взяли, что лишь с помощью анализа заголовка? Семантический поиск не может работать без анализа других факторов. Заголовки и запросы используются в первом входном слое. Дальше идут преобразования векторов первого слоя. На любом дальнейшем этапе используются остальные факторы.
Судя по всему алгоритм работает больше по словам, нежели по смыслу. Стоит чуть чуть поменять запрос и уже ответа нужного нет. 
"фильм про человека который выращивал картошку на другой планете" - показывается марсианин.
"фильм где мужик сажал картошечку на какой-то планете" - уже про Марсианин нет вообще ничего. Хотя смысл фразы такой же, просто синонимизирован первый запрос. 
Скрин выдачи на всякий http://prntscr.com/d2gwlm
Кстати еще запрос по смыслу фильма, но без ответа:
"фильм где человека оставили на другой планете"
На сколько я смотрел, других фильмов с такой же историей нет, по крайней мере в выдаче Яндекс такого не нашел. 
ilya@prandseo.ru,

http://prntscr.com/d30810

все находит
ravnyubogu,
добавили картошечку в словарь, вестимо, теперь находит.


Ждем, когда начнет находить по фразе "фильм где мужичонка сажал картоху на другой планете"
Красиво и круто, жаль что только все это теория. Практика показывает что не работает это все к сожалению. Чет, последнее время выкатывают все "сырое"....
астрологи объявляют декабрь месяцем длинных и глубоких заголовков. Раньше в тайтл кидали ключи, теперь в тайтл будут кидать статью. Нет, конечно, ограничение на длину тайтла есть и будет, однако будет весело.
fogi2000,
"конечно, ограничение на длину тайтла есть и будет" - точно уверены?
Где прописано именно ОГРАНИЧЕНИЕ?
nizhesergej,
пока не доказано обратное - мы оба правы. Title для Яндекса ограничен неограниченными размерами.Я не могу привести пример, где есть информация об ограничения. Вы можете привести пример, где учелся title больше 15 слов или NN символов? )
fogi2000,
"Я не могу привести пример, где есть информация об ограничениях". Так зачем тогда тиражировать мифы - "конечно, ограничение на длину тайтла есть и будет". А примеров полно - изучайте выдачу ПС по НЧ и микроНЧ и будет вам счастье :)
nizhesergej,
не знаю, работает ли сейчас оператор у яндекса $title(""), однако site:hobiz.ru $title("от 02.03.93 nо") выдача отлична от site:hobiz.ru "от 02.03.93 nо". Но, в обоих случаях не отражают title. Длина title больше 200, искомая фраза на 145 символе.
выдача по запросу "какой замок нельзя разрушить и сжечь" нейросетична
fogi2000,
ахаха ))))
неужели скопище отросчатых одноклеточных инфузорий (нейронов) в нашей башке пользуется столь же замысловатым алгоритмом для формирования "смыслов". 
Слушайте - я конечно далек от этой херни, типичный ламер/чайник так сказать. 
Но на запрос гугля "где я" гугель выдает гугель карты и мое местоположение на гугель карте с точностью до дома. А потом уже всякие резалты поиска. Запрос на компе, который через вай вай подключен к роутеру, который по пону подключен к сети через оптику. 
Тындекс же на тот же запрос выдает такую несусветную муйню, хотя я хотел знать - где я!
Выводы каждый сделает сам.

ravnyubogu,
Вы много ждете от яндекса. Вы все еще думаете, что яндекс это поисковик? Нет! Яндекс это давно уже такси, деньги, маркет и пр. И уже очень давно не поиск :)
Иван Туловский
5 ноября 2016, 18:23
Ну,нормас.Легче будет искать нужный результат в Яндексе.Яндекс рулит!
В статье
"Искусственный интеллект в поиске. Как Яндекс научился применять нейронные сети, чтобы искать по смыслу, а не по словам"
https://habrahabr.ru/company/yandex/blog/314222/
читаем:
“Выходом модели является результат скалярного умножения последних векторов заголовка и запроса (если быть совсем точным, то вычисляется косинус угла между векторами). Модель обучается таким образом, чтобы для положительны обучающих примеров выходное значение было большим, а для отрицательных — маленьким.”
Не совсем понятно, как обучается модель. Если я не ошибаюсь, здесь речь идет о сравнении векторов методом Cosine similarity (https://en.wikipedia.org/wiki/Cosine_similarity). Чем меньше угол между двумя векторами и соответственно косинус этого угла ближе к 1, тем более похожими считаются вектора. А косинус угла тем ближе к 1, чем больше значений компонент совпадают в этих векторах.
В обучающей выборке очень даже могут быть такие два примера:
1)
PNeg1 - негативный пример, заголовок по смыслу не соответствует запросу.
Q1 - вектор первого запроса.
H1 - вектор заголовка с которым сравнивается первый запрос.
C1 = 0.9 - косинус угла между Q1 и H1, т.е
вектора сильно похожи.
2)
PPos2 - позитивный пример, заголовок и запрос хорошо похожи по смыслу.
Q2 - вектор второго запроса.
H2 - вектор заголовка с которым сравнивается второй запрос.
C2 = 0.1 - косинус угла между Q2 и H2, т.е
вектора очень мало похожи.
Поскольку вектора запроса и заголовка строятся из триграмм и комбинаций слов без учета их семантики, вполне возможна ситуация, при которой многие компоненты двух векторов совпадут, в то время как по смыслу никакого совпадения между запросом и заголовком нет. И наоборот. Например:
Q: “В какой статье пишут о том как наши атлеты вырываются вперед?”
H: “Наши вырываются вперед!” - заголовок статьи о получении букеровской премии нашего автора.
В момент написания этого текста, Яндекс, в ответ на данный запрос, выдает:
“Эксперт: эффект разорвавшейся бомбы, или о том, как Трамп вырвался вперед”
А Google:
“Болеем в Рио за спортсменов от Краснодарского края”
Правда, интересно получается?
Поскольку любые два вектора характеризуются одним и только одним косинусом угла между ними, то изменить этот косинус (меру похожести), можно только меняя сами вектора.
Если я не ошибаюсь, то в алгоритме Палех это выглядит примерно так:
1) Bq - мешок триграмм и слов построенных из запроса.
Строим всевозможные вектора Vq заданной длинны N комбинируя элементы из мешка Bq.
2) Bh - мешок триграмм и слов построенных из заголовка.
Строим всевозможные вектора Vh заданной длинны N комбинируя элементы из мешка Bh.
Затем строим всевозможные пары векторов (vq, vh), беря по одному вектору из каждого набора Vq, Vh.
Обучая нейронную сеть, для положительных примеров выбираем пару с максимальным косинусом угла между векторами входящими в пару, а для отрицательных примеров - с минимальным.

Так получается? Поправьте, пожалуйста, если где ошибся.
alexey.gusakov2014
7 ноября 2016, 16:38
dokondr2,


> Не совсем понятно, как обучается модель.

Градиентным спуском. На каждом шаге считаем производную целевой метрике по всем параметрам и используем этот градиент, чтобы обновить параметры.


> Если я не ошибаюсь, здесь речь идет о сравнении векторов методом Cosine similarity


Не ошибаетесь.


> Поскольку вектора запроса и заголовка строятся из триграмм и комбинаций слов без учета их семантики...


Это неверно - вектора как раз строятся так, чтобы отображать семантику.


> Поскольку любые два вектора характеризуются одним и только одним косинусом угла между ними, то изменить этот косинус (меру похожести), можно только меняя сами вектора.


Да, это и происходит в процессе обучения.


> Строим всевозможные вектора Vh заданной длинны N комбинируя элементы из мешка Bh.
Не совсем понимаю, что Вы понимаете под построением всевозможных векторов, но мы ничего подобного не делаем. Просто фиксируем параметры модели, а потом их подбираем. То есть, все вектора перестраиваются в процессе обучения.
Надо перечитать несколько раз, а то как то трудно усваивается.
ВОРОТИТЕ ВСЕ В ЗАД КАК БЫЛО 9 МЕСЯЦЕВ НАЗАД . ВАШИ АЛГОРИТМЫ НЕ РАБОТАЮТ А ТОЛЬКО ЗАГРЯЗНЯЮТ ВАШУ ВЫДАЧУ ... БЫЛ САЙТ ВЕСЕЛ В 10 ке всегда по запросам доставка цветов в Саратове и тд после ваших алгоритмов сайт уже 4 месяца в одном месте и ваши специалисты шлют шаблонное писмо улучшайте бубу бу сайт ... хотя конкуренты в выдаче так и остались как и были я просто не понимаю ваших бездарных проектов алгоритмов как в итоге более понятное мнение это плати нам и будешь первый ... а в директе просто очень огромные ставки 300 р за человека или бота который нажал отбыл номер и ушел а вы лишились денег . 300 р это по запросу в Саратове доставка цветов просто желаю вам яндекс загнуться и оставить ГУГЛ главным поисковиком ... ВАШ ДИРЕКТ ЭТО РАЗВОД И ВЫ МОШЕННИКАМИ СТАЛИ ... денег вам мало жо...ки . 
Света Чистякова
8 ноября 2016, 16:29
Суть высказывания понять сложно, но вообще наши специалисты обычно плохого не советуют.
Света Чистякова,
Суть в том как не делай сайт лучше + ни каких нету от вашей писанины что стоит сделать и тд ! в вебмастере появился раздел с ссылками внешними ток он не обновляется смысл его делать было просто так ! да и вообще ваша система уже похожа на одно место по сравнению с другими .
Света Чистякова,
Федор Чистяков  Человек и кошка)
katerina.filimonova2012
8 ноября 2016, 17:34
Теперь обзывать статью нужно не: "Все для акриловых ногтей", а "Все система наращивания для акриловых ногтей?"
dokondr2:  Поскольку вектора запроса и заголовка строятся из триграмм и комбинаций слов без учета их семантики...


alexey.gusakov2014: Это неверно - вектора как раз строятся так, чтобы отображать семантику.


Если не трудно, alexey.gusakov2014, объясните, пожалуйста, как триграммы и дополнительные слова, на основе которых строятся вектора запроса и заголовка учитывают семантику, т.е. смысл запроса.

Например, как в триграмме "оен" отражается смысл запроса "Как устроен алгоритм Яндекса"?  
Опять усложняем жизнь сеошникам) 
Вопрос к Яндексу и создателям алгоритма в частности: Будет или нет написана научная статья об устройстве и работе алгоритма (как в таких случаях делают другие компании занимающиеся R&D, например Google и MS Research) и где она будет опубликована?  
Света Чистякова
10 ноября 2016, 19:24
Здравствуйте. Прямо сейчас — нет, потому что работа ещё продолжается. Мы, в общем-то, рассказали только о первых результатах. Потом — может быть. Многие подробности можно найти в посте на хабре.
Интересно, а как будет выглядеть тогда выдача, если начнеться "угадываение" слов, и правильный УРЛ?
Например, человек ищет - "гостиницы остров бали нуса дуа 5 звезд" это редкий и длинный запрос но таких не мало. Если мой сайт Остров Бали раньше был на первом месте, сейчас всякие гиганты типа трип адвайзер или хотел лук заберут и этот трафф..

Улучшили так, или наоборот?
Света Чистякова
10 ноября 2016, 19:27
Здравствуйте. Во-первых, запрос из вашего примера — вряд ли из длинного хвоста. Вы сами подметили, что таких запросов немало. Во-вторых, неверно считать, что вся выдача держится на одном «Палехе». У нас полторы тысячи разных факторов ранжирования, и семантический вектор — лишь один из них.
unixanet,
скорее всего ваш запрос под алгоритм не попадает, речь скорее про запросы такого плана "vitamin r набор мебели для детской какой матрас нужен?". У нас на 5uglov.im подобных запросов сильно прибавилось. Причем текстом про матрасы там вообще ни слова, но ответ на вопрос на странице есть.
Я чето не воткнул в чем новизна, та же оптимизация заголовков, семантического ядра и текста страниц. И?
referat5,
ну и низкочастотники, но они всегда без проблем продвигались и без палеха
Алексей Шевченко
12 ноября 2016, 13:02
Всё новое должно быть лучше старого!
Почему по запросу "заказать сайт новороссийск" выдаёт на 1 странице "Отели Новороссийска" , "Мебель на заказ", "Кухни Новороссийска" и "Автосуши - доставка суши в городе Новороссийск" ?
Если поменять на более человечный запрос "заказать сайт в новороссийске" ко всему вышеперечисленному добавляются объявления и доставка еды.
В итоге из 10 ответов 3 являются более-менее полезными, хотя и не особо точными по гео.
Алексей Шевченко,
"заказать сайт новороссийск", на мой взгляд, это не низкочастотный запрос, а новый алгоритм показывает себя именно при них. На ваши примеры поисковых запросов, как мне кажется, алгоритм не будет работать
Алексей Шевченко
2 декабря 2016, 19:32
kuma,
я же не говорил про НЧ запросы. К тому же пользователи, которые пользуются поиском не знают что это такое. Они просто вводят фразу и хотят получить ответ. А по результатам мы видим, что ответ не соответствует запросу на 70%. Если Вы говорите, что новый алгоритм работает только на НЧ, то зачем его было вводить если он портит обычную выдачу при том, что НЧ запросов намного меньше, чем ВЧ.
Алексей Шевченко,
я не сотрудник Яндекса и о внутренней кухне насчёт этого алгоритма не знаю, но прочитав статью здесь и ответы автора поста на Хабрахабре, у меня сложилось впечатление, что алгоритм включается в работу только на НЧ запросы (именно на них и был ориентирован этот алгоритм, для них он и создавался), но понять, когда он действительно начинает работать, простому пользователю невозможно, да и не нужно знать об этом, он за ответом пришёл.
Судить, что после введения именно этого алгоритма, выдача по ВЧ и СЧ запросам ухудшилась, очень спорно, т.к. объективных доказательств не-разработчику-Яндекса всё равно не собрать. При поиске учитывается вроде как за сотни параметров и они, в зависимости от запроса, работают по-разному. В тот момент когда вы искали, сработали одни параметры, возможно выдача поменялась, кто-то опустился/поднялся (тем более что выдача всегда меняется и должна меняться), кто-то, может, вообще исчез, но вы связали ухудшение показов с новостью о введении алгоритма.
Связать ухудшение выдачи с ВЧ и СЧ запросами с этим алгоритмом можно, но не имеет смысла, т.к. нужны объективные доказательства - действительно ли учитывался алгоритм «Палех» при вашем запросе или нет, а это, если я не ошибаюсь, только Матрикснету известно
Обновлено 2 декабря 2016, 20:14
Алексей Шевченко,
> НЧ запросов намного меньше, чем ВЧ
Это очевидно, но алгоритм создавали именно для НЧ запросов: Несмотря на то, что каждый из запросов «длинного хвоста» по отдельности встречается крайне редко, мы всё равно хотим находить по ним хорошие результаты.
Просто Яндекс этим алгоритмом хочет улучшить выдачу по НЧ запросам. Как мне кажется, «Палех» не влияет на ВЧ и СЧ запросы, т.к. он ориентирован на длинный хвост, а не на клюв и туловище.
Алексей Шевченко,
вы пишете: НЧ запросов намного меньше, чем ВЧ. Ваш оппонент kuma подтверждает: "Это очевидно, но алгоритм создавали именно для НЧ запросов". А я вот утверждаю, что НЧ запросов в сотни-тысячи раз больше, чем ВЧ. Кто из нас прав? :)
Обновлено 2 декабря 2016, 20:21
Алексей Шевченко
4 декабря 2016, 22:12
nizhesergej,
 спорить не буду, но НЧ для того и существуют, чтобы сузить поиск. Т.е. в запросе пишется более подробная фраза для поиска. Если смотреть со стороны пользователя, то ему всё равно к какому типу относится его запрос. Но, как писал выше, по запросу "заказать сайт в новороссийске" показывает автовокзал, ж/д вокзал, доставку еды, цветов, предлагают купить кухни. Зачем пользователю такой ответ?
Алексей Шевченко,
посмотрел выдачу в Новороссийске. Что хочу сказать - реально мало хороших сеошников среди вебмастеров в Новороссийске, раз не умеют или не хотят продвинуть нужные запросы, которые их кормят. Сайты создают обычно вебмастера, а не сеошники. Хотя многие вебмастера почему-то считают себя и сеошниками, и берутся за продвижение :). Результат очевиден. Доказательство - выдача по запросу "продвижение сайтов в новороссийске". Где там пицца или цветы? Сапоги шить должен САПОЖНИК, сайты продвигать - СЕОШНИК. Или я опять неправ, как и в вопросе каких запросов больше - НЧ или ВЧ? :)))
Я как практикующий seo специалист экспериментирую как с короткими так и с длинными заголовками. Длинные гуглом отлично принимаются и работают на ура, а Яндекс все тормозит. Палех не помогает. 85-90% трафа именно с гугла. Яша за более чем год так и не признает уникальные статьи моего блога и выводит лишь единицы из них в топ по всем видам запросов нч, сч и вч, но в большинстве случаев все же уступает сильно гуглу.
Обновлено 23 декабря 2016, 18:49
Меня как работника интернет магазина, тоже сильно интересует как теперь настраивать сайт, писать описания для товаров? С введением нового алгоритма, выдача стала хуже, а контекст реклама жрать больше. Гугл реально дает сейчас больше показов - безплатно
 Сайт Строительные материалы в поиске появился не так давно,  алгоритм меняет его позиции каждый апдейт. Логика выдачи не ясна, так как тематика очень огромна.
наступает эра Скайнет, скоро всем человекам будет звездец
А вот, что я заметил из  нововведеий яндекса: когда пытаешься оценить позиции сайта по тем или иным запросам, то на СВОЕМ компьютере или телефоне видишь один результат, а на чужом компьютере - совершенно другой результат. Причем, через тот же вайфай, и не обязательно быть залогиненым в яндексе.

Это тоже часть какого-то алгоритма? Раньше вроде такого не замечал
интерес когда поиск будет искать то что просят.искал монитор по картинкам,выдал среди прочих  клубок шерсти  мульты и тд. и т.п.
Проверил. Задал Запрос, не совсем соответствующий тому, что хотел узнать. "фильм про человека который ударом кулака разбил гранитную глыбу". Это Брюс Ли кулаком разбил гранитную глыбу, хранится в музее его имени в Шанхае. Браво. «Палех» дал результаты близкие к неполно сформулированному запросу.
Меня поражает тупость публики вебмастеров, кормящих яндекс контентом, и подставляющие хвост!
Яндекс после ухода Ильи Сегаловича, который создавая и развивая яндекс, в ПЕРВУЮ очередь реально заботился о том, чтобы Яндекс был полезен в Рунете.
После его ухода ВЛАДЕЮТ яндекс-поиском мерикосы, сбербанк и иные нелюди не имеющие ни желания ни мотивации ДЕЛАТЬ яндекс СДЛ. 
Создаваемое ныне (и разрушенное яндекс-былое) на сегодняшний день Полностью соответствует ЯНдекс утверждению: сайт ГС.
КАК можно было для Поиска делить на Коммерческие и некоммерческие запросы и сайты?
Это мать-поганая -монополия - именно тот вопрос по которому Яндекс подавал на Гугл в суд.
Если тематика сайта коммерческая, но при этом сайт не является посредником, а предоставляет прямую инфу об искомом, то на сей день алго-крысы заносят его в разряд Дорвеев. ОТЧЕГО???
Да оттого, что своё жало теперь яндекс суёт туда, где есть хоть какая то возможность вставить свои 15-50%% накрутки:
Яндекс-авто: поборы
Яндекс-путешествия: : 15-50%%, редирект партнерка на букинг.ком(и упаси бог делать сайт этой тематики без ссылок на букинг - бан сходу (если сайт глобальны)). 
Ремонт: охренели: 15-50%%
Такси: 20%40%
Ядексойды, вы перепутали изначальные цели, а потому являетесь прямыми конкурентами, а зачастую препятствующими ведению бизнеса-разных сфер и развитию рунета и в целом уровню веб-программирования (накой создавать что стоящее, если яндекс ЗАБЛОКИРУЕТ возможность это найти в рунете).
Уже подумываю забанить яндекс на всех своих серваках и упаси бог найду что в выдаче:
суд: за кражу контента и размещение на яндексГС и дос атаки.
Обновлено 15 января, 14:35
Чем круче поисковые алгоритмы, тем длинее и пушистее будет хвост у птички (зачем пытаться угадать, какой запрос вбить Яндексу, чтобы получить адекватный результат, если Яндекс сам научился угадывать?). Однажды от тела птицы ничего не останется, а яндекс из поисковой системы превратится в персонального ассистента ) Не самый плохой вариант :)


Или другой вариант. У птицы отсохнет хвост совсем. Единственным поисковым запросом будет "Яндекс, а что я сейчас хочу найти?" ))
АЛЕЌСѦНДِР̗ ЛЕБЕДЀВ҉
18 января, 14:43
🢡🢛🢢
работает хорошо мне нравится

у пользователей с несвободным пиратским контентом проблеммы будут всегда ! и вообще на кой вам ВИНДА если хотите халявы? это ведь антогонисты (халява и винда_)
Потрясающе.
Удивлён так сильно и столько раз, что не удержался - опубликовал статью в своём блоге. С ссылкой, естественно )
kochk
АЛЕЌСѦНДِР̗ ЛЕБЕДЀВ҉
8 февраля, 01:52
В҉
а у меня фамилия Палеха,я хочу знать ее происхождение,а ту вдруг алгоритм....эт мне что будет выдавать,хвосты?
Обновлено 10 февраля, 22:59
Может скоро яндекс сделает и у себя нормальный адекватный поиск, а не такой, которым можно пользоваться только если хочешь что-то купить.
Периодически пользуюсь поиском яндекса (приходится или если не могу найти на первых двух страницах гугла), топ вообще неадекватный и напоминает рекламную витрину, Варианты сильно отличаются от того, что ищу разнесено в предложении на пару слов, хотя ожидалось, что в начале будет именно точное совпадение искомого словосочетания. Спрашиваю одно, в выдаче совсем другое. Нужное нахожу на 2-3й странице.

Прочитав внимательно статью и проанализировав выдачу своего сайта после такого грандиозного ноябрьского события, сделала для себя выводы не в лучшую сторону. 

Раньше, очень большую роль играл текст на странице.  А теперь, что делают многие - это 300 страниц на сайте, все они с одинаковым текстом, но вот заголовки под новую систему подогнаны. Поэтому такой сайт в поиске сейчас на первой странице и бьет все рекорды. А мой сайт, над текстами которых уже 7 лет скрупулезно работаешь, вдруг в ноябре слетел с первой странице в Яндексе по многим запросам.  И не надо мне сейчас говорить про хвост, клюв , НЧ и т.д.  Значит теперь у Яндекса в почете некачественные сайты! Жаль((( Хотелось бы узнать, как теперь развивать свой сайт?! Просто обидно, когда твоему сайту 7 лет и ты каждый день сидишь и коптишь над его развитием и ты не на первой странице, а тут появляются сайты "не о чем" и , О Боже, это лучшие сайты для Яндекс. Я в шоке. Сотрудники Яндекс, примите меры. Ну, не возможно же так работать!
Обновлено 17 марта, 08:54
tech@bizstart.pro
17 апреля, 01:24
вот интересно..можно ли считать вот этот сайт переспамленым ключами или 1 место в поисковой выдаче по запросу "маршрутка в финляндию" заслужено?-)
http://www.finnroad.ru/marshrutka-v-finlyandiyu.html



выдача санкт-петербурга
Обновлено 17 апреля, 01:24