Блог Яндекса для вебмастеров

CatBoost — новый метод машинного обучения от Яндекса

18 июля 2017, 12:36

Яндекс разработал новый метод машинного обучения CatBoost. Он придёт на смену Матрикснету, который используется в Яндексе с 2009 года. CatBoost даёт более точные результаты в задачах ранжирования, регрессии и классификации, а также учитывает данные в нечисловой форме. Библиотека машинного обучения CatBoost выложена в общий доступ — её может использовать любой желающий.

В CatBoost также используется градиентный бустинг, но он, во-первых, превосходит Матрикснет по точности предсказаний, а во-вторых, способен учитывать так называемые категориальные признаки — то есть признаки, которые принимают одно из конечного количества значений. Так, облака могут быть кучевыми, перистыми, перисто-кучевыми, слоистыми и так далее. Жанры музыки включают рок, рэп, классику, альтернативу, метал. Подобные данные больше не нужно выражать в числах: CatBoost умеет воспринимать их в исходном виде. Обученные с его помощью модели дают точные результаты и позволяют использовать всё многообразие доступных данных, не тратя время на их перевод в числовую форму.

Новый метод сейчас тестируется на сервисах Яндекса. Так, в Дзене его задействовали для ранжирования ленты рекомендаций, а в Погоде — для расчёта прогноза с помощью технологии Метеум. Во всех случаях он показал себя лучше Матрикснета. В дальнейшем планируется расширение использования этого метода.

Команда технологий Яндекса

49 комментариев
Поехали!)
Обновлено 18 июля 2017, 12:53
Молодцы 
Молодцы, но давайте уже выкладывайте обычный апдейт индекса.
Николай,
вы на Промосайте смотрите? -) У них поломался, но можно у нас текстовые АПы чекать — https://tools.pixelplus.ru/updates/yandex 
kakBacTam,
контент-маркетинг в действии :)  Идея Вам - сделать приложение для главной Яндекса, как Трофименко, чтобы сразу можно было видеть стату, когда браузер открываешь.
 Еще можно подписаться на Я.вебмастер , но справедливости ради, они бывают письма под вечер ток шлют об апах, но по дате графика страницы в поиске его видно.
Обновлено 18 июля 2017, 15:03
Максим,
да, спасибо за идею. Разработаем виджет -)
Максим,
нет... обманул, уже не разработаем — http://prntscr.com/fx5wsm
>> Создать свой виджет
>> Работа сервиса по созданию виджетов в настоящее время приостановлена.
Вот теперь заживём!
Астрологи прогнозируют увеличение массовых воплей "почему у нас упал трафик с Яндекса?" :) Опять :)  И вдвое :)
Я, конечно, знаю английский, но странно, что российская компания не опубликовала документацию по выложенной библиотеке на русском, читать на родном проще и приятнее :)
Максим,
в Яндексе в целом такая документация, насколько мне известно, на английском ведётся. Плюс ставка в описании на ЦА программистов, а она, в значительной части — за рубежом, как видится.
kakBacTam,
то, что я видел всегда была на русском тут https://tech.yandex.ru/ .  Часть по CatBoost тоже, а доки пока на английском. По ходу сначала делают на английском, а потом на русский переводят - интересная деталь :)
zen@apple-iphone.ru
18 июля 2017, 13:49
Молодцы, что движетесь вперед.
Нам всем тоже хотелось бы оценить качество CatBoost
например на том же Дзене, очень не хватает по нему 
статистики: с каких статей заходят в какие дни как минимум.

zen@apple-iphone.ru,
а с чего утверждение что движение вперед?
zen@apple-iphone.ru
20 июля 2017, 15:42
Dmitry,
 новый алгоритм скорее всего нацелен на улучшение качества ранжирования материалов = улучшение качества поиска.
firstlena.pershina
Сотрудник Яндекса21 июля 2017, 16:04
zen@apple-iphone.ru,
Спасибо! Коллеги из Дзена работают над расширением статистики. 
Александр Чибисов
18 июля 2017, 13:57
Он придет, когда сам захочет? Или у вас есть планируемая дата внедрения? )))
madСats.ru напишет про  CatBoost ? родственники, всё-таки... :-)
Здорово
Яндекса нужно агресивнее продвигать свой поисковик в буржуй иннете. Как показывает практика, яндекс очень любит качественный контент, когда гугол либерасткий любит жирные купленные ссылки. В гугол много статей 2007 года что не актуально как не крути. Мои вам пожелания) давите агисивнее и по жосче конкурента за рубежом
Обновлено 18 июля 2017, 17:56
ничё се домен какой https://catboost.yandex !! Это tld такой .yandex ? Не видел раньше )))
Полная свобода, дух захватывает ))

Vasya.Pupkin или Pupkin.Vasya занят? свободен? Я беру  ))
Комментарий удалён
Николай Егорьев,
Интересное отношение к пользователям. Но часто и сами владельцы сайтов далеки от понимания, что нужно.
градиентный бустинг
Новый алгоритм значительно увеличит доход с директа.
А варианты типа Санкт-Петербург = СПб он понимает?
Если закрыть весь сайт от индексации то санкции все равно будут на сайт?
firstlena.pershina
Сотрудник Яндекса24 июля 2017, 13:16
faridzar,
если вы его закроете от индексации полностью - он у вас вообще из поиска вылетит, и это точно хуже реакции на нарушение.
Обновлено 24 июля 2017, 13:16
firstlena.pershina,
Вопрос был в другом. Из поиска пусть вылетит. Я вам присылаю баги, и снова бы его вам прислал, так как новый баг обнаружил, но вы взамен трафик забираете у моего сайта!
Я привожу в пример свой сайт, пишу "вот смотрите БАГ", а на следующее утро у меня санкции на сайте! Так всегда! В этом ваша благодарность?
И мой вопрос был теоретический, если закрыть в роботсе доступ к роботу (ведь сайт для людей делается естественно), то нарушение все равно останется в вебмастере?
По поводу багов я вам больше в жизни не помогу. Пусть будет поиск ущербным. И другим не советую показывать баги яндексу. Пусть гугл развивается в РФ. Там хотя бы робот умнее. Сайт забанили мой, а показать ответ пользователю не можете. Вы бы хоть банили так, где конкуренция есть. 
Как пример, существует лампочка "интеррациональная Звезда №655" для нее создана страница. Люди ищут, покупают всегда там где она есть, на той странице. Но в один день вы баните сайт и теперь пользователь не может нигде ее купить! Кому вы лучше сделали? Своему поиску? Хорошо хоть в гугл люди пойдут благодаря вашей кнопки внизу Поиска Яндекс. Спасибо за это! Я честное слово, пытался сделать вашему поиску лучше, но вы взамен ведете себя как "плохой дядька" который бьет палкой всех и только потом разбирается. Странное у вас отношение к своему бизнесу.
Обновлено 24 июля 2017, 14:43
faridzar,
Для других поясняю: был баг у Яндекса такой: у меня на сайте была статья, в ней присутствовало слово "малолетки", однако контент для тех кому хоть 10 лет. Но робот яндекса по какой-то причине стал выдавать эту страницу по запросу "порно с малолетками" это явный баг. У меня сайт вообще с "взрослой тематикой" никак не связан. На сайте увеличилось количество отказов. Так как пользователь приходя на сайт не получал нужный ответ. По причине этого, Яндекс наложил санкции на мой сайт. И 25000 постов на разные темы ушли в пессимизацию. Яндексу я это сообщил и они забанили мой сайт еще ниже. Причина была не только в этом. Была новость об одном событии, возьмите в пример "землетрясение", но автор контента попросил меня удалить этот пост с сайта. Я удалил. Но яндекс вывел мой сайт в топ с несуществующей страницей. Причем несколько часов подряд давал пользователям страницу на которой не было контента. Можно считать это моей виной. Но если бы робот был умнее, то он не забанил бы меня за то количество отказов, которое пришло в течение 4 часов. Робот в данном случае должен был среагировать сразу, и если отказы увеличиваются, то сниизить релевантность этого документа, а не банить весь сайт целиком. Естественно это не единственные баги, о которых я здесь написал, багов достаточно много. И робот должен понимать, что вебмастеру нужно подстраиваться под всех, под владельцев авторских прав, под вашего робота, который тупой. Под техподдержку, под пользователей и т.д. Но к Яндексу есть лишь одна просьба: быть благодарным тем пользователям, которые улучшают поиск. Я не использую черные методы, я создаю уникальный контент, а сайты, которые своровали мой контент - сейчас ранжируются выше.  И вы пишете: продолжайте развивать свой сайт - я так и делаю, но по факту конкуренты растут за счет моего контента. 


П.С. 
Парсенные сайты в топе http://prikolys.ru/,у вас хорошее качество поиска? Стыдно мне за ваш поиск. А сайты которые делались 4 года вручную со штатом копирайтеров, то он в 100+ местах? Для людей говорите надо делать, а робот признал мой сайт некачественным, тот сайт качественным? Сейчас скажите, что и до них дойдет своя очередь. А пока пусть пользователи мучаются. 
Обновлено 24 июля 2017, 15:11
firstlena.pershina
Сотрудник Яндекса24 июля 2017, 16:58
faridzar,
Это вообще никак не связанные вещи. 
firstlena.pershina
Сотрудник Яндекса24 июля 2017, 16:59
faridzar,
Я уверена, что проблема не в слове малолетки, почему вы вообще решили, что проблема именно в этом? А не во взрослой рекламе, например? 
firstlena.pershina,
2) потому что кроме гугл адсенс нет другой рекламы. И баг был, его исправили. http://dl3.joxi.net/drive/2017/07/24/0004/2815/322303/03/ce0acc8428.png Благодарю от всей души. Особенно мой кошелек благодарен. Всегда рад сообщать вам о багах делая себе только хуже. А взамен получать пессимизацию. Еще раз спасибо.
1) А по первому вопросу вы так и не ответили: будет ли снято нарушение если в роботсе запретить индексацию? И будет ли нарушение если вообще весь сайт удалить?
faridzar,
Я вас наверное удивлю но по многим таким общим запросам в том же сервисе Яндекс.Видео выскакивает детское порно. в той же Толоке добрая половина заданий это бан таких вот сайтов. Но тем не менее они от туда не пропадают. Так уж работает поиск яндекса. И да, все-таки они коммерческая структура и цель их получить деньги из яндекс.директа пусть даже путем ограничения конкуренции, путем показывания своих сервисов на первых позициях поисковой выдачи и предоставлением нерелевантных результатов на фоне которых реклама будет более релевантна это по-моему только слепым не очевидно.
Shraibikus2012,
я удалил новость где нет порно, посмотрим снимет ли робот санкции. 
Я смотрю выпустили котенка играть с выдачей, игривыми лапками раскидывает все в разные стороны. И сколько времени должно уйти, что бы он вырос в умного кота? Месяц, два, три, больше? Все это время выдача так и будет улетать со стола по разным углам? Совсем работать не хотите? Отправили машину сортировать выдачу, не важно что она еще гупа и ранжирует сайты равносильно рандому... Молодцы, прям все как всегда - " и так сойдет"
Подскажите, а выдачи серпа этот алгоритм пока еще не касается?
Когда расколбасы то закончатся? Сами, да, не знаете?) В особенности молодые сайты штормит только в путь, стояли в топе, с уник контентом, настроенные по всем рекомендациям, никто их не трогал и бац минус 40 позиций часть запросов, несколько дней обратно топ, потом опять некоторые отпали и так далее... Надо алгоритм называть "веселые качели" или "рулетка" , "беспощадный рандом", больше подойдет)
firstlena.pershina
Сотрудник Яндекса27 июля 2017, 11:39
Dim0n-nt,
Если что-то так работает, это не значит, что оно сломано: https://yandex.ru/blog/webmaster/20999 
firstlena.pershina,
Разве я сказал что, что то сломано? Я сказал, что в выдаче сплошной рандом и саму выдачу трясет каждый час. По вашему мнению все в пределах нормы! Надо стабильность- идите в директ! Вот и вся ваша политика, загнать всех в директ+ больше рекламных строк на первой странице. Раз по вашему мнению все в нормах то, что  творится в результатах поиска!
Обновлено 27 июля 2017, 11:53
Dim0n-nt,
Поддерживаю!
О каком поиске идет речь? Яндекс уже давно перестал быть поисковиком. Вы рекламное агентство, не более того. От поиска остались одни отголоски.
vyasubbotin,
Поддерживаю, если я.директ занимает 4 позиции а я.карты вылазят на 5-ом месте? У меня раб. ноут 15.6 дюйм. ВЕСЬ первый экран выдачи - спецразмещение в Директе где размещают мягко говоря ..........
vyasubbotin,
согласна на 100%, в ТОП-3 показываются сайты с 2 предложениями на странице, с кривыми картинками и нулевым дизайном. Пыталась общаться со службой поддержки, мне отвечают: ваш сайт не в ТОП-3, значит не отвечает полно и подробно на запросы пользователей. А другие, значит, релевантнее, в 2 предложениях все подробно описали, ответили на вопросы, причем выдаются в поиске по ключевым запросам, которых вообще нет на странице ни в прямом, ни в разбавленном виде. Как так? Сотрудник Яндекс затруднился ответить
Обновлено 9 августа 2017, 13:52
Отличная новость)) сегодня прочитал и решил попробовать.
Не совсем понятно, что имеется ввиду под "CatBoost умеет воспринимать их в исходном виде". 


Хотел сделать простую классификацию выражений, но что-то не совсем понял, какие конкретно данные скармливать. Документация читается тяжело, но это точно на первое время, с картами и кликхаусом та-же проблема восприятия была.
Подскажите, где можно задавать детальные вопросы по использованию технологии?
Телеграмм или форум какой?


p.s. По кликхаусу есть группа в телеграмме, достаточно удобно.
firstlena.pershina
Сотрудник Яндекса2 августа 2017, 18:16
yaBliznyk,
В обратную связь на гитхабе правильнее всего. 
firstlena.pershina,

Добрый день.
Сделайте стабильное обновление поисковой выдачи!!! ну хотябы 2 раза в неделю......
Ох, доиграются эти программисты....
создадут машину умнее себя, а потом сами и папатут под каток кризиса...
по увольняют всех этих ассесоров  и прочих сотрудников, за ненадобностью)))))


да, служба поддержки скоро тоже автоматизируется))) и этих значит сократят....
Скажите когда  CatBoost будет давать более точные результаты в ранжировании?
Для кого рассчитана программа на английском языке, если Яндекс вроде в нашей стране, а не в Европе поисковик №1? В России национальным и государственным языком является русский. И пока не сделано подобающим образом смысл вообще сообщать? Чтобы все постебались? А что в Дзене показывается - это слов нет, узнала о своих пристрастиях такое, 
 неудобно говорить.