Блог Яндекса для вебмастеров

CatBoost — новый метод машинного обучения от Яндекса

18 июля, 12:36

Яндекс разработал новый метод машинного обучения CatBoost. Он придёт на смену Матрикснету, который используется в Яндексе с 2009 года. CatBoost даёт более точные результаты в задачах ранжирования, регрессии и классификации, а также учитывает данные в нечисловой форме. Библиотека машинного обучения CatBoost выложена в общий доступ — её может использовать любой желающий.

В CatBoost также используется градиентный бустинг, но он, во-первых, превосходит Матрикснет по точности предсказаний, а во-вторых, способен учитывать так называемые категориальные признаки — то есть признаки, которые принимают одно из конечного количества значений. Так, облака могут быть кучевыми, перистыми, перисто-кучевыми, слоистыми и так далее. Жанры музыки включают рок, рэп, классику, альтернативу, метал. Подобные данные больше не нужно выражать в числах: CatBoost умеет воспринимать их в исходном виде. Обученные с его помощью модели дают точные результаты и позволяют использовать всё многообразие доступных данных, не тратя время на их перевод в числовую форму.

Новый метод сейчас тестируется на сервисах Яндекса. Так, в Дзене его задействовали для ранжирования ленты рекомендаций, а в Погоде — для расчёта прогноза с помощью технологии Метеум. Во всех случаях он показал себя лучше Матрикснета. В дальнейшем планируется расширение использования этого метода.

Команда технологий Яндекса

36 комментариев
Подписаться на комментарии к посту
Поехали!)
Обновлено 18 июля, 12:53
Молодцы 
Николай
18 июля, 13:26
Молодцы, но давайте уже выкладывайте обычный апдейт индекса.
Николай,
вы на Промосайте смотрите? -) У них поломался, но можно у нас текстовые АПы чекать — https://tools.pixelplus.ru/updates/yandex 
kakBacTam,
контент-маркетинг в действии :)  Идея Вам - сделать приложение для главной Яндекса, как Трофименко, чтобы сразу можно было видеть стату, когда браузер открываешь.
 Еще можно подписаться на Я.вебмастер , но справедливости ради, они бывают письма под вечер ток шлют об апах, но по дате графика страницы в поиске его видно.
Обновлено 18 июля, 15:03
en-es,
да, спасибо за идею. Разработаем виджет -)
en-es,
нет... обманул, уже не разработаем — http://prntscr.com/fx5wsm
>> Создать свой виджет
>> Работа сервиса по созданию виджетов в настоящее время приостановлена.
sales@alfa.site
18 июля, 13:34
Вот теперь заживём!
razumov.ivan-nn
18 июля, 13:37
Астрологи прогнозируют увеличение массовых воплей "почему у нас упал трафик с Яндекса?" :) Опять :)  И вдвое :)
Я, конечно, знаю английский, но странно, что российская компания не опубликовала документацию по выложенной библиотеке на русском, читать на родном проще и приятнее :)
en-es,
в Яндексе в целом такая документация, насколько мне известно, на английском ведётся. Плюс ставка в описании на ЦА программистов, а она, в значительной части — за рубежом, как видится.
kakBacTam,
то, что я видел всегда была на русском тут https://tech.yandex.ru/ .  Часть по CatBoost тоже, а доки пока на английском. По ходу сначала делают на английском, а потом на русский переводят - интересная деталь :)
zen@apple-iphone.ru
18 июля, 13:49
Молодцы, что движетесь вперед.
Нам всем тоже хотелось бы оценить качество CatBoost
например на том же Дзене, очень не хватает по нему 
статистики: с каких статей заходят в какие дни как минимум.

Дмитрий
20 июля, 09:30
zen@apple-iphone.ru,
а с чего утверждение что движение вперед?
zen@apple-iphone.ru
20 июля, 15:42
Дмитрий,
 новый алгоритм скорее всего нацелен на улучшение качества ранжирования материалов = улучшение качества поиска.
firstlena.pershina
Сотрудник Яндекса21 июля, 16:04
zen@apple-iphone.ru,
Спасибо! Коллеги из Дзена работают над расширением статистики. 
Александр Чибисов
18 июля, 13:57
Он придет, когда сам захочет? Или у вас есть планируемая дата внедрения? )))
madСats.ru напишет про  CatBoost ? родственники, всё-таки... :-)
tool-tech.ru
18 июля, 16:24
Здорово
Яндекса нужно агресивнее продвигать свой поисковик в буржуй иннете. Как показывает практика, яндекс очень любит качественный контент, когда гугол либерасткий любит жирные купленные ссылки. В гугол много статей 2007 года что не актуально как не крути. Мои вам пожелания) давите агисивнее и по жосче конкурента за рубежом
Обновлено 18 июля, 17:56
ничё се домен какой https://catboost.yandex !! Это tld такой .yandex ? Не видел раньше )))
Полная свобода, дух захватывает ))

Vasya.Pupkin или Pupkin.Vasya занят? свободен? Я беру  ))
Придумайте еще хоть 1000 алгоритмов - но ни один из них не будет знать нюансы бизнеса, которые владельцы сайтов не могут афишировать.
Поэтому вы никогда не создадите алгоритм, который лучше владельцев сайтов знал бы, что на самом деле нужно пользователю
Любой алгоритм будет использовать только те данные, которые ему предоставляют сами пользователи: неграмотность, некомпетентность, неумение сформулировать свои потребности
Вот и самообучайтесь на этом бреде до посинения 😜
градиентный бустинг
Новый алгоритм значительно увеличит доход с директа.
girl-without
20 июля, 16:55
А варианты типа Санкт-Петербург = СПб он понимает?
Если закрыть весь сайт от индексации то санкции все равно будут на сайт?
firstlena.pershina
Сотрудник Яндекса24 июля, 13:16
faridzar,
если вы его закроете от индексации полностью - он у вас вообще из поиска вылетит, и это точно хуже реакции на нарушение.
Обновлено 24 июля, 13:16
firstlena.pershina,
Вопрос был в другом. Из поиска пусть вылетит. Я вам присылаю баги, и снова бы его вам прислал, так как новый баг обнаружил, но вы взамен трафик забираете у моего сайта!
Я привожу в пример свой сайт, пишу "вот смотрите БАГ", а на следующее утро у меня санкции на сайте! Так всегда! В этом ваша благодарность?
И мой вопрос был теоретический, если закрыть в роботсе доступ к роботу (ведь сайт для людей делается естественно), то нарушение все равно останется в вебмастере?
По поводу багов я вам больше в жизни не помогу. Пусть будет поиск ущербным. И другим не советую показывать баги яндексу. Пусть гугл развивается в РФ. Там хотя бы робот умнее. Сайт забанили мой, а показать ответ пользователю не можете. Вы бы хоть банили так, где конкуренция есть. 
Как пример, существует лампочка "интеррациональная Звезда №655" для нее создана страница. Люди ищут, покупают всегда там где она есть, на той странице. Но в один день вы баните сайт и теперь пользователь не может нигде ее купить! Кому вы лучше сделали? Своему поиску? Хорошо хоть в гугл люди пойдут благодаря вашей кнопки внизу Поиска Яндекс. Спасибо за это! Я честное слово, пытался сделать вашему поиску лучше, но вы взамен ведете себя как "плохой дядька" который бьет палкой всех и только потом разбирается. Странное у вас отношение к своему бизнесу.
Обновлено 24 июля, 14:43
faridzar,
Для других поясняю: был баг у Яндекса такой: у меня на сайте была статья, в ней присутствовало слово "малолетки", однако контент для тех кому хоть 10 лет. Но робот яндекса по какой-то причине стал выдавать эту страницу по запросу "порно с малолетками" это явный баг. У меня сайт вообще с "взрослой тематикой" никак не связан. На сайте увеличилось количество отказов. Так как пользователь приходя на сайт не получал нужный ответ. По причине этого, Яндекс наложил санкции на мой сайт. И 25000 постов на разные темы ушли в пессимизацию. Яндексу я это сообщил и они забанили мой сайт еще ниже. Причина была не только в этом. Была новость об одном событии, возьмите в пример "землетрясение", но автор контента попросил меня удалить этот пост с сайта. Я удалил. Но яндекс вывел мой сайт в топ с несуществующей страницей. Причем несколько часов подряд давал пользователям страницу на которой не было контента. Можно считать это моей виной. Но если бы робот был умнее, то он не забанил бы меня за то количество отказов, которое пришло в течение 4 часов. Робот в данном случае должен был среагировать сразу, и если отказы увеличиваются, то сниизить релевантность этого документа, а не банить весь сайт целиком. Естественно это не единственные баги, о которых я здесь написал, багов достаточно много. И робот должен понимать, что вебмастеру нужно подстраиваться под всех, под владельцев авторских прав, под вашего робота, который тупой. Под техподдержку, под пользователей и т.д. Но к Яндексу есть лишь одна просьба: быть благодарным тем пользователям, которые улучшают поиск. Я не использую черные методы, я создаю уникальный контент, а сайты, которые своровали мой контент - сейчас ранжируются выше.  И вы пишете: продолжайте развивать свой сайт - я так и делаю, но по факту конкуренты растут за счет моего контента. 


П.С. 
Парсенные сайты в топе http://prikolys.ru/,у вас хорошее качество поиска? Стыдно мне за ваш поиск. А сайты которые делались 4 года вручную со штатом копирайтеров, то он в 100+ местах? Для людей говорите надо делать, а робот признал мой сайт некачественным, тот сайт качественным? Сейчас скажите, что и до них дойдет своя очередь. А пока пусть пользователи мучаются. 
Обновлено 24 июля, 15:11
firstlena.pershina
Сотрудник Яндекса24 июля, 16:58
faridzar,
Это вообще никак не связанные вещи. 
firstlena.pershina
Сотрудник Яндекса24 июля, 16:59
faridzar,
Я уверена, что проблема не в слове малолетки, почему вы вообще решили, что проблема именно в этом? А не во взрослой рекламе, например? 
firstlena.pershina,
2) потому что кроме гугл адсенс нет другой рекламы. И баг был, его исправили. http://dl3.joxi.net/drive/2017/07/24/0004/2815/322303/03/ce0acc8428.png Благодарю от всей души. Особенно мой кошелек благодарен. Всегда рад сообщать вам о багах делая себе только хуже. А взамен получать пессимизацию. Еще раз спасибо.
1) А по первому вопросу вы так и не ответили: будет ли снято нарушение если в роботсе запретить индексацию? И будет ли нарушение если вообще весь сайт удалить?
Shraibikus2012
вчера, 09:30
faridzar,
Я вас наверное удивлю но по многим таким общим запросам в том же сервисе Яндекс.Видео выскакивает детское порно. в той же Толоке добрая половина заданий это бан таких вот сайтов. Но тем не менее они от туда не пропадают. Так уж работает поиск яндекса. И да, все-таки они коммерческая структура и цель их получить деньги из яндекс.директа пусть даже путем ограничения конкуренции, путем показывания своих сервисов на первых позициях поисковой выдачи и предоставлением нерелевантных результатов на фоне которых реклама будет более релевантна это по-моему только слепым не очевидно.
Shraibikus2012,
я удалил новость где нет порно, посмотрим снимет ли робот санкции. 
Я смотрю выпустили котенка играть с выдачей, игривыми лапками раскидывает все в разные стороны. И сколько времени должно уйти, что бы он вырос в умного кота? Месяц, два, три, больше? Все это время выдача так и будет улетать со стола по разным углам? Совсем работать не хотите? Отправили машину сортировать выдачу, не важно что она еще гупа и ранжирует сайты равносильно рандому... Молодцы, прям все как всегда - " и так сойдет"
Подскажите, а выдачи серпа этот алгоритм пока еще не касается?