Клуб о поиске Яндекса

сентябрь 2010
«Обнинск» — новое ранжирование для гео-независимых запросов в России
webmaster
13 сентября 2010, 17:17
Поисковая программа «Обнинск» вышла из стадии бета-тестирования, новый алгоритм обрабатывает гео-независимые запросы на yandex.ru.

Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.

Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).

Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).

Спасибо всем, кто принял участие в бета-тестировании.

Ден Расковалов и команда поиска отправляются в следующий город
22 комментария
MatrixNet,ранжирование,Обнинск,поисковая программа
Картинки.
Мартин
22 сентября 2010, 21:04

http://images.yandex.ru/yandsearch?text=%D1%80%D0%B0%D1%81%D1%81%D1%82%D1%80%D0%B5%D0%BB&rpt=image&isize=wallpaper&wp=any

Почему так происходит? Нет релевантных картинок запросу под обои.

Тудаже: http://images.yandex.ru/yandsearch?text=%D1%81%D0%BC%D0%B5%D1%80%D1%82%D0%BD%D0%B0%D1%8F+%D0%BA%D0%B0%D0%B7%D0%BD%D1%8C&stype=image&isize=wallpaper&wp=any

4 комментария
поиск по картинкам
Правильный URL для страниц сайта?
tvorimsami
23 сентября 2010, 18:42
Здрвствуйте. Простите, не нашла такой информации в помощи Я.Вебмастеру. Играет ли роль при индексации URL внутенних страниц. Имеет ли значение выглядит он так: 6-09-ж, так: бусы-из-жемчуга, или так: busy_iz_zhemchuga. Как лучше для поискового робота оформлять страницы? Спасибо.
7 комментариев
индексация сайта
Топ блогов по заданному региону
softshape2
27 сентября 2010, 14:27

День добрый,

есть ли способ с помощью API поиска по блогам или каким другим чудесным образом увидеть информацию, аналогичную blogs.yandex.ru (популярные темы, популярные блоги, категории и т.п.) но отфильтрованную по заданному региону ? Попытка сделать это через поиск (там фильтр geo=... работает) упирается в необходимость задать поисковую фразу, соотв. просто получить "все темы из заданного региона" не выходит.

Юра.

2 комментария
поиск по блогам
Об индексации блога на Привет.ру
navi.gman
28 сентября 2010, 13:53

Приветствую всех. Прошу ответить на такой вопрос.

Давно в своём личном дневнике в социальной сети Привет.ру пишу обзоры фильмов и иногда даже музыки и книг. Подумываю создать для всего этого автономный блог, а на него скопировать все прежние обзоры.

Не окажется ли он тут же под баном или фильтром из-за того что материалы скопированы? Как можно этого избежать?

6 комментариев
индексация сайта
Выявление дубликатов картинок.
leon1010
30 сентября 2010, 12:35

Процесс и выявления дубликатов картинок, для меня, как для владельца сайта с обоями для рабочего стола (в котором пользователи сами так-же публикуют обои) - очень интересен.


Я написал свой скрипт выявления дубликатов картинок на PHP+MySQL.


Принцип его работы таков:

Он определяет цвет каждого пикселя картинки (из 216 возможных). И высчитывает % присутствия каждого цвета на картинке ( до тысячных долей % ) и сохраняет эту информацию в БД. - этот процесс оказался настолько ресурсоемким, что мне пришлось отказаться от его моментального выполнения во время добавления картинки.


Далее на основе данных в БД составляются графики, которые сравниваются друг с другом с определенной допустимой погрешностью (процесс тоже довольно требователен к ресурсам).

И вот тут возникает дилемма: Если процент погрешности высокий, то  процесс выявляет множество картинок, которые на самом деле не являются дубликатами (они просто схожи по палитре). Если процент погрешности наоборот уменьшить, то скрипт не считает за дубликаты ту-же самую картинку, но в другом разрешении или немного обрезанную или с нанесенным водяным знаком. Поэтому процесс погрешности приходиться увеличивать и из-за этого у некоторых картинок получается выявлено по 50-60 псевдо-дубликатов, с учетом, что во всей базе сайта всего около 6000 картинок - это очень много.


По этому, я хочу спросить:

Ваш алгоритм позволяет с высокой точностью выявить дубликаты картинок, либо вы испытываете те-же самые сложности и просто отрубаете найденные псевдо-дубликаты при поиске?

Можно ли как-то позаимствовать, хотя-бы частично, ваш алгоритм выявления дублей? И если можно, то где я могу найти о нем информацию?

 

Буду благодарен за любые подсказки и советы,

Спасибо.
 

С уважением,

Леонид. 
3 комментария
поиск по картинкам,дубликаты,картинки
Странный скачок цен на Яндекс.Директе
OGreen2004
30 сентября 2010, 17:40
Шесть дней назад (24.09.2010) делал прогноз бюджета в Яндекс.Директе по определенным запросам (тематика «трудоустройство») - получил определенную сумму.

Сегодня формирую прогноз бюджета по тем же запросам... и получаю сумму почти в 10 раз большую. Почему-то резко выросли цены особенно на гарантированные показы.
 

Например:
поиск работы - с 0,20 до 0,98
работа - с 0,02 до 0,35
вакансии - с 0,07 до 0,30

Я с темой трудоустройства связан уже очень давно, и очень сильно сомневаюсь, что у рекрутеров вдруг появилось столько денег, что они готовы работать по таким ценам. Даже до кризиса ценник был ниже.

Может это все таки глюк?
Может кто-то наблюдал подобную картину по другим тематикам?
3 комментария
директ