Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.
Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).
Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).
Спасибо всем, кто принял участие в бета-тестировании.
Ден Расковалов и команда поиска отправляются в следующий город
Почему так происходит? Нет релевантных картинок запросу под обои.
День добрый,
есть ли способ с помощью API поиска по блогам или каким другим чудесным образом увидеть информацию, аналогичную blogs.yandex.ru (популярные темы, популярные блоги, категории и т.п.) но отфильтрованную по заданному региону ? Попытка сделать это через поиск (там фильтр geo=... работает) упирается в необходимость задать поисковую фразу, соотв. просто получить "все темы из заданного региона" не выходит.
Юра.
Приветствую всех. Прошу ответить на такой вопрос.
Давно в своём личном дневнике в социальной сети Привет.ру пишу обзоры фильмов и иногда даже музыки и книг. Подумываю создать для всего этого автономный блог, а на него скопировать все прежние обзоры.
Не окажется ли он тут же под баном или фильтром из-за того что материалы скопированы? Как можно этого избежать?
Процесс и выявления дубликатов картинок, для меня, как для владельца сайта с обоями для рабочего стола (в котором пользователи сами так-же публикуют обои) - очень интересен.
Я написал свой скрипт выявления дубликатов картинок на PHP+MySQL.
Принцип его работы таков:
Он определяет цвет каждого пикселя картинки (из 216 возможных). И высчитывает % присутствия каждого цвета на картинке ( до тысячных долей % ) и сохраняет эту информацию в БД. - этот процесс оказался настолько ресурсоемким, что мне пришлось отказаться от его моментального выполнения во время добавления картинки.
Далее на основе данных в БД составляются графики, которые сравниваются друг с другом с определенной допустимой погрешностью (процесс тоже довольно требователен к ресурсам).
И вот тут возникает дилемма: Если процент погрешности высокий, то процесс выявляет множество картинок, которые на самом деле не являются дубликатами (они просто схожи по палитре). Если процент погрешности наоборот уменьшить, то скрипт не считает за дубликаты ту-же самую картинку, но в другом разрешении или немного обрезанную или с нанесенным водяным знаком. Поэтому процесс погрешности приходиться увеличивать и из-за этого у некоторых картинок получается выявлено по 50-60 псевдо-дубликатов, с учетом, что во всей базе сайта всего около 6000 картинок - это очень много.
По этому, я хочу спросить:
Ваш алгоритм позволяет с высокой точностью выявить дубликаты картинок, либо вы испытываете те-же самые сложности и просто отрубаете найденные псевдо-дубликаты при поиске?Можно ли как-то позаимствовать, хотя-бы частично, ваш алгоритм выявления дублей? И если можно, то где я могу найти о нем информацию?
Буду благодарен за любые подсказки и советы,
Спасибо.С уважением,
Леонид.Сегодня формирую прогноз бюджета по тем же запросам... и получаю сумму почти в 10 раз большую. Почему-то резко выросли цены особенно на гарантированные показы.
Например:
поиск работы - с 0,20 до 0,98
работа - с 0,02 до 0,35
вакансии - с 0,07 до 0,30
Я с темой трудоустройства связан уже очень давно, и очень сильно сомневаюсь, что у рекрутеров вдруг появилось столько денег, что они готовы работать по таким ценам. Даже до кризиса ценник был ниже.
Может это все таки глюк?
Может кто-то наблюдал подобную картину по другим тематикам?