Объясни это компьютеру

11 сентября 2014, 13:59

Поисковым системам известны десятки миллиардов веб-страниц. Эти страницы содержат самые разные данные: тексты, картинки, видеоролики, карты, ссылки на другие страницы. Когда вам нужно что-то отыскать в Сети, вы обращаетесь к поисковой системе, и она находит веб-страницы с нужной информацией, ориентируясь на ключевые слова из запроса.

Поисковики достаточно умны, чтобы понимать, на каком языке задан запрос; они умеют учитывать морфологию языка и подбирать словам из запроса синонимы. Однако в полной мере осознать, о чём именно идет речь на найденной веб-странице, машины не в состоянии.

Представьте, к примеру, сайт поликлиники с возможностью записи на приём к врачу через интернет. Среди всех страниц сайта поисковый робот без труда найдёт нужную — ту, где выполняется запись, — но дальше возникнут трудности. Человек легко догадается, что «Иванов», «Петров» и «Сидоров» — это фамилии врачей, «окулист», «невролог» и «терапевт» — их специализации, а «9:00», «9:30» и «10:00» — возможное время начала приёма. Компьютер же самостоятельно такие выводы сделать не может.

А если бы машина могла «читать» страницы так же, как это делает человек, она бы могла помочь в решении гораздо более сложных задач. Скажем, не просто «Записаться к врачу в поликлинику №2», а «Записаться к окулисту, о котором хорошо отзываются, в поликлинику не дальше чем в пяти километрах от моей работы, на 12-13 сентября, на утро, но не позже 11:00».

Впрочем, объяснить компьютеру, о чем идёт речь на веб-странице, вполне возможно. Для этого нужно дать ему подсказку. Такой подсказкой служит семантическая разметка или микроразметка. По сути, микроразметка — это отдельный язык с собственными словарём и синтаксисом, задача которого — помочь машинам (в частности, поисковым роботам) понять концепции, используемые людьми.

Микроразметка добавляется в HTML-код веб-страницы. В глазах человека размеченная и неразмеченная страницы выглядят абсолютно одинаково, но для поисковой системы разница очень велика.

Чтобы понять, как работает микроразметка, рассмотрим простую фразу: «У Петра есть сын Иван». Несмотря на простоту человек может сделать из неё множество выводов: Пётр — отец (а также родитель) Ивана, отчество Ивана — Петрович, Пётр и Иван — мужчины и родственники, Пётр старше Ивана. Все эти факты очевидны, поскольку нам их подсказывает жизненный опыт. У машины такого опыта нет, поэтому она может воспринимать фразу только в её текущей формулировке.

Это — та же самая фраза, но с микроразметкой. Теперь компьютер понимает, что Иван и Пётр — это имена людей, между которыми существует родственная связь (Иван — ребёнок, Пётр — родитель), и ему не составит труда отвечать на вопросы вида «Кто родитель Ивана?». Кроме того, если добавить в разметку уникальные идентификаторы (например, ссылки на страницы в соцсетях), машина сможет отличать конкретных Ивана и Петра от их тёзок.

Микроразметка используется не только в случаях, когда речь идёт о людях. Аналогичным образом можно разметить и музыку, и видеозаписи, и события, и товары, и многое другое.

Единого стандарта микроразметки пока нет. Существуют разные синтаксисы и разные словари. Например, социальные сети собирают данные о сайтах с помощью словаря Open Graph, разработанного в Facebook, а поисковики, включая Яндекс, чаще ориентируются на словарь Schema.org. Подробнее о том, как устроены словари и синтаксисы, можно прочитать в техноблоге Яндекса на «Хабрахабре».

В том или ином виде микроразметку используют около 30% веб-страниц, известных Яндексу. Отсутствие микроразметки не влияет ни на способность страницы попадать в результаты поиска, ни на её позицию в результатах поисковой выдачи. Однако в ряде случаев разметка способна значительно упростить жизнь — как сайтам, так и пользователям.

Сделать наглядный сниппет

Одно из главных достоинств микроразметки состоит в том, что она даёт поисковику возможность строить красивые «сниппеты» — короткие описания сайтов. Например, вы играете на гитаре и ищете в Яндексе [аккорды группа крови]. Если вебмастер сайта, публикующего аккорды, добавил к себе на ресурс семантическую разметку, то вы сможете просмотреть текст песни с аккордами прямо на странице с результатами поиска.

Узнать подробности

Партнёры Яндекс.Видео используют семантическую разметку для того, чтобы сообщить сервису подробности о своих видеозаписях: например, кто играет в том или ином фильме, когда он был снят, каков его жанр и для какой аудитории он предназначен. С помощью этой информации сервис может точней отвечать на запросы пользователей, которые ищут, например [кино с Джеки Чаном], [мультики для самых маленьких] или [комедии шестидесятых].
Аналогичным способом пополняются базы и некоторых других сервисов Яндекса – например, Справочника.

Дать возможность действовать

В новом интерфейсе Яндекса — Островах — у сайтов в поисковой выдаче появятся дополнительные интерактивные блоки. Такой блок позволит пользователю решить задачу, сформулированную в запросе: например, «выбрать автомобиль» или «пожаловаться на погнутые перила в подъезде». Подробнее об островах можно узнать здесь.

Некоторые блоки-«острова» показывают информацию, обновляющуюся в режиме реального времени. Например, в случае с интернет-магазинами вы можете выбрать параметры и увидеть список товаров, которые этим параметрам соответствуют, — и всё это прямо на странице с результатами поиска. Данные для построения такого «острова» сайты передают Яндексу с помощью семантической разметки.

Построить Веб 3.0

В 2001 году Тим Бернерс-Ли, автор концепции Всемирной паутины, предложил идею «семантического веба». Это своего рода надстройка над «обычным» вебом, цель которой — с помощью семантической разметки объяснить машинам, о чём идёт речь на любой странице в интернете. Обладая таким знанием, машины смогут решать куда более сложные задачи, чем сейчас, и лучше понимать людей. Правда, удастся ли воплотить эту идею в жизнь, пока никто не знает.

11 комментариев

Авторизуйтесь, чтобы оставить комментарий

Игорь

26 ноября 2015, 14:58

На скриншоте у вас фраза "У Петра" имеет разделитель "У Петра" - корректно ли разделять 1 слово спанами?

Игорь

26 ноября 2015, 14:58

"У [span]Петр[span]а"

Вадим Макеев

26 ноября 2015, 14:58

Как же грустно смотрится скриншот кода в посте про семантический веб :(

Максим Гуменюк

26 ноября 2015, 14:58

Так о чем статья? по абзацу из яндекс помощи скопировали... Когда уже острова запустят?

coth

26 ноября 2015, 14:58

С планшетами когда разберётесь? 3 года назад об этом разговаривали - говорили, что уже работаете над объединением модификаций (размер памяти, наличие модема, цвет итп). Тогда планшетов было с гулькин нос. Сделать это можно было за неделю. Но прошло 3 года, а в разделе планшетов до сих пор неразбериха.

coth

26 ноября 2015, 14:58

Да и не говоря о возможности отбирать любимые магазины. Либо хотя бы чекбоксы в списке магазинов, вместо радиобоксов.

Антоний

26 ноября 2015, 14:58

Автор статьи, по-русскому 3 было ? не К ВРАЧУ а КО ВРАЧУ.. перепроверьте весь текст! Во всём тексте подобных ошибок много!
http://dic.academic.ru/dic.nsf/ushakov/835774

bit.org

26 ноября 2015, 14:58

Хорошая статья, спасибо!

Александр

26 ноября 2015, 14:58

Все это конечно хорошо, но! Зачем вебмастеру сайта по аккордам делать такую разметку? В чем выгода? Зачем это вебмастеру? Чтобы потерять часть трафика?

Ведь увидев ответ в выдаче уже нет надобности переходить на страницу сайта!

Deliya Makhmutova

26 ноября 2015, 14:58

Александр,

по нашей статистике люди чаще переходят на сайты с информативными и структурированными сниппетами. К тому же в аккордных сниппетах показываются всего две строчки из песни – этого явно недостаточно для полноценной игры, и за аккордами всей песни пользователи идут на сайт.

Денис Колосов

26 ноября 2015, 14:58

Вывел для своего блога, жду результатов :)