Взаимодействие Народной карты и Справочника вызывает много вопросов, поэтому мы решили в одном посте рассказать о текущем формате взаимодействия и о тех шагах, которые мы хотим сделать для его улучшения. Чтобы лучше понимать процессы, давайте начнём с самого сначала.
Две базы данных
Исторически «картографическая» и «справочная» базы данных возникли и развивались независимо. Картографическая — на основе данных из Народной карты. Возможность рисовать организации появилась в НЯК в 2011 году.
С апреля 2015 года, когда Народная карта стала редактором данных для Яндекс.Карт, база организаций в Народной карте отвечала за показ иконок на карте, а база Справочника — за подробные данные об организации, которые отображаются в карточке объекта.
Эти два сценария использования данных сильно отличаются. Иконками нужно показывать прежде всего те организации, которые заметны пользователю на местности и могут служить ориентирами (храмы, сетевые магазины, кафе и т. п.). Огромное количество организаций такими ориентирами не является (например, кадастровое бюро или издательский центр), на карте их отображать не обязательно, но при этом важно находить их в поиске, правильно показывать контакты и часы работы.
Немного о масштабах
Сейчас в НЯК только на территории России — несколько миллионов организаций, а в базе Справочника их в 2 раза больше.
В Народной карте в слое Места вносится несколько тысяч правок в день. Справочник же работает с в разы большим количеством изменений в данных.
Источники данных об изменениях
Весь поток состоит из:
1. Правки организаций в Народной карте
2. Обратная связь от пользователей геосервисов Яндекса
3. Комментарии пользователей из интерфейса Справочника
4. Письма в службу поддержки
5. Информация от региональных партнеров
6. Информация от сетевых организаций об изменениях в филиалах
7. Информация об изменениях, получаемых при звонках в организации
8. Информация, полученная в самих организациях сотрудниками Справочника и участниками проекта Толока
Интеграция
Об интеграции начали говорить с момента появления в Народной карте точечных объектов. Справочник организаций к этому времени уже существовал. Параллельное ведение двух больших баз данных почти всегда вызывает проблемы. В частности, могут отличаться данные об одной организации в разных базах или могут быть ошибки в провязке объектов из двух баз. В нашей ситуации эти проблемы, к сожалению, также присутствуют. Однако радикальным образом объединить две базы, к сожалению, очень сложно, и потому правильный путь — постепенная интеграция.
Самая важная задача, которую должна решить интеграция, — полная база актуальной и непротиворечивой информации в геосервисах Яндекса. Что мы уже сделали, чтобы достичь этого:
— предоставили возможность явным образом провязать организацию из Народной карты и организацию из Справочника;
— добавили введение в Народной карте детальной рубрикации организаций по образцу Справочника;
— экспортировали из Народной карты в Справочник данные об изменениях в слое организаций (в том числе о создании новых организаций).
Данные из Народной карты в Справочнике
Каждый день Народная карта отправляет в Справочник данные об изменениях в организациях, сделанные за прошедшие сутки. Что с этими данными происходит?
· Часть поступивших изменений вносится в данные Справочника автоматически. Так, для свежесозданной в НЯК организации, если провязка со Справочником при создании не была задана вручную, алгоритмы ищут соответствие и осуществляют её. Если организация в справочнике не находится, создаётся новая карточка.
· Часть изменений автоматически сравнивается с имеющимися данными, после чего принимается решение об их замене.
Решение зависит в том числе от того, кто является автором текущих данных в Справочнике. Так, например, если это подтвержденный владелец организации, который регулярно актуализирует данные о ней, доверие к нему высокое и изменения могут быть отклонены.
В ситуации, когда решение не может быть принято автоматически, запрос на внесение изменений отправляется на ручную модерацию.
Ручная модерация в Справочнике
Вручную модерируется часть изменений, поступающих в Справочник разными способами, в том числе из Народной карты.
Как и в Народной карте, часть предлагаемых изменений является «сложными» и для того, чтобы принять решение, нужно детально разобраться в ситуации, проверить не только текущий объект, но и смежные.
Могут встречаться дубли организаций, но при этом расположение, название и атрибуты могут различаться. И наоборот, могут быть очень похожие по многим параметрам организации (в том числе по названию и расположению), которые на самом деле являются разными.
Этап ручной модерации очень важен ещё и потому, что в Справочнике, как и в Народной карте, есть, к сожалению, вандализм (сознательное внесение ошибочных данных). Пользователи через различные каналы могут вносить искажённые или ложные сведения об организациях, в том числе о своих или конкурирующих. Поэтому без проверок не обойтись.
Во всех неочевидных случаях коллеги пробуют связаться с организацией и непосредственно уточнить ситуацию «на местности», либо же найти интересующие данные в открытых источниках в интернете (включая сайт самой организации). По итогам принимается решение.
Надеемся, что прочитавшие этот пост получили более полное представление о Справочнике и его взаимодействии с Народной картой, и в завершение хотим ответить на три самых, наверное, часто звучащих вопроса про взаимодействие двух сервисов.
Почему изменения, которые я внес в НЯК или через форму обратной связи в картах, могут быть отклонены? Я же народный картограф.
В этом посте мы постарались показать вам масштаб данных в Справочнике. Важно понимать, что Народная карта — это важный, но не единственный источник информации для базы Справочника.
Данные из Народной карты и изменения, которые вносятся на сервисе, могут конкурировать с другими источниками информации (и иногда противоречить им). Это нормальная, более того, единственно возможная ситуация. При очень большой (по сравнению с другими типами данных) динамике изменений важно собирать максимально полную информацию о них, делать это возможно только используя одновременно разные каналы.
Создать идеально выверенные алгоритмы, которые бы работали безукоризненно в указанных масштабах, непросто. Эта работа сейчас в процессе.
Так что же делать, если мои изменения не принимают?
Обращаться в службу поддержки Справочника. Обратная связь помогает коллегам не только исправить конкретные ошибки и неточности в данных, но и улучшить процессы и алгоритмы.
Что вы будете делать, чтобы стало лучше?
Ближайшим шагом в сторону синхронизации двух баз данных станет организация «обратной связи», чтобы изменения данных в Справочнике отражались в Народной карте.
В Народной карте такие изменения будут показываться как правки аккаунта-робота «Агент Справочник». Важно понимать отличие этого аккаунта, например, от Домового: если последний всегда работает под контролем картографа, то Агент Справочник будет работать в том числе и в полностью автоматическом режиме (в рамках синхронизации данных Справочника и НЯК). Процесс «внедрения» Агента будет постепенным и небыстрым. Мы хотим быть аккуратными.
Также мы планируем (немного попозже) устранить расхождения в формате атрибутов организаций в Народной карте и в Справочнике (в частности, атрибута «время работы», вызывающего много вопросов).
Про реализованные изменения мы обязательно будем рассказывать здесь, в Клубе, следите за обновлениями.
Спасибо всем, кто дочитал этот пост до конца.