Как работать с открытыми данными банка судебных решений?

Юридические вопросыПравоСудебные решения

Алёна Смолюк

24 марта 2021 · 1,5 K

Первый

ИПП – исследовательский институт, специализирующийся на эмпирических исследованиях права,... · 24 мар 2021 · enforce.spb.ru

Отвечает

Дмитрий Скугаревский

Российская судебная система выгодно отличается от аналогов доступностью информации о решениях судов. Во многих развитых странах производство в судах по-прежнему ведется на бумаге, без электронных записей. Например, в Великобритании решения судов графств, где рассматривается большинство дел, практически не публикуются.

Там, где единые базы есть, доступ к ним не всегда публичен. В США еще с 1990-х гг. действует похожая на российскую единая база дел федеральных судов PACER (Public Access to Court Electronic Records). Однако в PACER получить одну страницу документа стоит 10 центов (или макс. 3 доллара, если документ больше 30 страниц). Активисты в стране боролись за свободное распространение информации о документах по делу (см. заметку в авторитетном издании Ars Technica). Наши сотрудники Дмитрий Скугаревский и Тимур Бочаров сравнивали судебные системы мира по этому параметру в своей колонке в издании VTimes.

По этой причине следует ценить ситуацию, когда все решения судов общей юрисдикции и мировых судов России теоретически доступны каждому в Банке судебных решений (БСР) (https://bsr.sudrf.ru/) Государственной автоматизированной системы «Правосудие» бесплатно. Однако на практике мы знаем, что часто БСР работает медленно из-за загруженности сервера. Ответ на вопрос о работе с этими данными следует разделить на две части: техническую и содержательную.

С технической точки зрения, нет ничего сложного в том, чтобы написать парсер этих данных и собрать тексты в базу данных. Поиск словосочетания «sudrf.ru» в коде репозиториев, размещенных на GitHub, крупнейшем хранилище кода, дает свыше 600 совпадений. Рекомендую рассмотреть базу кода проекта «Близким лицом близкому лицу» (https://github.com/LanaLob/russian_femicide) как пример того, как организовать процесс скрэпинга.

С содержательной точки зрения, следует задать себе вопрос: для каких целей вы собираете эти данные? Наши первые изыскания с текстами решений судов прошли в 2011 г. Тогда мы скачали с сайтов арбитражных судов 10 тыс. случайных решений, а потом нанятые аннотаторы выделяли нужные нам характеристики из них. Возможно, для ваших целей достаточна такая схема работы: скачать случайную выборку решений и закодировать их по нужному признаку вручную. Уже это даст вам знание о работе судебной системы. Если же вы преследуете коммерческие цели (например, мониторинг контрагентов), то вам требуется точное понимание сторон в каждом деле. В этом случае уместно воспользоваться инструментами обработки естественных языков: выделение именованных сущностей и т.п.

Наконец, всегда следует помнить о риске непубликации или запоздалой публикации текста решения в БСР. Мы не знаем, какие суды всегда в срок выкладывают решения в электронную систему, а какие — задерживаются или не публикуют их вовсе, довольствуясь своими сайтами (напр., Мосгорсуд). Если не учитывать это, вы будете работать с неполными данными. Лучший способ верификации здесь: скачать все доступные в БСР решения суда за период и сравнить с количеством решений за тот же период, по которым суд отчитался в разделе «Судебная статистика» на своем сайте. Когда расхождение большое, это сигнал о склонности аппарата суда не размещать сведения в БСР.