Войти

AI / ML Security

Территория охоты:
все сервисы Яндекса, использующие генеративные нейросети

1

Награды

2

Исключения

Вам предстоит искать уязвимости, которые могут возникать в системах и приложениях, использующих генеративные нейросети. Это включает в себя как проблемы в самих ML-моделях, так и ошибки конфигурации в инфраструктуре, которая поддерживает их работу.

В программе участвуют все сервисы и ИИ-продукты Яндекса, использующие генеративные или дискриминативные модели семейства Alice AI.

Алиса AI;

Яндекс с Алисой AI;

Шедеврум;

Алиса Про;

Браузер с Алисой AI;

Другие сервисы, включая те, где ML-модель используется неявно для ранжирования, классификации и поиска.

Мы не рассматриваем проблемы этики в этой категории «Охоты». Полный список исключений можно найти в разделе «Исключения».

{ Вознаграждения }

Размер вознаграждения зависит от критичности уязвимости, простоты её эксплуатации и воздействия на чувствительные данные.

Уязвимости, не затрагивающие функциональность ИИ/ML, будут оцениваться в соответствии с основной категорией "Охоты за ошибками".

Категория	Пример	Вознаграждение
Атаки на сбор и подготовку данных, процесс обучения модели: атаки на цепочку поставок, атаки на процесс обучения модели, отравление данных	Преднамеренное внесение искажённых промптов (при онлайн-дообучении) или заражённых записей в источники данных с целью изменить стиль, тональность или качество ответов в будущем;	200,000 — 1 ,000, 000 ₽
Раскрытие информации: технических и чувствительных данных	Получение данных о взаимодействии пользователей с моделью: доступ к истории диалогов других пользователей с помощью промпта; Раскрытие внутренних конфигураций, позволяющее узнать больше информации о принципах работы модели: получение весов модели, уровня уверенности в ответе или раскрытие критичной технической информации;	150 ,000 — 1, 000, 000 ₽ Чувствительные данные до 200,000 ₽ Технические данные
Атаки на принятие бизнес-решений моделью: состязательные атаки (adversarial attacks), атаки влияющие на алгоритмы принятия решений	Инъекция промпта в сценарии, где на его основе принимается бизнес-решение, затрагивающее другие сервисы или пользователей. Например: загрузка товара с промпт-инъекцией в описании, которая повиляет на ранжирование товаров в поисковой выдаче;	50,000 — 300,000 ₽
Атаки на инфраструктуру: изменение поведения системы для других пользователей, изменение технических характеристик или возможностей системы	Изменение поведения модели для других пользователей c помощью служебных команд, флагов конфигурации и других технических параметров: с например, с помощью флага `«set_mode=english»` заставить модель отвечать всем на английском языке; Влияние на поведение модели при взаимодействии с несколькими пользователями: c например, с помощью промпта одного пользователя повлиять на стиль ответов другого пользователя или всех сразу;	до 500,000 ₽
Другие атаки: уязвимости в плагинах или инструментах модели, обходы технических ограничений; атаки, влияющие на конфиденциальность и целостность наших систем	Обход технических ограничений модели: например, обход механизмов тарификации запросов в платном API; Уязвимости в официальных плагинах и инструментах, расширяющих функциональность модели или агента. Например, для плагина, позволяющего отправлять поисковые запросы в реальном времени — отправка запросов на внутренний хост; Для браузерного расширения, которое помогает заказывать товары на Яндекс Маркете — изменение цены и покупка товара за 0 рублей.	до 250,000 ₽

{ Out of scope }

Проблемы, связанные с этикой:

Модель демонстрирует предвзятость, дискриминацию или другие нежелательные поведенческие особенности, а также искажает общеизвестные факты, предоставляет некорректные или неполные ответы. Если вы столкнулись с подобным поведением, пожалуйста, сообщите об этом в Поддержку;

Промт-инъекции:

Инъекции, которые влияют исключительно на принятие решений моделью или на контент, создаваемый для самого атакующего. Например, изменение стиля чата или генерация изображения в ином стиле;
Инъекции без демонстрации значимого влияния на безопасность.

Раскрытие информации:

Дамп системного промпта или контекста пользователя (user context) без раскрытия существенных технических секретов (собственный UID, orgID и подобные данные не являются секретом для пользователя).

Галлюцинации модели:

Случаи, когда модель имитирует выполнение кода, раскрытие персональных данных пользователей или служебных промптов, но на самом деле реальные данные не раскрываются.
Для проверки на наличие галлюцинации следует задать такой же промпт в новом чате, с другого аккаунта или устройства. Проверить выполнение кода и доступ во внутреннюю сеть Яндекса можно с помощью ssrf-sheriff ;

Уязвимости, влияющие на доступность сервисов:

Если вы подозреваете наличие уязвимости, которая может повлиять на доступность наших сервисов, пожалуйста, воздержитесь от дальнейшего тестирования и сообщите нам об этом, чтобы мы могли провести проверку в контролируемой среде.

Прочее:

Уязвимости, найденные в сторонних сервисах клиентов Yandex Cloud, не входят в рамки этой категории «Охоты»;
Cпуфинг системной разметки диалога/чата без проведения полноценной XSS инъекции.

{ Этика }

Мы понимаем, что системы несовершенны, и, несмотря на все наши усилия, могут возникать случаи нарушения этических норм. Поэтому мы просим пользователей сообщать нам о любых нарушениях этики, с которыми они сталкиваются.

Вы можете использовать следующие каналы связи:

Обратная связь внутри диалога: если вы заметили некорректный ответ внутри диалога, нажмите "палец вниз" (дизлайк) у этого сообщения;
Служба поддержки: вы можете написать в поддержку Умных устройств / Поиска с Алисой / Шедеврума.