AI / ML Security

Территория охоты:
все сервисы Яндекса, использующие генеративные нейросети


Вам предстоит искать уязвимости, которые могут возникать в системах и приложениях, использующих генеративные нейросети. Это включает в себя как проблемы в самих ML-моделях, так и ошибки конфигурации в инфраструктуре, которая поддерживает их работу.

В программе участвуют все сервисы и ИИ-продукты Яндекса, использующие генеративные или дискриминативные модели семейства Alice AI.

  • Алиса AI;
  • Яндекс с Алисой AI;
  • Шедеврум;
  • Алиса Про;
  • Браузер с Алисой AI;
  • Другие сервисы, включая те, где ML-модель используется неявно для ранжирования, классификации и поиска.
  • Мы не рассматриваем проблемы этики в этой категории «Охоты». Полный список исключений можно найти в разделе «Исключения».

    { Вознаграждения }
    Размер вознаграждения зависит от критичности уязвимости, простоты её эксплуатации и воздействия на чувствительные данные.

    Уязвимости, не затрагивающие функциональность ИИ/ML, будут оцениваться в соответствии с основной категорией "Охоты за ошибками".

    Категория
    Пример
    Вознаграждение
    Атаки на сбор и подготовку данных, процесс обучения модели: атаки на цепочку поставок, атаки на процесс обучения модели, отравление данных
    • Преднамеренное внесение искажённых промптов (при онлайн-дообучении) или заражённых записей в источники данных с целью изменить стиль, тональность или качество ответов в будущем;
    200,000 — 1 ,000, 000 ₽
    Раскрытие информации: технических и чувствительных данных
    • Получение данных о взаимодействии пользователей с моделью:
      доступ к истории диалогов других пользователей с помощью промпта;
    • Раскрытие внутренних конфигураций, позволяющее узнать больше информации о принципах работы модели: получение весов модели, уровня уверенности в ответе или раскрытие критичной технической информации;
    150 ,000 — 1, 000, 000 ₽ Чувствительные данные

    до 200,000 ₽ Технические данные
    Атаки на принятие бизнес-решений моделью: состязательные атаки (adversarial attacks), атаки влияющие на алгоритмы принятия решений
    • Инъекция промпта в сценарии, где на его основе принимается бизнес-решение, затрагивающее другие сервисы или пользователей.
      Например: загрузка товара с промпт-инъекцией в описании, которая повиляет на ранжирование товаров в поисковой выдаче;
    50,000 — 300,000 ₽
    Атаки на инфраструктуру: изменение поведения системы для других пользователей, изменение технических характеристик или возможностей системы
    • Изменение поведения модели для других пользователей c помощью служебных команд, флагов конфигурации и других технических параметров:
      с например, с помощью флага «set_mode=english» заставить модель отвечать всем на английском языке;
    • Влияние на поведение модели при взаимодействии с несколькими пользователями:
      c например, с помощью промпта одного пользователя повлиять на стиль ответов другого пользователя или всех сразу;
    до 500,000 ₽
    Другие атаки: уязвимости в плагинах или инструментах модели, обходы технических ограничений; атаки, влияющие на конфиденциальность и целостность наших систем
    • Обход технических ограничений модели: например, обход механизмов тарификации запросов в платном API;
    • Уязвимости в официальных плагинах и инструментах, расширяющих функциональность модели или агента.
      Например, для плагина, позволяющего отправлять поисковые запросы в реальном времени — отправка запросов на внутренний хост;
      Для браузерного расширения, которое помогает заказывать товары на Яндекс Маркете — изменение цены и покупка товара за 0 рублей.
    до 250,000 ₽
    { Out of scope }

    Проблемы, связанные с этикой:

    • Модель демонстрирует предвзятость, дискриминацию или другие нежелательные поведенческие особенности, а также искажает общеизвестные факты, предоставляет некорректные или неполные ответы. Если вы столкнулись с подобным поведением, пожалуйста, сообщите об этом в Поддержку;


    Промт-инъекции:

    • Инъекции, которые влияют исключительно на принятие решений моделью или на контент, создаваемый для самого атакующего. Например, изменение стиля чата или генерация изображения в ином стиле;
    • Инъекции без демонстрации значимого влияния на безопасность.


    Раскрытие информации:

    • Дамп системного промпта или контекста пользователя (user context) без раскрытия существенных технических секретов (собственный UID, orgID и подобные данные не являются секретом для пользователя).


    Галлюцинации модели:

    • Случаи, когда модель имитирует выполнение кода, раскрытие персональных данных пользователей или служебных промптов, но на самом деле реальные данные не раскрываются.
    • Для проверки на наличие галлюцинации следует задать такой же промпт в новом чате, с другого аккаунта или устройства. Проверить выполнение кода и доступ во внутреннюю сеть Яндекса можно с помощью ssrf-sheriff;


    Уязвимости, влияющие на доступность сервисов:

    • Если вы подозреваете наличие уязвимости, которая может повлиять на доступность наших сервисов, пожалуйста, воздержитесь от дальнейшего тестирования и сообщите нам об этом, чтобы мы могли провести проверку в контролируемой среде.


    Прочее:

    • Уязвимости, найденные в сторонних сервисах клиентов Yandex Cloud, не входят в рамки этой категории «Охоты»;
    • Cпуфинг системной разметки диалога/чата без проведения полноценной XSS инъекции.
    { Этика }
      Мы ответственно относимся к вопросам этики в ответах и поведению генеративных моделей, однако генерация неэтичного контента (например, оскорблений) не входит в это направление "Охоты за ошибками".

      Мы понимаем, что системы несовершенны, и, несмотря на все наши усилия, могут возникать случаи нарушения этических норм. Поэтому мы просим пользователей сообщать нам о любых нарушениях этики, с которыми они сталкиваются.

      Вы можете использовать следующие каналы связи:

    • Обратная связь внутри диалога: если вы заметили некорректный ответ внутри диалога, нажмите "палец вниз" (дизлайк) у этого сообщения;
    • Служба поддержки: вы можете написать в поддержку Умных устройств / Поиска с Алисой / Шедеврума.
    Tue Feb 03 2026 14:56:09 GMT+0300 (Moscow Standard Time)