AI / ML Security

Территория охоты:
все сервисы Яндекса, использующие генеративные нейросети


Вам предстоит искать уязвимости, которые могут возникать в системах и приложениях, использующих генеративные нейросети. Это включает в себя как проблемы в самих ML-моделях, так и ошибки конфигурации в инфраструктуре, которая поддерживает их работу.

В программе участвуют все сервисы и ИИ-продукты Яндекса, использующие модели семейства YandexGPT и YandexART:

  • Алиса;
  • Поиск с Нейро;
  • Шедеврум;
  • Другие сервисы, включая те, где ML-модель используется неявно для ранжирования и поиска.
  • Мы не рассматриваем проблемы этики в этой категории «Охоты». Полный список исключений можно найти в разделе «Исключения».

    { Вознаграждения }
    Размер вознаграждения зависит от критичности уязвимости, простоты её эксплуатации и воздействию на чувствительные данные.

    Уязвимости, не затрагивающие ИИ/ML функциональность, будут оценены в соответствии с основной категорией "Охоты за ошибками".

    Категория
    Пример
    Вознаграждение
    Атаки на процесс сбора и обработки данных и обучение моделей: атаки на цепочку поставок, атаки на процесс обучения модели, отравление данных
    • Отравление обучающей выборки:
      повлиять серией промтов / заражённых данных в источнике на стиль / качество ответов в будущем;
    200,000 — 1 ,000, 000 ₽
    Раскрытие информации: технических и чувствительных данных
    • Получение данных о взаимодействии пользователей с моделью:
      c помощью промта получить сторонние данные истории диалогов;
    • Раскрытие внутренних конфигураций, позволяющее получить больше информации о том, как работают модели: получить веса модели / уровень уверенности в ответе / раскрытие служебного промта с техническими данными;
    150 ,000 — 1, 000, 000 ₽ Чувствительные данные

    до 200,000 ₽ Технические данные
    Атаки на принятие бизнес-решений моделью: состязательные атаки (adversarial attacks), атаки влияющие на алгоритмы принятия решений
    • Инъекция промта в случае, когда на его основе принимается бизнес-решение, затрагивающее другие сервисы или пользователей:
      загрузка товара с промт-инъекцией в описании, которая будет влиять на ранжирование товаров в поисковой выдаче;
    50,000 — 300,000 ₽
    Атаки на инфраструктуру: изменение поведения системы для других пользователей, изменение технических характеристик/способностей системы
    • Изменение поведения модели для других пользователей c помощью служебных команд / флагов конфигурации и других технических параметров:
      с помощью дополнительного флага «set_mode=english» заставить модель отвечать всем на английском языке;
    • Влияние / изменение поведения модели при взаимодействии с несколькими пользователями:
      c помощью промта одного пользователя повлиять на стиль ответов другого / всех пользователей;
    до 500,000 ₽
    Другие атаки: уязвимости в плагинах, обходы технических ограничений, атаки, влияющие на конфиденциальность и целостность наших систем
    • Обход технических ограничений модели: обойти механизмы тарификации запросов в платное API;
    • Уязвимости в официальных плагинах, расширяющих функциональность модели:
      Например, для плагина, который позволяет модели отправлять поисковые запросы в реальном времени — отправка запросов на внутренний хост;
      Для браузерного расширения, которое помогает заказывать товары с Яндекс Маркета, получая актуальные цены — изменение цены и покупка товара за 0 рублей.
    до 250,000 ₽
    { Out of scope }
    • Проблемы, связанные с этикой:
      Модель демонстрирует предвзятость, дискриминацию или другие нежелательные поведенческие особенности, а также искажает общеизвестные факты или предоставляет некорректные или неполные ответы. Если вы столкнулись с подобным поведением модели, пожалуйста, сообщите об этом в  Поддержку;

    • Промт-инъекции:
      Инъекции, которые влияют исключительно на принятие решений моделью или контент, создаваемый атакующим, например, изменение стиля чата атакующего или генерация изображения в ином стиле;
    • Галлюцинации модели:
      Это случаи, когда модель имитирует выполнение кода, раскрывает персональные данные пользователей или служебные промпты. Для проверки выполнения кода можно воспользоваться ssrf-sheriff;

    • Уязвимости, влияющие на доступность сервисов:
      Если вы подозреваете наличие уязвимости, которая может повлиять на доступность наших сервисов, пожалуйста, воздержитесь от дальнейшего тестирования и сообщите об этом нам, чтобы мы могли провести проверку в контролируемой среде.

    • Уязвимости, найденные в сторонних сервисах клиентов Yandex Cloud не входят в скоуп этой категории «Охоты».
    { Этика }
      Мы ответственно относимся к вопросам этики в ответах и поведению генеративных моделей, однако генерация неэтичного контента (например, оскорблений) не входит в это направление "Охоты за ошибками".

      Мы понимаем, что каждая система не идеальна, и, несмотря на все наши усилия, могут возникать случаи нарушения этических норм. Поэтому мы просим пользователей сообщать нам о любых нарушениях этики, с которыми они сталкиваются.

      Вы можете использовать следующие каналы связи:

    • Обратная связь внутри диалога: если вы заметили некорректный ответ внутри диалога, вы можете "нажать палец вниз" у этого ответа;
    • Служба поддержки: вы можете написать в поддержку Алисы / Поиска с Нейро / Шедеврума.
    Thu Apr 10 2025 08:54:24 GMT+0300 (Moscow Standard Time)