Требования к инфраструктуре для работы Yandex Cloud AI Hybrid

Чтобы развернуть Yandex Cloud AI Hybrid, необходимо подготовить инфраструктуру. Потребуется кластер Kubernetes с поддержкой GPU, развернутую базу данных PostgreSQL, а также объектное хранилище, совместимое с AWS API или Yandex Object Storage API.

Компонент инфраструктуры Назначение Целевой компонент Cloud AI Hybrid
PostgreSQL Хранение метаданных сервисов Model Service, Queue Agent, Tuning Service, Dataset Service
Объектное хранилище S3 Хранение данных моделей. API объектного хранилища должен быть совместим с Yandex Object Storage API Model Service, Queue Agent, Tuning Service, Dataset Service
(Опционально) Apache Kafka® Работа с очередями. По умолчанию данные записываются агентом очередей в PostgreSQL и асинхронно обрабатываются компонентами Inference Inference Backend
Kubernetes Инфраструктурный слой работы Cloud AI Hybrid

Для всех баз данных необходим режим кластеризации. Для PostgreSQL предпочтителен режим физической репликации с возможностью читать данные из реплики. Для Apache Kafka® необходимы стандартные для этой базы режимы кластеризации и кворума.

Кластер Kubernetes должен поддерживать Persistent volume claim с объектным хранилищем (S3 Storage). То есть требуется драйвер CSI (Container Storage Interface) для доступа к S3 API. Узлы группы Kubernetes должны иметь GPU и набор LTS-драйверов NVIDIA®.