Поскольку речь скорее всего идет о FOSS product, то в списке
всего три варианта , исключая DVC. Я тут просто работаю как переводчик. Смотрите источник сами ( если английский позволяет )
Git Large File Storage (LFS) - это проект с открытым исходным кодом. Он заменяет большие файлы, такие как образцы аудио, видео, наборы данных и графику, текстовыми указателями внутри Git, сохраняя при этом содержимое файла на удаленном сервере, таком как
GitHub.com или GitHub Enterprise. Он позволяет вам версировать большие файлы - даже размером до пары ГБ - с помощью Git, размещать больше файлов в ваших репозиториях Git с помощью внешнего хранилища, а также быстрее клонировать и извлекать из репозиториев, которые имеют дело с большими файлами.В то же время вы можете сохранить свой рабочий процесс и те же элементы управления доступом и разрешения для больших файлов, что и остальная часть вашего репозитория Git, при работе с удаленным хостом, таким как GitHub.
==========================================
lakeFS - это платформа с открытым исходным кодом, которая предоставляет Git-подобную модель ветвления и фиксации, которая масштабируется до петабайт данных за счет использования S3 или GCS для хранения. Эта модель ветвления делает ваше озеро данных ACID-совместимым, позволяя изменениям происходить в изолированных ветвях, которые можно создавать, объединять и откатывать атомарно и мгновенно.В lakeFS есть три основные области, которые позволяют вам сосредоточиться на различных аспектах ваших моделей машинного обучения. Среда разработки для данных: имеет инструменты, которые можно использовать для выделения снимков озера, с которыми можно экспериментировать, пока другие не открыты; воспроизводимость для сравнения изменений и улучшения экспериментов. Непрерывная интеграция данных: ввод и управление данными в соответствии с вашими собственными правилами.Непрерывное развертывание данных: возможность быстро отменить изменения в данных; обеспечение согласованности ваших наборов данных; тестирование производственных данных, чтобы избежать каскадных проблем с качеством.lakeFS - отличный инструмент, позволяющий сосредоточиться на определенной области ваших наборов данных, чтобы сделать эксперименты машинного обучения более последовательными.
=========================================
Delta Lake - это уровень хранения с открытым исходным кодом, который обеспечивает надежность озер данных. Delta Lake обеспечивает транзакции ACID, масштабируемую обработку метаданных и унифицирует потоковую и пакетную обработку данных. Он работает поверх существующего озера данных и полностью совместим с API Apache Spark.
Краткое содержание:
Масштабируемая обработка метаданных: использует распределенную вычислительную мощность Spark для удобной обработки всех метаданных для петабайтных таблиц с миллиардами файлов.Унификация потоковой и пакетной передачи: таблица в Delta Lake является пакетной таблицей, а также источником и приемником потоковой передачи. Потоковая загрузка данных, пакетная историческая засыпка, интерактивные запросы - все работает сразу после установки.
Применение схемы: автоматически обрабатывает варианты схемы, чтобы предотвратить вставку неверных записей во время приема.Сериализуемые уровни изоляции гарантируют, что читатели никогда не увидят противоречивые данные. Управление версиями данных позволяет выполнять откаты, вести полный журнал аудита и воспроизводить эксперименты с машинным обучением.Поддерживает операции слияния, обновления и удаления для реализации сложных сценариев использования, таких как сбор измененных данных, операции с медленно изменяющимся измерением (SCD), потоковые обновления и т.д.