Мы команда инженеров данных, и наш продукт — Data Warehouse, хранилище данных, которое мы строим для нужд бизнес-подразделений. Наши пользователи — как руководители Маркета, которым нужна отчётность для принятия решений, так и эксперты в области глубокого анализа данных. Технологически ядро хранилища построено на системах хранения данных Yandex Tables (Hadoop собственной разработки), Greenplum и СlickHouse. Разработка процессов ETL идёт на собственном фреймворке, который создан внутри Яндекса. Для организации модели хранения данных на разных уровнях применяются подходы от Data Lake до Data Vault.
Наше хранилище данных сейчас одно из самых крупных в России. К нему предъявляются высокие требования по надёжности, и это ставит перед нашей командой далеко не тривиальные задачи, для которых нет готовых решений.