Мы — технологичная и быстрорастущая компания, строим умную, гибкую и масштабируемую data-инфраструктуру с нуля. В команде — ML-инженеры, аналитики, продуктовые команды. Мы уже понимаем, насколько критична роль Data Engineering — и хотим, чтобы этой системой управлял человек с опытом и архитектурным мышлением.
⸻
Что предстоит делать:
• Спроектировать и реализовать архитектуру единого профиля клиента (Customer360): все данные о пользователях в одном месте, доступные в near real-time.
• Построить и развивать Data Lake как центральную точку хранения сырых и обработанных данных.
• Создать и поддерживать Data Warehouse и витрины под нужды ML, BI и продуктовых команд.
• Разрабатывать надежные ETL/ELT пайплайны (Python / Airflow / Spark / dbt).
• Выстраивать многоуровневую структуру данных: raw → staging → curated → feature layers.
• Настроить мониторинг качества данных, отслеживание метрик и алерты.
• Участвовать в выборе технологий, постановке архитектуры хранения данных.
⸻
Технологический стек:
• Data Lake: S3 / MinIO + Parquet / DeltaLake
• Хранилища: PostgreSQL, ClickHouse
• ETL: Python, Airflow, dbt
• Оркестрация: Airflow, Prefect (по выбору)
• CI/CD и инфраструктура: GitLab, Docker, Kubernetes
• Стриминг: Kafka, RabbitMQ
• ML-инфраструктура: Feature Store, Model Monitoring (совместно с ML-инженерами)
• Мониторинг и алерты: Prometheus, Grafana, кастомные метрики
⸻
Требования:
• Опыт проектирования и реализации Data Lake / Data Warehouse с нуля.
• Продвинутые знания SQL (PostgreSQL, ClickHouse).
• Опыт построения ETL/ELT пайплайнов на Python, уверенное владение pandas, pyarrow, SQLAlchemy и т.п.
• Понимание подходов к дата-моделированию: star/snowflake schemas, partitioning, schema evolution.
• Знание CI/CD, Docker
• Опыт работы с стриминговой обработкой данных (Kafka, Spark Streaming, Flink и/или RabbitMQ).
⸻
Будет плюсом:
• Опыт работы с Lakehouse архитектурой (например, DeltaLake, Iceberg, Hudi)
• Опыт в совместной работе с ML-командами (feature engineering, пайплайны, мониторинг моделей)
• Опыт работы с векторными базами данных (Faiss, Qdrant, Pinecone и др.)
• Участие в построении Feature Store, реализации data contracts, Data Quality слоёв
⸻
Почему это интересно:
• Возможность заложить архитектуру данных с нуля под реальный рост и масштаб.
• Работаете в связке с ML и backend-инженерами, внедряя реальные ML-решения в продакшн.
• Свобода выбора инструментов и подходов, минимум бюрократии.
• Влияние на стек, процессы, культуру — вы не просто исполнитель, вы архитектор системы.
⸻
Хочешь строить data-инфраструктуру, которая реально влияет на бизнес?
Пиши — обсудим, расскажем подробнее!
Ключевые навыки
- Lakehouse
- Spark
- Python
- Scala
- SQL
- Kafka
- Airflow
- Docker
- Kubernetes
- CI/CD
- Git
- Data Quality
- dbt
- DevOps
- RabbitMQ
Задайте вопрос работодателю
Вакансия опубликована 29 марта 2025 в Москве