Data Conf

Недемократичная dag-factory в Airflow или YAML в массы.

Практические примеры внедрений

Python

Доклад принят в программу конференции

Целевая аудитория

Аналитики данных; Инженеры данных; Специалисты по инструментам оркрестраций.

Тезисы

Доклад посвящен эволюции и практическому применению самописному DAG Factory в экосистеме Apache Airflow на примере пятилетнего опыта компании. Рассматриваются предпосылки внедрения динамической генерации DAG-файлов, анализируются преимущества и недостатки данного подхода, включая упрощение работы аналитиков с Airflow через YAML-конфигурации и высвобождение ресурсов инженеров. Особое внимание уделяется техническим вызовам при переходе между версиями Airflow (1.x → 2.x), таким как проблемы сериализации DAG и мониторинга, а также специфике реализации собственного решения marts_load_v1. В заключение обсуждаются перспективы развития системы в контексте выхода Airflow 3, миграции от монокластера к мультикластерной архитектуре и дальнейшего сосуществования с современными инструментами при сохранении совместимости с существующими DQ- и BI-решениями.

Зотов Михаил

Лемана Тех

Пришел в инжиниринг данных из бизнес-аналитики.
Читаю курс "Обработка больших данных" в МГТУ им. Н.Э.Баумана.

Видео