Недемократичная dag-factory в Airflow или YAML в массы.
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Доклад посвящен эволюции и практическому применению самописному DAG Factory в экосистеме Apache Airflow на примере пятилетнего опыта компании. Рассматриваются предпосылки внедрения динамической генерации DAG-файлов, анализируются преимущества и недостатки данного подхода, включая упрощение работы аналитиков с Airflow через YAML-конфигурации и высвобождение ресурсов инженеров. Особое внимание уделяется техническим вызовам при переходе между версиями Airflow (1.x → 2.x), таким как проблемы сериализации DAG и мониторинга, а также специфике реализации собственного решения marts_load_v1. В заключение обсуждаются перспективы развития системы в контексте выхода Airflow 3, миграции от монокластера к мультикластерной архитектуре и дальнейшего сосуществования с современными инструментами при сохранении совместимости с существующими DQ- и BI-решениями.
Пришел в инжиниринг данных из бизнес-аналитики.
Читаю курс "Обработка больших данных" в МГТУ им. Н.Э.Баумана.
Видео
Другие доклады секции
Практические примеры внедрений