Столкнувшись с задачей сбора Data Lineage из ETL/ELT-процессов, основанных на Apache Spark и Apache Airflow, наша команда надеялась, что это будет довольно просто и получится использовать какое-то из готовых Open Source-решений — OpenMetadata, DataHub, Marquez и т.п. Все оказалось немного сложнее — сходу ни один инструмент нам не подошел либо по функционалу, либо по производительности. В итоге мы начали разрабатывать собственное решение — сервис DataRentgen https://github.com/MobileTeleSystems/data-rentgen.
Доклад фокусируется на выборе технологий для Lineage, их плюсах и минусах, а также соответствие требованиям разных категорий пользователей. Также рассматривается итоговый набор технологий, с помощью которых получилось реализовать свое решение. DataRentgen все еще в активной разработке, но уже собирает довольно много полезных данных.