Столкнувшись с задачей сбора Data Lineage из ETL/ELT процессов, основанных на Apache Spark и Apache Airflow, наша команда надеялась, что это будет довольно просто, и получится использовать какое-то из готовых Open Source решений - OpenMetadata, DataHub, Marquez и т.п. Все оказалось немного сложнее, сходу ни один инструмент нам не подошел, и мы начали разрабатывать собственное решение - сервис DataRentgen.
В докладе описывается путь к разработке инструмента длиною в полтора года - требования пользователей, RnD Open Source решений и их недостатки, немного метаний между разными технологиями сбора и хранения Lineage, и к чему мы в конечном итоге пришли. DataRentgen все еще в активной разработке, но уже собирает довольно много полезных данных.