Data Conf

DataRentgen: чем плох lineage в OSS DataCatalog, и как сделать лучше

Доклад

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как оптимизировать рабочий процесс команды разработки инструмента Data Lineage? Как избежать ловушек безрезультатного поиска решений и перестать тратить время? Присоединяйтесь, чтобы узнать, как перестать искать ответ, а создать его самим, используя опыт докладчика как опору для собственного успеха.

Целевая аудитория

Data Engineers, разработчики инструментов для DE, Data Goverance

Тезисы

Столкнувшись с задачей сбора Data Lineage из ETL/ELT процессов, основанных на Apache Spark и Apache Airflow, наша команда надеялась, что это будет довольно просто, и получится использовать какое-то из готовых Open Source решений - OpenMetadata, DataHub, Marquez и т.п. Все оказалось немного сложнее, сходу ни один инструмент нам не подошел, и мы начали разрабатывать собственное решение - сервис DataRentgen.
В докладе описывается путь к разработке инструмента длиною в полтора года - требования пользователей, RnD Open Source решений и их недостатки, немного метаний между разными технологиями сбора и хранения Lineage, и к чему мы в конечном итоге пришли. DataRentgen все еще в активной разработке, но уже собирает довольно много полезных данных.

Максим Мартынов

МТС Диджитал

Python-разработчик, немного DevOps, чуток архитектор. Последние несколько лет занимаюсь разработкой и поддержкой инструментов для DE, в OpenSource, на PySpark и не только.

Видео