DataRentgen: чем плох lineage в OSS DataCatalog и как сделать лучше

Разработка инструментов работы с данными

Разработка библиотек, включая open source библиотеки

Архитектура данных, потоки данных, версионирование

Критерии выбора технологий для проекта

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как оптимизировать рабочий процесс команды разработки инструмента Data Lineage? Как избежать ловушек безрезультатного поиска решений и перестать тратить время? Присоединяйтесь, чтобы узнать, как перестать искать ответ, а создать его самим, используя опыт докладчика как опору для собственного успеха.

Целевая аудитория

Data Engineers, разработчики инструментов для DE, Data Goverance.

Тезисы

Скачать презентацию Все презентации конференции

Столкнувшись с задачей сбора Data Lineage из ETL/ELT-процессов, основанных на Apache Spark и Apache Airflow, наша команда надеялась, что это будет довольно просто и получится использовать какое-то из готовых Open Source-решений — OpenMetadata, DataHub, Marquez и т.п. Все оказалось немного сложнее — сходу ни один инструмент нам не подошел либо по функционалу, либо по производительности. В итоге мы начали разрабатывать собственное решение — сервис DataRentgen https://github.com/MobileTeleSystems/data-rentgen.

Доклад фокусируется на выборе технологий для Lineage, их плюсах и минусах, а также соответствие требованиям разных категорий пользователей. Также рассматривается итоговый набор технологий, с помощью которых получилось реализовать свое решение. DataRentgen все еще в активной разработке, но уже собирает довольно много полезных данных.

Максим Мартынов

МТС Web Services (MWS)

Techlead, Python-разработчик, OpenSorcerer. Последние несколько лет занимается разработкой и поддержкой инструментов для DE.