Data Quality как distributed-система: паттерны отказоустойчивости для данных
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В современных data-продуктах качество данных — это не разовые проверки, а непрерывный процесс.
На примере расскажу, как быстро и правильно запустить и внедрить DQ-инструмент, а также о его гибком и мощном арсенале для контроля данных и процессах работы с ним. Это поможет справляться с современными масштабами и вызовами.
Решения, которые будут затронуты:
✔ Базовая архитектура - с чего всё начинается
✔ Автоматизация рутины – чат-бот для алертов + автотикеты
✔ Проверка data-контрактов – как быстро внедрить автоматическую валидацию схем
✔ Реализация гибких триггеров проверок
✔ Детекция аномалий – от простых SQL-правил до ML для сложных кейсов
✔ Полный аудит ошибок – сохраняем проблемные данные + SQL-запросы для анализа
✔ Карантин – изоляция "битых" данных без потери информации
✔ Автогенерация DQ-проверок с помощью LLM – снижение ручного труда за счет автоматического создания SQL-правил и data-контрактов на основе описания данных и требований
✔ Обучение модели на исторических инцидентах для предложения превентивных проверок
✔ Поддержка естественного языка: аналитик описывает проблему → получает готовую DQ проверку
Технологии:
Триггеры (Airflow, DWH-интеграция)
Адаптивные пороги для алертов
LLM для генерации DQ-проверок, поддержка естественного языка
Дашборды мониторинга
Что узнаете:
→ Как за минимальный срок развернуть оптимальную DQ архитектуру
→ Каким образом снизить нагрузку на команду за счет умных алертов
→ Когда ML в DQ – это must have, а когда – overkill
→ Как внедрить систему, которая экономит 80% времени
Итог:
Data Quality больше не пожарные бригады — это встроенный иммунитет data-экосистемы. Покажу реальное работающее решение, как перейти от ручного контроля к системной надёжности.
Руководитель направления качества данных, эксперт и евангелист управления данными.
Имеет опыт построения процессов контроля данных и автоматизации проверок в промышленности и e-commerce. Спикер профессиональных конференций, делится практическими кейсами по внедрению DQ-решений и созданию культуры управления данными.
Видео
Другие доклады секции
Управление данными