Data Internals X

Streaming и batch в единой платформе. Взболтать, но не смешивать!

Архитектура данных

Базы данных, обработка данных
Большие проекты/команды
ETL
Обработка данных
YDB
YTSaurus

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад затронет тему, как в зрелую batch-экосистему добавить слой Near-Real-Time-процессов на базе Apache Flink, где десятки тысяч таблиц, тысячи процессов, сотни Flink-job'ов. Узнаете, какие практики перешли из batch, где прячутся грабли и какие выгоды дает единая платформа.

Целевая аудитория

Архитекторы и руководители DWH, инженеры данных и техлиды.

Тезисы

В Яндекс Go мы строим единую платформу обработки данных для нескольких бизнесов (Такси, Еда, Лавка, Доставка и др.), которая предоставляется нашему ключевому пользователю, инженеру данных, как решение «под ключ», как единое рабочее место (фреймворк и сервисы) для batch и streaming поставки и обработки данных.

В своем докладе я хочу поделиться опытом расширения устроившейся и зрелой платформы данных для batch’а принципиально другим сценарием — streaming’ом. Я расскажу о том, какая была мотивация интегрировать Apache Flink в единое решение для обработки данных, какие есть плюсы и минусы такого подхода и почему мы верим в то, что это было правильным решением и планируем его активно развивать в будущем.

Этот доклад может быть интересен практикующим инженерам данных, техлидам и архитекторам, руководителям DWH, а может даже и CTO.

Руководитель отдела разработки инфраструктурных продуктов в Яндекс Go.

Работает в IT с 2012 года. 5 лет занимался enterprise-разработкой в консалтинге, прошел путь от системного аналитика до product owner’а, Team & Tech Lead’а своего продукта. Последние 7 лет работает в Яндекс Go и прошел путь от разработчика до руководителя кросс-функциональной команды. Команда разрабатывает различные инфраструктурные продукты, которые помогают различным бизнес-юнитам внутри Яндекса достигать своих продуктовых целей. Один из таких продуктов — платформа управления данными.

Видео

Другие доклады секции

Архитектура данных