Data Internals X

Streaming и batch в единой платформе. Взболтать, но не смешивать!

Архитектура данных

Базы данных, обработка данных
Большие проекты/команды
ETL
Обработка данных
YDB
YTSaurus

Доклад принят в программу конференции

Целевая аудитория

Архитекторы и руководители DWH, инженеры данных и техлиды

Тезисы

В Яндекс Go мы строим единую платформу обработки данных для нескольких бизнесов (Такси, Еда, Лавка, Доставка и др.), которая предоставляется нашему ключевому пользователю, инженеру данных, как решение "под ключ", как единое рабочее место (фреймворк и сервисы) для batch и streaming поставки и обработки данных.

В своем докладе я хочу поделиться опытом расширения устройвшейся и зрелой платформы данных для batch-а принципиально другим сценарием - streaming-ом. Я расскажу о том, какая была мотивация интегрировать Apache Flink в единое решение для обработки данных, какие есть плюсы и минусы такого подхода и почему мы верим в то, что это было правильным решением и планируем его активно развивать в будущем.

Этот доклад может быть интересен практикующим инженерам данных, техлидам и архитекторам, руководителям DWH, а может даже и CTO.

Руководитель отдела разработки инфраструктурных продуктов в Яндекс Go.

Работаю в IT с 2012-го года. 5 лет занимался enterprise-разработкой в консалтинге, прошел путь от системного аналитика до product owner-а, Team & Tech Lead-а своего продукта. Последние 7 лет работаю в Яндекс Go и прошел путь от разработчика до руководителя кросс-функциональной команды. Моя команда разрабатывает различные инфраструктурные продукты, которые помогают различным бизнес-юнитам внутри Яндекса достигать свои продуктовые цели. Один из таких продуктов - платформа управления данными.

Видео

Другие доклады секции

Архитектура данных