Data Internals X

Вы строите Lakehouse, а сторадж строит вам проблемы

Системы хранения

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад про извлечение максимума производительности из Ceph: как можно на практике добиться высокой пропускной способности HDD дисков, если хочется запускать аналитические запросы поверх данных в Ceph. Будет полезно тем, кто уже пользуется Ceph, и тем, кто только выбирает реализацию для S3.

Целевая аудитория

архитекторы хранилищ данных инженеры платформ данных дата инженеры

Тезисы

Вы можете сколько угодно обсуждать компьют и форматы хранения — но если вы строите Lakehouse, рано или поздно упрётесь в сторадж.
Мы прошли через это:
—спасали Lakehouse от тупика в трупуте,
—боролись с шумными соседями и деградацией IO,
—выжали 80 ГБ/с, обойдя ограничения одного кластера,
—и поняли, что архитектура Lakehouse начинается с правильного стораджа.
Этот доклад — честный отчёт о том, как выжить и масштабироваться, когда сторадж стал узким горлышком всей аналитической платформы.
Будет боль, будет правда, будут выводы.

14 лет в IT. Успел поработать и аналитиком, и менеджером проектов, и разработчиком, и лидом дата-команд. Приложил руку к CDP от CleverData, Яндекс.Драйву, хранилищам данных SberDevices и Fedex, курировал датасеты Zero10. Сейчас занимаюсь аналитическим хранилищем данных в Авито.

Видео