Data Internals X

Вы строите Lakehouse, а сторадж строит вам проблемы

Системы хранения

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад про извлечение максимума производительности из Ceph: как можно на практике добиться высокой пропускной способности HDD, если хочется запускать аналитические запросы поверх данных в Ceph. Будет полезно тем, кто уже пользуется Ceph, и тем, кто только выбирает реализацию для S3.

Целевая аудитория

Архитекторы хранилищ данных. Инженеры платформ данных. Дата-инженеры.

Тезисы

Вы можете сколько угодно обсуждать компьют и форматы хранения — но если вы строите Lakehouse, рано или поздно упретесь в сторадж.

Мы прошли через это:
* спасали Lakehouse от тупика в трупуте,
* боролись с шумными соседями и деградацией IO,
* выжали 80 ГБ/с, обойдя ограничения одного кластера,
* и поняли, что архитектура Lakehouse начинается с правильного стораджа.

Этот доклад — честный отчет о том, как выжить и масштабироваться, когда сторадж стал узким горлышком всей аналитической платформы.

Будет боль, будет правда, будут выводы.

14 лет в IT. Успел поработать и аналитиком, и менеджером проектов, и разработчиком, и лидом дата-команд. Приложил руку к CDP от CleverData, Яндекс.Драйву, хранилищам данных SberDevices и Fedex, курировал датасеты Zero10. Сейчас занимается аналитическим хранилищем данных в Авито.

Видео