Data Internals X

DuckDB для работы с графами: Форматы хранения графа в S3, расширение GraphAr и опыт разработки

Разработка СУБД

Доклад принят в программу конференции

Целевая аудитория

Разработчики ПО и аналитики данных

Тезисы

Мы расскажем об исследованиях форматов представления графа в DLH-инфраструктуре для различных аналитических сценариев.
Эффективный доступ к данным графа в S3 требует быстрый доступ как к точечным вершинам для поиска соседей, фильтрации меток и загрузки-выгрузки больших частей графа для аналитики. Стандартные форматы хранения в DLH не всегда эффективны в этих сценариях.
Подход от Alibaba в виде платформы GraphScope использует представление графа в формате GraphAr который решает предлагает решение проблемы доступа к данным за счет сочетания хранения семантики графа в слое метаданых, колоночного представления и набора методов оптимизации специфичных для Labeled Property Graph (CSR, дельта-кодирование, Page-alligned Collections и другие). Это позволяет не только эффективно хранить данные графа но и стать центральной частью экосистемы обработки графов в DLH.
В рамках исследования нашей командой была реализована поддержка формата GraphAr для DuckDB и проведены первичные замеры эффективности реализации основных сценариев аналитики на графе в сравнении с Iceberg, Hive и графовыми БД.
Расскажем про детали реализации и выводы о преимуществах и недостатках. Поделимся результатами проведенных бенчмарков на датасетах SNAP и LDBC и реальных графах большого размера, а также нашим опытом в работе с ними.

Ведущий разработчик-исследователь R&D направления распределённых систем хранения и обработки данных в Т-Банк. Работаем, кроме прикладных сценариев, ещё и с графовыми алгоритмами обработки, способами хранения графов и движками доступа к ним.
До этого разрабатывал платёжные системы, биллинговые системы, биржевые движки и системы обработки медицинских данных.

Видео