Data Internals X

DuckDB для работы с графами: форматы хранения графа в S3, расширение GraphAr и опыт разработки

Разработка СУБД

Доклад принят в программу конференции

Целевая аудитория

Разработчики ПО и аналитики данных.

Тезисы

Мы расскажем об исследованиях форматов представления графа в DLH-инфраструктуре для различных аналитических сценариев.

Эффективный доступ к данным графа в S3 требует быстрый доступ как к точечным вершинам для поиска соседей, фильтрации меток и загрузки-выгрузки больших частей графа для аналитики. Стандартные форматы хранения в DLH не всегда эффективны в этих сценариях.

Подход от Alibaba в виде платформы GraphScope использует представление графа в формате GraphAr который предлагает решение проблемы доступа к данным за счет сочетания хранения семантики графа в слое метаданых, колоночного представления и набора методов оптимизации специфичных для Labeled Property Graph (CSR, дельта-кодирование, Page-alligned Collections и другие). Это позволяет не только эффективно хранить данные графа, но и стать центральной частью экосистемы обработки графов в DLH.

В рамках исследования нашей командой была реализована поддержка формата GraphAr для DuckDB и проведены первичные замеры эффективности реализации основных сценариев аналитики на графе в сравнении с Iceberg, Hive и графовыми БД.
Расскажем про детали реализации и выводы о преимуществах и недостатках. Поделимся результатами проведенных бенчмарков на датасетах SNAP и LDBC и реальных графах большого размера, а также нашим опытом в работе с ними.

Ведущий разработчик-исследователь R&D-направления распределенных систем хранения и обработки данных в Т-Банк. Работают, кроме прикладных сценариев, еще и с графовыми алгоритмами обработки, способами хранения графов и движками доступа к ним.
До этого разрабатывал платежные системы, биллинговые системы, биржевые движки и системы обработки медицинских данных.

Видео

Другие доклады секции

Разработка СУБД