DuckDB для работы с графами: Форматы хранения графа в S3, расширение GraphAR и опыт
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Мы расскажем об исследованиях форматов представления графа в DLH-инфраструктуре для различных аналитических сценариев.
Эффективный доступ к данным графа в S3 требует быстрый доступ как к точечным вершинам для поиска соседей, фильтрации меток и загрузки-выгрузки больших частей графа для аналитики. Стандартные форматы хранения в DLH не всегда эффективны в этих сценариях.
Предложенный подход от Alibaba в виде платформы GraphScope использует представление графа в формате GraphAr который решает проблемы доступа к данным за счет сочетания колоночного представления и набора методов оптимизации специфичных для Labeled Property Graph (CSR, дельта-кодирование, Page-alligned Collections и другие) позволяют не только эффективно хранить данные графа но и стать центральной частью экосистемы обработки графов в DLH.
В рамках исследования командой была реализована поддержка формата GraphAR для DuckDB и проведены первичные замеры эффективности реализации основных сценариев аналитики на графе в сравнении с Iceberg, Hive и с графовыми БД.
Расскажем про детали реализации и выводы про преимущества и недостатки, результаты проведенных бенчмарков на датасетах SNAP и LDBC и реальных графах большого размера
Занимаюсь коммерческой разработкой ПО с 2004. Разрабатывал платёжные системы, биржевые движки и системы обработки медицинских данных. Основной профиль java-backend. В настоящее время занимаюсь исследовательскими проектами в R&D подразделении Т-Банка.
Архитектор в R&D-центре Т-Банка. Исследует распределенные системы хранения и обработки больших данных, ранее руководил исследованиями в области решений на больших данных в лаборатории ASTL Huawei, разрабатывал хранилища данных в Центральном Банке и занимался исследованием эффективности распределенных вычислений в НИВЦ МГУ.
Видео
Другие доклады секции
Разработка СУБД и инструментов работы с данными