Data Internals X

Выжимаем максимум из Clickhouse для BI-отчетности с ограниченным бюджетом

Практические примеры внедрений

Доклад принят в программу конференции

Целевая аудитория

Дата-инженеры. Аналитики данных. BI-аналитики.

Тезисы

Расскажу, как переводили тяжелую отчетность с модели импорта Power BI на прямые запросы DataLens + ClickHouse; рассмотрим, какие проблемы пришлось решить.

После ухода Power BI столкнулись с тем, что пока нет хороших решений, где можно просто загрузить данные в систему отчетности и отчет будет работать на мощном облачном сервере более-менее терпимо даже при объеме данных в миллиарды строк.

Доступные отечественные и свободные решения в основном строятся на прямых запросах, а это значит, что нужно самостоятельно заниматься задачами по оптимизации структуры данных, настройки кластеров и оптимизации запросов.

Сложности добавляло то, что наша команда занимается проектами монетизации данных — отчетность предоставляется поставщикам, и бюджеты на отчеты весьма ограничены, нет возможности использовать сверхмощные кластеры. Требуется реализовывать отчетность в десятки миллиарды строк на скромных мощностях, и чтобы данные обрабатывались за десятки секунд.

Мы начинали с Greenplum, но не устроила производительность, остановились на ClickHouse и выжимали оптимизацию из всего что можно, разбирались с движками, типами данных, кодеками, проекциями, индексами, стратегиями объединения данных, параллелизацией, схемами запросов, метриками производительности и прочим.

В итоге разобрались, как настраивать ClickHouse для высокопроизводительной BI-отчетности, и готовы поделиться опытом.

Аналитик данных. Любит анализировать данные и находить в них пользу. Любит, когда аналитика не только полезна, но и выглядит красиво.

Видео