Data Conf

Выжимаем максимум из Clickhouse для BI отчётности с ограниченным бюджетом

Практические примеры внедрений

Доклад принят в программу конференции

Целевая аудитория

Дата инженеры Аналитики данных BI-аналитики

Тезисы

Расскажу как переводили тяжёлую отчётность с модели импорта Power BI на прямые запросы DataLens + ClickHouse, рассмотрим какие проблемы пришлось решить.
После ухода Power BI столкнулись, что пока нет хороших решений, где можно просто загрузить данные в систему отчётности и отчёт будет работать на мощном облачном сервере более менее терпимо даже при объёме данный в миллиарды строк.
Доступные отечественные и свободные решения, в основном, строятся на прямых запросах, а это значит, что нужно самостоятельно заниматься задачами по оптимизации структуры данных, настройки кластеров и оптимизации запросов.
Сложности добавляло, что наша команда занимается проектами монетизации данных - отчётность предоставляется поставщикам и бюджеты на отчёты весьма ограничены, нет возможности использовать сверхмощные кластера. Требуется реализовывать отчётность в десятки миллиарды строк на скромных мощностях и чтобы данные обрабатывались за десятки секунд.
Мы начинали с Greenplum, но не устроила производительность, остановились на ClickHouse и выжимали оптимизацию из всего что можно, разбирались с движками, типами данных, кодеками, проекциями, индексами, стратегиями объединения данных, парализацией, схемами запросов, метриками производительности и прочим.
В итоге разобрались как настраивать ClickHouse для высокопроизводительной BI отчётности и готовы поделиться опытом.

Работаю аналитиком данных. Люблю анализировать данные и находить в них пользу. Люблю, когда аналитика не только полезна, но и выглядит красиво. )

Видео