Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность

Практические примеры внедрений

ETL

Обработка данных

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе расскажем, как быстро запустить PySpark в облаке напрямую из скриптов Python или создавать автоматизированные конвейеры без погружения в инфраструктурные детали. Простота управления, высокая производительность и сокращение времени от идеи до результата — ключевые преимущества подхода.

Целевая аудитория

Доклад может быть полезен для инженеров данных, аналитиков, которые постоянно взаимодействуют со Spark в Kubernetes.

Тезисы

Скачать презентацию Все презентации конференции

Создание и управление конфигурациями Helm для приложений Spark в облачной инфраструктуре требуют значительных временных затрат и экспертизы в области эксплуатации систем. Мы автоматизировали развертывание Spark в облаке и создали клиент на Python, который полностью минимизирует знания в области DevOps и Kubernetes, необходимые для начала работы со Spark.

Решение позволяет инженерам данных запускать код PySpark напрямую из скриптов Python или создавать автоматизированные конвейеры без погружения в инфраструктурные детали. Подход сокращает время от написания кода до выполнения задач и повышает продуктивность команд, работающих с большими данными в облачной среде.

Юрий Орлов

VK, VK Cloud

9 лет в IT, прошел путь от начинающего разработчика до лида команды в крупнейшей технологической компании в России. Работал над различными видами проектов от небольших до высоконагруженных. Увлекается обработкой данных и MachineLearning. Строит MLOps-системы разного уровня. Есть серьезный бэкграунд в сфере медицины и работы с медицинскими данными.