Data Internals X

Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность

Практические примеры внедрений

ETL
Обработка данных

Доклад принят в программу конференции

Целевая аудитория

Доклад может быть полезен для инженеров данных, аналитиков, которые постоянно взаимодействуют со Spark в Kubernetes.

Тезисы

Создание и управление конфигурациями Helm для приложений Spark в облачной инфраструктуре требуют значительных временных затрат и экспертизы в области эксплуатации систем. Мы автоматизировали развертывание Spark в облаке и создали клиент на Python, который полностью минимизирует знания в области DevOps и Kubernetes, необходимые для начала работы со Spark.

Решение позволяет инженерам данных запускать код PySpark напрямую из скриптов Python или создавать автоматизированные конвейеры без погружения в инфраструктурные детали. Подход сокращает время от написания кода до выполнения задач и повышает продуктивность команд, работающих с большими данными в облачной среде.

9 лет в IT, прошел путь от начинающего разработчика до лида команды в крупнейшей технологической компании в России. Работал над различными видами проектов от небольших до высоконагруженных. Увлекается обработкой данных и MachineLearning. Строит MLOps-системы разного уровня. Есть серьезный бэкграунд в сфере медицины и работы с медицинскими данными.

Видео