Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Создание и управление конфигурациями Helm для приложений Spark в облачной инфраструктуре требуют значительных временных затрат и экспертизы в области эксплуатации систем. Мы автоматизировали развертывание Spark в облаке и создали клиент на Python, который полностью минимизирует знания в области DevOps и Kubernetes, необходимые для начала работы со Spark.
Решение позволяет инженерам данных запускать код PySpark напрямую из скриптов Python или создавать автоматизированные конвейеры без погружения в инфраструктурные детали. Подход сокращает время от написания кода до выполнения задач и повышает продуктивность команд, работающих с большими данными в облачной среде.
9 лет в IT, прошел путь от начинающего разработчика до лида команды в крупнейшей технологической компании в России. Работал над различными видами проектов от небольших до высоконагруженных. Увлекается обработкой данных и MachineLearning. Строит MLOps-системы разного уровня. Есть серьезный бэкграунд в сфере медицины и работы с медицинскими данными.
Видео
Другие доклады секции
Практические примеры внедрений