Инженер данных (Data Engineer)
Записаться на осень 2025 года
Данные являются одним из самых ценных активов любой компании.
Данные помогают прогнозировать спрос, изучать поведение клиентов и конкурентов, планировать эффективные рекламные кампании
и таким образом извлекать пользу для бизнеса и зарабатывать больше денег.
Для возможности анализа данных и создания прогнозных моделей необходимо наличие соответствующей инфраструктуры,
включающей: хранилища (DWH) и витрины данных (Data Marts), инструменты для сбора, очистки и доставки данных.
Инженер данных (data engineer) — это специалист, который разрабатывает и обслуживает инфраструктуру хранения,
обработки и анализа больших объёмов данных (big data).
Основным видом деятельности такого специалиста, согласно профессионального стандарта «Специалист по большим данным»
(утвержден приказом Минтруда России от №405н от 06.07.2020, зарегистрирован в Минюсте России 5.08.2020, рег. № 59174),
является «Создание и применение технологий больших данных».
В зону ответственности инженера данных входит:
- Проектирование и разработка хранилища и витрин данных.
- Организация сбора данных. Данные из множества различных источников должны попадать в общее хранилище.
- Организация очистки данных: удаление дубликатов, выявление и устранение ошибок.
- Организация структуры данных, пригодной для аналитики.
- Проектирование и реализация ETL/ELT pipeline для загрузки данных и их движения между инструментами.
- Обновление используемых инструментов и поиск способов повышения эффективности и автоматизации существующих процессов.
Обучаясь на программе, вы научитесь:
- применять современные гибкие подходы к проектированию хранилищ данных
- разрабатывать стратегии резервного копирования и восстановления хранилищ данных
- развертывать и настраивать СУБД ClickHouse
- создавать таблицы, определять различные типы ключей
- создавать партиционированные таблицы, манипулировать партициями и партами
- манипулирование данными в ClickHouse и использовать аналитические функции
- работать с различными источниками данных
- проектировать ETL/ELT пайпланы
- использовать Airflow для оркестрации пайплайнов
- использовать брокер сообщений Кафка в качестве источника данных
- обрабатывать большие данные с помощью Spark
- применять различные техники валидации и очистки данных
- осуществлять мониторинг данных и системы
- взаимодействовать с подготовленными данными с целью построения эффективных дашбордов
- использовать инструменты Real-time аналитики: Kafka Streams и Spark Streaming
Итоговой аттестацией по программе является междисциплинарный экзамен.
В программу включен микрокурс «Карьерное консультирование».
За одну лекцию и одну практику слушатели узнают: как правильно составить резюме начинающему специалисту, что в нем лучше не указывать, где его разместить,
на какие компании стоит обратить внимание, как успешно пройти дистанционное и очное собеседование, как найти стажировку.
Продолжительность
256 ак. часов, 10 месяцев, включая итоговую аттестацию.
Начало обучения
- 1 октября (октябрь – апрель)
- 1 марта (март - июнь, сентябрь - ноябрь)
В июле и августе - каникулы!
Форма обучения
Онлайн
Лекции и практики проходят по расписанию онлайн с преподавателем.
Занятия проводятся 2-4 раза в неделю по 4 ак. часа (в будни с 18:00, в выходные с 10:00 или с 14:00).
Отзывы выпускников о программе
Поcмотреть все отзывы
Предварительные требования
Программа предназначена для специалистов с высшим, средним профессиональным
образованием, студентов старших курсов. Правила приёма...
Для поступления необходимо пройти
вступительное тестирование...
Для успешного прохождения тестирования необходимо знать:
- Основы программирования на языке Python
- Основы реляционных баз данных
- Язык SQL
Документ об окончании
Диплом СПбПУ о профессиональной переподготовке установленного образца,
с присвоением квалификации «Специалист по большим данным», удостоверяющей право на ведение деятельности
в сфере «Создание и применение технологий больших данных». Уровень квалификации - 6.
Записаться на осень 2025 года