Целью реализации модуля «PDA-110. Введение в анализ данных на языке Python» является совершенствование имеющихся и (или) получение новых компетенций, необходимых для профессиональной деятельности, и (или) повышение профессионального уровня в рамках имеющейся квалификации в области анализа данных с применением языка Python, а также приобретение практических навыков обработки данных на языке Python для широкого круга специалистов, работающих с данными.
Знания и умения, полученные в результате изучения
В результате освоения программы обучающийся должен уметь:
- Использовать Jupyter Lab, использовать системный командный процессор.
- Выполнять операции над векторами и матрицами с помощью модуля NumPy.
- Обрабатывать табличные данные с помощью pandas.
В результате освоения программы обучающийся должен знать:
- Основные принципы анализа данных с помощью возможностей языка Python.
- Возможности выполнения операций над векторами и матрицами в NumPy.
- Типы данных pandas.
- Методы очистки и подготовки данных.
В результате освоения программы обучающийся должен приобрести практический опыт:
- Осуществлять сбор и подготовку необходимых для анализа и визуализации данных с помощью языка Python.
- Визуализировать аналитические данные.
Тема 1. Консолидация данных
Введение в ETL.
Data Engineer.
Извлечение данных в ETL
Очистка данных в ETL
Преобразование данных в ETL
Загрузка данных в хранилище
Загрузка данных из локальных источников
Обогащение данных
Практические занятия
Работа с векторами и матрицами в NumPy.
Агрегирование данных массива.
Тема 2. Трансформация данных
Введение в трансформацию данных
Трансформация упорядоченных данных
Группировка данных
Слияние данных
Квантование
Нормализация и кодирование данных
Практические занятия
Работа с таблицами pandas.
Агрегирование данных из нескольких таблиц.
Тема 3. Визуализация данных
Подготовка данных.
Методы и инструменты визуализации.
Обзор возможностей Python для визуализации.
Практические занятия
Построение графиков с помощью внешних модулей.
Тема 4. Очистка и предобработка данных
Оценка качества данных
Технологии и методы оценки качества данных
Очистка и предобработка
Фильтрация данных
Обработка дубликатов и противоречий
Выявление аномальных значений
Восстановление пропущенных значений
Введение с сокращение размерности
Сокращение числа признаков
Практические занятия
Очистка данных с помощью возможностей pandas.
Тема 5. Введение в машинное обучение на языке Python
Знакомство с библиотекой Scikit-learn.
Представление данных в Scikit-learn.
Проверка модели.
Классификация.
Регрессия.
Тема 6. Аттестация