+7 (812) 703-02-02 info@hse.spbstu.ru

PDA-110. Введение в анализ данных на языке Python

Длительность дисциплины: 24 ак.ч.


Аннотация

Целью реализации модуля «PDA-110. Введение в анализ данных на языке Python» является совершенствование имеющихся и (или) получение новых компетенций, необходимых для профессиональной деятельности, и (или) повышение профессионального уровня в рамках имеющейся квалификации в области анализа данных с применением языка Python, а также приобретение практических навыков обработки данных на языке Python для широкого круга специалистов, работающих с данными.


Знания и умения, полученные в результате изучения

В результате освоения программы обучающийся должен уметь:

  • Использовать Jupyter Lab, использовать системный командный процессор.
  • Выполнять операции над векторами и матрицами с помощью модуля NumPy.
  • Обрабатывать табличные данные с помощью pandas.

В результате освоения программы обучающийся должен знать:

  • Основные принципы анализа данных с помощью возможностей языка Python. 
  • Возможности выполнения операций над векторами и матрицами в NumPy. 
  • Типы данных pandas. 
  • Методы очистки и подготовки данных. 

В результате освоения программы обучающийся должен приобрести практический опыт:

  • Осуществлять сбор и подготовку необходимых для анализа и визуализации данных с помощью языка Python. 
  • Визуализировать аналитические данные.

Содержание дисциплины

Тема 1. Консолидация данных
Введение в ETL. 
Data Engineer. 
Извлечение данных в ETL
Очистка данных в ETL
Преобразование данных в ETL
Загрузка данных в хранилище
Загрузка данных из локальных источников
Обогащение данных
Практические занятия
Работа с векторами и матрицами в NumPy. 
Агрегирование данных массива.

Тема 2. Трансформация данных
Введение в трансформацию данных
Трансформация упорядоченных данных
Группировка данных
Слияние данных
Квантование
Нормализация и кодирование данных
Практические занятия
Работа с таблицами pandas. 
Агрегирование данных из нескольких таблиц.

Тема 3. Визуализация данных
Подготовка данных.
Методы и инструменты визуализации.
Обзор возможностей Python для визуализации.
Практические занятия
Построение графиков с помощью внешних модулей.

Тема 4. Очистка и предобработка данных
Оценка качества данных
Технологии и методы оценки качества данных
Очистка и предобработка
Фильтрация данных
Обработка дубликатов и противоречий
Выявление аномальных значений
Восстановление пропущенных значений
Введение с сокращение размерности
Сокращение числа признаков
Практические занятия
Очистка данных с помощью возможностей pandas.

Тема 5. Введение в машинное обучение на языке Python
Знакомство с библиотекой Scikit-learn.
Представление данных в Scikit-learn.
Проверка модели.
Классификация.
Регрессия.

Тема 6. Аттестация