+7 (812) 703-02-02 info@hse.spbstu.ru

Учебный модуль «Проектная работа»

Длительность дисциплины: 40 ак.ч.


Аннотация

Целью модуля «Проектная работа» является закрепление практических навыков по использованию технологий больших данных при проектировании информационных систем, начиная от снятия требований и их декомпозиции, до изучения имеющихся источников данных и написания постановок на ETL процесс, отчет и прогнозную модель.

Модуль реализуется только в рамках программы профессиональной переподготовки «Инженер данных (Data Engineer)»


Знания и умения, полученные в результате изучения

В результате освоения программы, обучающийся должен уметь:
•  Проводить переговоры с целью выявления требований заказчика к результатам анализа, формировать и согласовывать требования к результатам аналитических работ с использованием технологий больших данных.
•  Использовать имеющуюся у исполнителя методологическую и технологическую инфраструктуру анализа больших данных для выполнения аналитических работ.
•  Проводить сравнительный анализ методов и инструментальных средств анализа больших данных.
•  Проводить анализ больших данных в соответствии с утвержденными требованиями к результатам аналитического исследования
•  Проводить переговоры при определении содержания аналитических работ с использованием технологий больших данных.
•  Представлять содержание и результаты работ по анализу больших данных.
•  Планировать аналитические работы с использованием технологий больших данных.
•  Проводить аналитические работы с использованием технологий больших данных.
•  Осуществлять интеграцию и преобразование данных в ходе работ по анализу больших данных
•  Проводить собеседования и интервью с заинтересованными лицами и (или) представителями подразделений организации по тематике применения технологий больших данных с целью выявления потребности в применении этих технологий.
•  Проводить анализ бизнес-процессов и функций подразделений организации, выделять проблемные места и возможности совершенствования.
•  Проводить сравнительный анализ методов обеспечения функций и поддержки бизнес-процессов

В результате освоения программы обучающийся должен знать:
•  Инструменты и методы согласования с заказчиками требований к результатам аналитических исследований с использованием технологий больших данных.
•  Технологии межличностной и групповой коммуникации в деловом взаимодействии, основы конфликтологии.
•  Предметная область анализа больших данных в соответствии с требованиями заказчика.
•  Типы анализа больших данных, виды аналитики.
•  Современные методы и инструментальные средства анализа больших данных.
•  Методы оценки временных и стоимостных характеристик технологий больших данных.
•  Источники информации, в том числе информации, необходимой для обеспечения деятельности в предметной области заказчика исследования
•  Возможности использования свободно распространяемого программного обеспечения для анализа больших данных.
•  Предметная область анализа больших данных в соответствии с требованиями заказчика.
•  Основы планирования аналитических работ.
•  Стандарты проведения анализа данных.
•  Методы и инструментальные средства управления аналитическими проектами по исследованию больших данных.
•  Содержание и последовательность выполнения этапов аналитического проекта по исследованию больших данных.
•  Содержание этапов жизненного цикла больших данных.
•  Типы анализа больших данных, виды аналитики.
•  Теоретические и прикладные основы анализа больших данных.
•  Современные методы и инструментальные средства анализа больших данных.
•  Источники информации, в том числе информации, необходимой для обеспечения деятельности в предметной области заказчика исследования.
•  Методы интерпретации и визуализации анализа больших данных
•  Методы выявления требований заинтересованных лиц организации к методической и технологической инфраструктуре больших данных.
•  Методы анализа деятельности организации.
•  Современные методы и инструментальные средства анализа больших данных.
•  Методы управления проектами в области больших данных.
•  Исследование операций.
•  Методы интерпретации и визуализации больших данных.
•  Источники информации, в том числе информации, необходимой для обеспечения деятельности в предметной области организации

 
В результате освоения программы обучающийся должен приобрести практический опыт:
•  Выявление требований заказчика к результатам анализа, определение возможностей применения анализа больших данных в предметной области и конкретных задачах заказчика
•  В разработке, обсуждении и утверждении содержания аналитических работ с использованием технологий больших данных.
•  Определения необходимых ресурсов для проведения аналитических работ.
•  Распределение ролей и состава аналитических работ между участниками группы для анализа больших данных
•  Информирование заинтересованных лиц о возможностях методов и инструментов больших данных.
•  Составление реестра заинтересованных сторон использования технологий больших данных в организации.
•  Проведение собеседований и интервью с заинтересованными сторонами использования технологий больших данных в организации с целью выявления потребности в методической и технологической инфраструктуре больших данных.
•  Проведение анализа бизнес-процессов и функций подразделений организации.
•  Составление реестра задач и процессов, для которых могут быть эффективно применены методы и инструменты анализа больших данных.
•  Определение круга заинтересованных лиц и подразделений.
•  Разработка отчета о возможности и целесообразности использования технологий больших данных в организации.

 


Содержание дисциплины

Тема 1.    Сбор требований по проекту
1.1    Что такое дата-проект.
    Вспоминаем ЖЦ систем.
    DAMA, DMBoK, Data Wheel фреймворк.
    DIKW.
    Что такое data governance, data stewardship и data ownership.
    Классификация стейкхолдеров из BABoK.
    Области знания, дополнительные роли и функции в командах: AI, DS, BI, DA, ML, DE. Big Data vs Data
1.2    Практические работы:
    1. Выделение стейкхолдеров
    2. Формирование списка вопросов для первой встречи в Miro.
    3. Проведение интервью
    4. Формулирование бизнес-постановки проблемы, формирование плана обследования.
    5. Обсуждение плана (план и вопросы) и его корректировка.
1.3    Самостоятельная работа    
    1. Выписать список заинтересованных сторон в виде таблицы с колонками: DMBoK роль, Должность, Имя
    2. Нарисовать процесс подготовки отчета As Is в BPMN
    3. Схема As Is архитектуры (системы, сервера развертывания, источники данных)
Тема 2.    Формулирование требований (описание целевого дашборда)
2.1    Формулирование требований (описание целевого дашборда)    
    Что такое BI.
    Обзор лидеров рынка BI.
    Обзор современных платформ BI.
    Типовые функции BI систем.
    Перечни требований к дашборду.
    Базовые принципы визуализации данных
2.2    Практические работы
    1.    Проанализировать сколько и каких дашбордов нужно (дашборд-цель)
    2.    Определить какие данные должные быть на дашборде
    3.    Выбрать для них порядок представления
    4.    Выбрать визуализации исходя из харакера данных
2.3    Самостоятельная работа    
    Дописать постановку на дашборд. Проверить подключение по полученному файлу с кредами
Тема 3.    Исследование источников данных
3.1    Исследование источников данных    
    Инструментарий для реверса схемы данных.
    Типовые проблемы в данных.
    Профилировка данных.
    Диаграмма потоков данных
3.2    Практические работы    
    1.    Выполнить анализ таблиц.
    2.    Найти ошибочные данные, выполнить каталогизацию и профилировку, предложить исправления.
    3.    Реестр процессов ToBe
3.3    Самостоятельная работа    
    Создать диаграмму потоков данных As Is
Тема 4.    Выработка целевого решения
4.1    Выработка целевого решения    
    Табулярная модель  (Табличная модель).
    Многомерная модель.
    DataVault.
    AnchorModel.
    DWH vs DataLake.
    Формулы и данные
4.2    Практическая работа
    Архитектура DWH
4.3    Самостоятельная работа    
    Сформировать модель приемника (с учетом конкретного виджета)
Тема 5.    Разработка требований к ETL процессу
5.1    Разработка требований к ETL процессу    
    ETL и ELT.
    Extract.
    Способы забора данных: шины и подписочная модель, дельты, полный забор.
    Трансформации.
    В том числе трансформации для ML (dammy, encoding).
    Load.
    Оркестраторы ETL (Airflow, Spring Cloud)
5.2    Разработка прогнозных моделей    
    Терминология.
    EDA, Feature Engineering.
    Обучение и тестирование.
    Версионирование моделей.
    ML Register.
    MLOps.
    Алгоритмы и ансамбли.
    Список требований к модели
5.3    Практическая работа    
    Использовать Spark Streaming для создания потока для аналитики в реальном времени.
5.4    Самостоятельная работа    
    1.    Написать ETL процесс
    2.    Написать требования к прогнозной модели
    6    Промежуточная аттестация
6.1    Промежуточная аттестация    
Зачет