+7 (812) 703-02-02 info@hse.spbstu.ru

DWH-01. Проектирование хранилищ данных

Длительность дисциплины: 36 ак.ч.


Аннотация

Программа посвящена проектированию хранилищ данных, а также приобретению практических навыков разработки стратегии резервного копирования и восстановления хранилища данных.


Знания и умения, полученные в результате изучения

В результате освоения программы, обучающийся должен уметь:
•   Работать с различными источниками данных.
•   Применять гибкие подходы к проектированию хранилища данных.
•   Разрабатывать стратегии резервного копирования и восстановления хранилища данных.

В результате освоения программы обучающийся должен знать:
•    Базовые понятия и определения.
•    Базовые методологии проектирования хранилищ данных.
•    Современные гибкие подходы к проектированию хранилищ данных.
•    Особенности различных стратегий резервного копирования и восстановления хранилища данных.
 
В результате освоения программы обучающийся должен приобрести практический опыт:
•    Анализа требований к структурам аналитических данных, проектированию моделей данных для хранилищ данных.
•    Разработки стратегии резервного копирования и восстановления хранилища данных.
   


Содержание дисциплины

Тема 1. Введение в специальность
1.1    Введение в специальность    
    Введение в технологии больших данных.
    Обзор терминов и определений.
    Место инженера данных в экосистеме обработки больших данных.
Практические занятия    
Не предусмотрены

Тема 2. Введение в архитектуру хранилищ данных
2.1    Обзор архитектур хранилищ данных    
    OLTP и OLAP – определение, сравнение, основные особенности и различия.
    DWH – слои данных, подходы к проектированию
2.2    Обзор источников данных.
    Озера и болота данных    
    Источники данных.
    Озеро и болото данных: требования к озерам данных, преимущества и недостатки.
2.3    Обзор ETL и ELT    ETL и ELT: назначение, пакетная, потоковая обработка.
Практические занятия    
Не предусмотрены

Тема 3. Классические методологии моделирования данных для хранилищ данных.
3.1    Классические методологии моделирования данных для хранилищ данных    
    Моделирование по Инмону.
    Моделирование по Кимбаллу.
    Преимущества и недостатки.
3.2    Базовые модели хранилищ данных    
    Модели ‘Звезда’, ‘снежинка’, ‘созвездие’.
    Понятие и назначение staging слоя.
    Моделирование staging слоя.
3.3    Проектирование измерений    
    Медленно и быстро меняющиеся измерения.
    Способы хранения истории изменений
Практические занятия    
Моделирование staging слоя и core слоя хранилища данных по методу Кимбалла.

Тема 4. Современные гибкие подходы к проектированию хранилищ данных.
4.1    Современные гибкие подходы к проектированию хранилищ данных    
    Проблемы классических хранилищ данных.
    Обзор современных гибких подходов к проектированию хранилищ данных.
    Сравнение различных подходов к проектированию.
4.2    Моделирование Data Vault    
    Моделирование Data Vault, Data Vault 2.
    Основные понятия, принципы, преимущества и недостатки.
4.3    Anchor моделирование    
    Anchor моделирование.
    Основные понятия, принципы, преимущества и недостатки.
4.4    Монолитная и микросервисная архитектуры    
    Монолитная и микросервисная архитектуры.
    Data Mesh и его принципы.
    Достоинства и недостатки архитектуры Data Mesh.
4.5    Архитектура One Big Table    
    Подход One Big Table (OBT).
    Достоинства и недостатки
4.6    Озеро данных    
    Озеро данных.
    Архитектура озера.
    Гибрид хранилища и озера - Data Lakehouse.
    Достоинства и недостатки
4.7    Медальонная архитектура    
    Подход к моделированию – медальонная архитектура.
    Основные принципы, достоинства и недостатки
Практические занятия    
Моделирование хранилища данных по методу Data Vault.

Тема 5. Разработка стратегии резервного копирования и восстановления хранилища данных.
5.1    Разработка стратегии резервного копирования и восстановления хранилища данных    
    Холодные/горячие данные.
    Назначение резервных копий.
    Определение бекапа.
    Причины для выполнения бекапов.
    Виды бекапов.
    Обзор инструментов
Практические занятия    
1.    Разработка стратегии резервного копирования для DWH некоторого бизнес-предприятия.
2.    Создание резервных копий в соответствии с разработанной стратегией

Тема 6. Итоговая аттестация
Практические занятия    Зачет