DWH-01. Проектирование хранилищ данных
Длительность дисциплины: 36 ак.ч.
Аннотация
Программа посвящена проектированию хранилищ данных, а также приобретению практических навыков разработки стратегии резервного копирования и восстановления хранилища данных.
Знания и умения, полученные в результате изучения
В результате освоения программы, обучающийся должен уметь:
• Работать с различными источниками данных.
• Применять гибкие подходы к проектированию хранилища данных.
• Разрабатывать стратегии резервного копирования и восстановления хранилища данных.
В результате освоения программы обучающийся должен знать:
• Базовые понятия и определения.
• Базовые методологии проектирования хранилищ данных.
• Современные гибкие подходы к проектированию хранилищ данных.
• Особенности различных стратегий резервного копирования и восстановления хранилища данных.
В результате освоения программы обучающийся должен приобрести практический опыт:
• Анализа требований к структурам аналитических данных, проектированию моделей данных для хранилищ данных.
• Разработки стратегии резервного копирования и восстановления хранилища данных.
Содержание дисциплины
Тема 1. Введение в специальность
1.1 Введение в специальность
Введение в технологии больших данных.
Обзор терминов и определений.
Место инженера данных в экосистеме обработки больших данных.
Практические занятия
Не предусмотрены
Тема 2. Введение в архитектуру хранилищ данных
2.1 Обзор архитектур хранилищ данных
OLTP и OLAP – определение, сравнение, основные особенности и различия.
DWH – слои данных, подходы к проектированию
2.2 Обзор источников данных.
Озера и болота данных
Источники данных.
Озеро и болото данных: требования к озерам данных, преимущества и недостатки.
2.3 Обзор ETL и ELT ETL и ELT: назначение, пакетная, потоковая обработка.
Практические занятия
Не предусмотрены
Тема 3. Классические методологии моделирования данных для хранилищ данных.
3.1 Классические методологии моделирования данных для хранилищ данных
Моделирование по Инмону.
Моделирование по Кимбаллу.
Преимущества и недостатки.
3.2 Базовые модели хранилищ данных
Модели ‘Звезда’, ‘снежинка’, ‘созвездие’.
Понятие и назначение staging слоя.
Моделирование staging слоя.
3.3 Проектирование измерений
Медленно и быстро меняющиеся измерения.
Способы хранения истории изменений
Практические занятия
Моделирование staging слоя и core слоя хранилища данных по методу Кимбалла.
Тема 4. Современные гибкие подходы к проектированию хранилищ данных.
4.1 Современные гибкие подходы к проектированию хранилищ данных
Проблемы классических хранилищ данных.
Обзор современных гибких подходов к проектированию хранилищ данных.
Сравнение различных подходов к проектированию.
4.2 Моделирование Data Vault
Моделирование Data Vault, Data Vault 2.
Основные понятия, принципы, преимущества и недостатки.
4.3 Anchor моделирование
Anchor моделирование.
Основные понятия, принципы, преимущества и недостатки.
4.4 Монолитная и микросервисная архитектуры
Монолитная и микросервисная архитектуры.
Data Mesh и его принципы.
Достоинства и недостатки архитектуры Data Mesh.
4.5 Архитектура One Big Table
Подход One Big Table (OBT).
Достоинства и недостатки
4.6 Озеро данных
Озеро данных.
Архитектура озера.
Гибрид хранилища и озера - Data Lakehouse.
Достоинства и недостатки
4.7 Медальонная архитектура
Подход к моделированию – медальонная архитектура.
Основные принципы, достоинства и недостатки
Практические занятия
Моделирование хранилища данных по методу Data Vault.
Тема 5. Разработка стратегии резервного копирования и восстановления хранилища данных.
5.1 Разработка стратегии резервного копирования и восстановления хранилища данных
Холодные/горячие данные.
Назначение резервных копий.
Определение бекапа.
Причины для выполнения бекапов.
Виды бекапов.
Обзор инструментов
Практические занятия
1. Разработка стратегии резервного копирования для DWH некоторого бизнес-предприятия.
2. Создание резервных копий в соответствии с разработанной стратегией
Тема 6. Итоговая аттестация
Практические занятия Зачет