+7 (812) 703-02-02 info@hse.spbstu.ru

DWH-02. Реализация хранилища данных на базе СУБД ClickHouse

Длительность дисциплины: 40 ак.ч.


Аннотация

Программа посвящена созданию хранилищ данных на базе СУБД ClickHouse, а также направлена на приобретение практических навыков развертывания, настройки и работы с СУБД ClickHouse.


Знания и умения, полученные в результате изучения

В результате освоения программы, обучающийся должен уметь:
•   Разрабатывать хранилища данных на базе СУБД ClickHouse.    
•   Развертывать и настраивать СУБД ClickHouse.
•   Создавать таблицы и определять различные типы ключей.
•   Разрабатывать и создавать Выбор ключа партиционированные таблицы.
•   Манипулировать партициями и партами (кусками).
•   Манипулировать данными в ClickHouse.

В результате освоения программы обучающийся должен знать:
•   Базовые понятия терминов и определений СУБД ClickHouse.
•   Движки таблиц, их назначения и особенностей.
•   Основы партиционирования.
•   Назначения и отличия репликации и шардирования от партиционирования.
•   Принципоы манипулирования данными.
•   Способы управления устаревшими данными (TTL).
•   Аналитические функции, их типы и особенности использования
•   Работу с различными источниками данных.

В результате освоения программы обучающийся должен приобрести практический опыт:
•   Работы с хранилищами данных на базе СУБД ClickHouse.


Содержание дисциплины

Тема 1. Введение в ClickHouse
1.1    Введение в ClickHouse    
    Введение в ClickHouse - назначение, использование, термины и определения, преимущества и недостатки.
1.2    Архитектура СУБД ClickHouse    
    Архитектура СУБД ClickHouse.
    Системные таблицы, сеттинги.
    Движки баз данных.
    Особенности и нюансы использования движков БД.
    Развертывание и настройка СУБД ClickHouse
Практические занятия    
1.    Развертывание и настройка СУБД ClickHouse.
2.    Подключение к СУБД ClickHouse.
3.    Развертывание из архива учебной БД.
4.    Тестирование запросов к БД

Тема 2. Создание таблиц БД
2.1    Создание таблиц БД    
    Типы данных.
    Типы таблиц.
    Движки таблиц – назначение и особенности.
    Создание таблиц.
2.2    Определение ключей    
    Первичный ключ.
    Ключ сортировки.
    Ключ партиционирования.
Практические занятия    
1.    Реализация хранилища в ClickHouse.
2.    Проектирование содержания/ структуры таблиц для логов, оффсетов загрузки данных в таблицы.

Тема 3. Партиционированные таблицы.
3.1    Партиционированные таблицы    
    Назначение и преимущества партиционирования.
    Партиции и парты.
    Выбор ключа партиционирования.
3.2    Манипуляции с партициями    
    Манипуляции с партициями и партами (кусками).
    Репликация и шардирование – назначение и отличие от партиционирования.
Практические занятия    
1.    Создание партиционированных таблиц.
2.    Манипуляции с партициями

Тема 4. Манипулирование данными в ClickHouse.
4.1    Манипулирование данными    Вставка и изменение данных (внешние БД, table functions).
    Управление устаревшими данными (TTL).
    Извлечение данных: извлечение полных данных и семплирование.
4.2    Проекции, материализованные представления.    
    Проекции, материализованные представления.
Практические занятия    
Манипулирование данными в ClickHouse.

Тема 5. Aналитические функции.
5.1    Aналитические функции    
    Aналитические функции.
    Типы, особенности использования.
Практические занятия    
1.    Заполнить хранилище данными из OLTP системы.
2.    Построить витрину данных на основе одной из факт таблиц.

Тема 6. Итоговая аттестация
Практические занятия    Зачет