+7 (812) 703-02-02 info@hse.spbstu.ru

DWH-04. Визуализация и анализ данных

Длительность дисциплины: 44 ак.ч.


Аннотация

Программа ориентирован на изучение области анализа больших данных, а также приобретение практических навыков проведения аналитического исследования с применением технологий больших данных


Знания и умения, полученные в результате изучения

В результате освоения программы, обучающийся должен уметь:
•  Умение проводить сравнительный анализ методов и инструментальных средств анализа больших данных.
•  Умение проводить анализ больших данных в соответствии с утвержденными требованиями к результатам аналитического исследования•       

В результате освоения программы обучающийся должен знать:
•  Современные методы и инструментальные средства анализа больших данных
•  Теоретические и прикладные основы анализа данных.
•  Теорию принятия решений.
•  Математическое моделирование.
•  Типы анализа больших данных, виды аналитики.
•  Прикладные разделы теории вероятностей и математической статистика.
 
В результате освоения программы обучающийся должен приобрести практический опыт:
•  Планирования и организации аналитических работ с использованием технологий больших данных.
•  Проведения аналитического исследования с применением технологий больших данных

 


Содержание дисциплины

Тема 1.    Введение в аналитику
1.1    Кто такие аналитики.
    Решаемые задачи.
    Виды аналитиков: аналитики данных, продуктовые, маркетинговые и т.д.
    Метрики.
    Виды метрик в зависимости от области (продуктовые, e-commerce, и т.д.).
    Когортный анализ.
    Юнит-экономика.
Тема 2.    Что такое BI
2.1    Обзор лидеров рынка BI.
    Обзор современных платформ BI.
    Типовые функции BI систем
Тема 3.    Основы статистики
3.1    Статистический анализ данных: обзор показателей и их назначения.
    Среднее, медиана.
    Выбросы.
    Стандартное отклонение, мода, математическое ожидание, перцентили.
    Корреляция.
    Исследование двух или более переменных.
    Распределения данных и выборок
Практики:
    Проанализировать набор данных, используя описательную статистику

Тема 4.    Базовые принципы визуализации данных
4.1    Требования к дашбордам.
    Как рассказать историю и донести свою мысль.
    Оси и системы координат.
    Цветовые шкалы.
    Каталог визуализаций (количественные диаграммы, диаграммы распределения, пропорциональные диаграммы и т.д.).
    Визуализация количественных данных, распределений, пропорций, связей между количественными переменными, временных рядов, трендов, геопространственных данных, неопределенности. Принципы дизайна визуализации: принцип пропорциональной заливки, избыточная передача данных и т.п. Инструменты визуализации.
Практики:
Знакомство с инструментом с открытым исходным кодом Orange и его возможностями для визуализации данных.

Тема 5.    Введение в Real-time аналитику
5.1    Определение real time аналитики.
    Примеры применения real time аналитики.
    Введение в Spark Streaming.
    Сравнение Kafka Streams и Spark Streaming.
Практики:
Использовать Spark Streaming для создания потока для аналитики в реальном времени.

Тема 6.    Итоговая аттестация
Зачет