DWH-04. Визуализация и анализ данных
Длительность дисциплины: 44 ак.ч.
Аннотация
Программа ориентирован на изучение области анализа больших данных, а также приобретение практических навыков проведения аналитического исследования с применением технологий больших данных
Знания и умения, полученные в результате изучения
В результате освоения программы, обучающийся должен уметь:
• Умение проводить сравнительный анализ методов и инструментальных средств анализа больших данных.
• Умение проводить анализ больших данных в соответствии с утвержденными требованиями к результатам аналитического исследования•
В результате освоения программы обучающийся должен знать:
• Современные методы и инструментальные средства анализа больших данных
• Теоретические и прикладные основы анализа данных.
• Теорию принятия решений.
• Математическое моделирование.
• Типы анализа больших данных, виды аналитики.
• Прикладные разделы теории вероятностей и математической статистика.
В результате освоения программы обучающийся должен приобрести практический опыт:
• Планирования и организации аналитических работ с использованием технологий больших данных.
• Проведения аналитического исследования с применением технологий больших данных
Содержание дисциплины
Тема 1. Введение в аналитику
1.1 Кто такие аналитики.
Решаемые задачи.
Виды аналитиков: аналитики данных, продуктовые, маркетинговые и т.д.
Метрики.
Виды метрик в зависимости от области (продуктовые, e-commerce, и т.д.).
Когортный анализ.
Юнит-экономика.
Тема 2. Что такое BI
2.1 Обзор лидеров рынка BI.
Обзор современных платформ BI.
Типовые функции BI систем
Тема 3. Основы статистики
3.1 Статистический анализ данных: обзор показателей и их назначения.
Среднее, медиана.
Выбросы.
Стандартное отклонение, мода, математическое ожидание, перцентили.
Корреляция.
Исследование двух или более переменных.
Распределения данных и выборок
Практики:
Проанализировать набор данных, используя описательную статистику
Тема 4. Базовые принципы визуализации данных
4.1 Требования к дашбордам.
Как рассказать историю и донести свою мысль.
Оси и системы координат.
Цветовые шкалы.
Каталог визуализаций (количественные диаграммы, диаграммы распределения, пропорциональные диаграммы и т.д.).
Визуализация количественных данных, распределений, пропорций, связей между количественными переменными, временных рядов, трендов, геопространственных данных, неопределенности. Принципы дизайна визуализации: принцип пропорциональной заливки, избыточная передача данных и т.п. Инструменты визуализации.
Практики:
Знакомство с инструментом с открытым исходным кодом Orange и его возможностями для визуализации данных.
Тема 5. Введение в Real-time аналитику
5.1 Определение real time аналитики.
Примеры применения real time аналитики.
Введение в Spark Streaming.
Сравнение Kafka Streams и Spark Streaming.
Практики:
Использовать Spark Streaming для создания потока для аналитики в реальном времени.
Тема 6. Итоговая аттестация
Зачет