Big Data

Что такое DWH
Data Lake
Витрины данных
ETL и ETL-запросы
Разработка ETL-процесса
Элементы ETL-процесса
Что такое Hadoop?
Data Vault
Apache Kafka
Greenplum
Распределенная файловая система HDFS
MapReduce
- Фреймворк MapReduce
- Hadoop Streaming

Pig и Hive
- Pig
- Hive
NoSQL базы данных: HBase и Cassandra
Spark
- Основные понятия Spark
- Операторы Spark
Чем отличается PostgreSQL от ClickHouse?
Зачем в ClickHouse на движке MergeTree прописывается ORDER BY?
Как работает запрос на джойн таблиц в ClickHouse, если выполнять по ключу, который отсортирован и не отсортирован?
Какие существуют архитектуры DWH?
В чём преимущество Data Vault, если у нас происходят частые изменения на источнике?
ETL и ELT: разница, преимущества и недостатки.
Что выбрать, если меняется структура данных на источнике?
Apache Flink
- Чем Apache Flink отличается от Apache Spark?
- Какие преимущества реального времени предлагает Flink по сравнению с пакетной обработкой?
Обработка потоков данных
- Что такое обработка потоков данных и какие задачи она решает?
- Какие паттерны обработки потоков данных вы знаете?
Lambda и Kappa архитектуры
- В чем разница между Lambda и Kappa архитектурами?
- Приведите примеры использования Lambda и Kappa архитектур.
Microservices and Big Data
- Как микросервисы интегрируются с большими данными?
- Какие проблемы масштабируемости и управления могут возникнуть при использовании микросервисов для больших данных?
Data Mesh
- Что такое Data Mesh и каковы его ключевые принципы?
- Как Data Mesh способствует децентрализации управления данными?
Security in Big Data
- Какие основные аспекты безопасности необходимо учитывать при работе с большими данными?
- Какие механизмы обеспечения безопасности данных используются в Hadoop и Spark?
Data Governance
- Что такое управление данными (Data Governance) и почему это важно для больших данных?
- Какие инструменты и технологии используются для управления качеством данных?
Machine Learning with Big Data
- Как интегрировать машинное обучение с большими данными?
- Какие фреймворки и библиотеки чаще всего используются для машинного обучения на больших данных?
Cloud Solutions for Big Data
- Какие облачные решения существуют для работы с большими данными?
- В чем преимущества и недостатки использования облачных платформ для обработки и хранения больших данных?

Что такое DWH

DWH — Data warehouse — Корпоративное хранилище данных (КХД) — склад всех нужных и важных для принятия решений данных компании.

Потребность в КХД сформировалась примерно в 90-х годах прошлого века, когда в секторе enterprise стали активно использоваться разные информационные системы для учета множества бизнес-показателей. Каждое такое приложение успешно решало задачу автоматизации локального производственного процесса, например, выполнение бухгалтерских расчетов, проведение транзакций, HR-аналитика и т.д.

При этом схемы представления (модели) справочных и транзакционных данных в одной системе могут кардинально отличаться от другой, что влечет расхождение информации. Кроме того, большое разнообразие моделей данных затрудняет получение консолидированной отчетности, когда нужна целостная картина из всех прикладных систем. Поэтому возникли корпоративные хранилища данных (Data Warehouse, DWH) – предметно-ориентированные базы данных для консолидированной подготовки отчётов, интегрированного бизнес-анализа и оптимального принятия управленческих решений на основе полной информационной картины.

Архитектура КХД

Вышеприведенное определение DWH показывает, что это средство хранения данных является реляционным. Однако, не стоит считать КХД просто большой базой данных с множеством взаимосвязанных таблиц. В отличие от традиционной SQL-СУБД, Data Warehouse имеет сложную многоуровневую (слоеную) архитектуру, которая называется LSA – Layered Scalable Architecture. По сути, LSA реализует логическое деление структур с данными на несколько функциональных уровней. Данные копируются с уровня на уровень и трансформируются при этом, чтобы в итоге предстать в виде согласованной информации, пригодной для анализа.

Классически LSA реализуется в виде следующих уровней:

Операционный слой первичных данных(Primary Data Layer или стейджинг)
Здесь выполняется загрузка информации из систем-источников в исходном качестве и сохранением полной истории изменений. Здесь происходит абстрагирование следующих слоев хранилища от физического устройства источников данных, способов их сбора и методов выделения изменений.
Ядро хранилища (Core Data Layer)
Центральный компонент, который выполняет консолидацию данныхиз разных источников, приводя их к единым структурам и ключам. Именно здесь происходит основная работа с качеством данных и общие трансформации, чтобы абстрагировать потребителей от особенностей логического устройства источников данных и необходимости их взаимного сопоставления. Так решается задача обеспечения целостности и качества данных.
Аналитические витрины (Data Mart Layer)
Тут данные преобразуются к структурам, удобным для анализа и использования в BI-дэшбордах или других системах-потребителях. Когда витрины берут данные из ядра, они называются регулярными. Если же для быстрого решения локальных задач не нужна консолидация данных, витрина может брать первичные данные из операционного слоя и называется соответственно операционной. Также бывают вторичные витрины, которые используются для представления результатов сложных расчетов и нетипичных трансформаций. Таким образом, витрины обеспечивают разные представления единых данных под конкретную бизнес-специфику.
Сервисный слой (Service Layer)
Обеспечивает управление всеми вышеописанными уровнями. Он не содержит бизнес-данных, но оперирует метаданными и другими структурами для работы с качеством данных, позволяя выполнять сквозной аудит данных (data lineage), использовать общие подходы к выделению дельты изменений и управления загрузкой. Также здесь доступны средства мониторинга и диагностики ошибок, что ускоряет решение проблем.

LSA – слоеная архитектура DWH: как устроено хранилище данных

Все слои, кроме сервисного, состоят из области постоянного хранения данных и модуля загрузки и трансформации. Области хранения содержат технические (буферные) таблицы для трансформации данных и целевые таблицы, к которым обращается потребитель. Для обеспечения процессов загрузки и аудита ETL-процессов данные в целевых таблицах стейджинга, ядра и витринах маркируются техническими полями (мета-атрибутами). Еще выделяют слой виртуальных провайдеров данных и пользовательских отчетов для виртуального объединения (без хранения) данных из различных объектов. Каждый уровень может быть реализован с помощью разных технологий хранения и преобразования данных или универсальных продуктов, например, SAP NetWeaver Business Warehouse (SAP BW).

В чём разница между обычной базой данных и DWH

Типы хранимых данных.
Обычные СУБД хранят данные строго для определенных подсистем. База данных склада хранит складские запасы и ничего более. База данных кадровиков хранит данные по персоналу, но не товары или сделки. DWH, как правило, хранит информацию разных подразделений — там найдутся данные и по товарам, и по персоналу, и по сделкам.
Объемы данных.
Обычная БД, которая ведется в рамках стандартной деятельности компании, содержит только актуальную информацию, нужную в данный момент для функционирования определенной системы. В DWH пишутся не столько копии актуальных состояний, сколько исторические данные и агрегированные значения. Например, состояние запасов разных категорий товаров на конец смены за последние пять лет. Иногда в DWH пишутся и более крупные пачки данных, если они имеют критическое значение для бизнеса — допустим, полные данные по продажам и сделкам. То есть, по сути, это копия СУБД отдела продаж.
Место в рабочих процессах.
Информация обычно сразу попадает в рабочие базы данных, а уже оттуда некоторые записи переползают в DWH. Склад данных, по сути, отражает состояние других БД и процессов в компании уже после того, как вносятся изменения в рабочих базах.

DWH — это система данных, отдельная от оперативной системы обработки данных. В корпоративных хранилищах в удобном для анализа виде хранятся архивные данные из разных, иногда очень разнородных источников. Эти данные предварительно обрабатываются и загружаются в хранилище в ходе процессов извлечения, преобразования и загрузки, называемых ETL. Решения ETL и DWH — это (упрощенно) одна система для работы с корпоративной информацией и ее хранения.

Что дают DWH-решения для BI и принятия решений в компании

Понятное дело, что просто так тратить деньги и время на консервирование кучи разных записей, которые и так можно накопать в других базах данных, никто не станет. Ответ заключается в том, что DWH необходима для того, чтобы делать BI — business intelligence.

Что такое BI с DWH? Бизнес-аналитика (BI) — это процесс анализа данных и получения информации, помогающей компаниям принимать решения.

Допустим, у вас в онлайн-магазине упала выручка. Менеджеры зовут на помощь бизнес-аналитика и просят его разобраться. Тот идет в DWH, вынимает оттуда данные по продажам, выручке, количеству пользователей, расходам — и собирает отчет, который в подробностях и с цифрами говорит о причинах падения финансовых показателей. Менеджеры внимательно смотрят на эту информацию и принимают решения по реорганизации ассортимента товаров и маркетинговых политик. Если бы такого аналитического отчета не было — управленцам пришлось бы искать проблему наугад.

Логичный вопрос: казалось бы, зачем держать для этого всего DWH? Аналитики вполне могут ходить в базы данных разных систем и просто выдергивать оттуда то, что им надо.

Ответ: так, конечно, тоже можно делать. Но — не нужно. И вот почему:

Доступ к нужным данным.
Если компания большая, на получение данных из разных источников нужно собирать разрешения и доступы. У каждого подразделения в такой ситуации, как правило, свои базы данных со своими паролями, которые надо будет запрашивать отдельно. В DWH все нужное уже будет под рукой в готовом виде. Можно просто пойти и дернуть там необходимую статистику.
Сохранность нужных данных.
Данные в DWH не теряются и хранятся в виде, удобном для принятия решений: есть исторические записи, есть агрегированные значения. В операционной базе данных такой информации может и не быть. Например, админы уж точно не будут хранить на складском сервере архив запасов за 10 лет — БД склада в таком случае была бы слишком тяжелой. А вот хранить агрегированные запасы со склада в DWH — это нормально.
Устойчивость работы бизнес-систем.
DWH оптимизируется для работы аналитиков, а эти ребята могут запрашивать очень большие объемы информации. Если они будут делать это с помощью DWH — ничего страшного, даже если их запрос будет обрабатываться очень долго. А если запросить слишком много записей с боевой базы данных сервера — он может уйти в отказ до конца выполнения запроса от аналитики и создать проблемы для других систем. DWH исключает риск того, что аналитики что-то повесят или сломают.

Почему бизнес-аналитика невозможна без DWH

DWH и бизнес-аналитики переводят управление компаниями из искусства в науку. Имея под рукой результаты измерений по сотням показателей, можно выдвигать гипотезы и ставить эксперименты. Правильные решения легко подтверждаются объективными цифрами, которые достают аналитики из DWH.

Оптимальные управленческие решения — это не всегда максимизация прибыли. Это еще и выращивание новых производственных мощностей, минимизация негативного влияния на экологию, достойное качество жизни сотрудников, лояльность клиентов и стабильность бизнеса в долгосрочной перспективе. Все эти, казалось бы, сложные и эфемерные показатели можно анализировать с помощью BI и данных из DWH.

Без DWH и аналитиков управление бизнесом превращается в слепую езду по льду — возможно, при определенной сноровке вы попадете куда надо, но шансов улететь в сугроб или в столб все же куда больше.

Files

BigData.md

Latest commit

History

BigData.md

File metadata and controls

Big Data

Что такое DWH

Data Lake

Витрины данных

ETL и ETL-запросы

Разработка ETL-процесса

Элементы ETL-процесса

Что такое Hadoop?

Data Vault

Apache Kafka

Greenplum

Распределённая файловая система HDFS

Архитектура HDFS

Shell-команды

Java API

MapReduce

Парадигма MapReduce

Фреймворк MapReduce

Hadoop Streaming

Pig и Hive

Pig

Hive

NoSQL базы данных: HBase и Cassandra

Способы хранения данных

NoSQL

Введение в HBase

Архитектура HBase

Spark

Основные понятия Spark

Операторы Spark

Чем отличается PostgreSQL от ClickHouse?

Зачем в ClickHouse на движке MergeTree прописывается ORDER BY?

Как работает запрос на джойн таблиц в ClickHouse, если выполнять по ключу, который отсортирован и не отсортирован?

Какие существуют архитектуры DWH?

В чём преимущество Data Vault, если у нас происходят частые изменения на источнике?

ETL и ELT: разница, преимущества и недостатки

Что выбрать, если меняется структура данных на источнике?

Apache Flink

Чем Apache Flink отличается от Apache Spark?

Какие преимущества реального времени предлагает Flink по сравнению с пакетной обработкой?

Обработка потоков данных

Что такое обработка потоков данных и какие задачи она решает?

Какие паттерны обработки потоков данных вы знаете?

Lambda и Kappa архитектуры

В чем разница между Lambda и Kappa архитектурами?

Приведите примеры использования Lambda и Kappa архитектур