Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Добавление новых вопросов в BigData #8

Open
kirilldikalin opened this issue May 23, 2023 · 0 comments
Open

Comments

@kirilldikalin
Copy link
Owner

kirilldikalin commented May 23, 2023

  • Чем отличается постгрес от кликхауса? Почему бы не писать запросы в постгрес?

  • Зачем в кликахаусе на движке MergeTree прописывается ORDER BY?

  • Если в кликхаусе написать запрос для джоина таблиц как он отработает если выполнять по ключу который отсортирован и не отсортирован?

  • Какие существуют архитектуры DWH? Они же методы/схемы организации данных

  • В чём преимущество дата волта если у нас происходят частые изменения на источнике?

  • ETL и ELT разница, преимущества и недостатки. Что выбрать если меняется структура данных на источнике?

  • Apache Flink

    • Чем Apache Flink отличается от Apache Spark?
    • Какие преимущества реального времени предлагает Flink по сравнению с пакетной обработкой?
  • Stream Processing

    • Что такое обработка потоков данных и какие задачи она решает?
    • Какие паттерны обработки потоков данных вы знаете?
  • Lambda и Kappa архитектуры

    • В чем разница между Lambda и Kappa архитектурами?
    • Приведите примеры использования Lambda и Kappa архитектур.
  • Microservices and Big Data

    • Как микросервисы интегрируются с большими данными?
    • Какие проблемы масштабируемости и управления могут возникнуть при использовании микросервисов для больших данных?
  • Data Mesh

    • Что такое Data Mesh и каковы его ключевые принципы?
    • Как Data Mesh способствует децентрализации управления данными?
  • Security in Big Data

    • Какие основные аспекты безопасности необходимо учитывать при работе с большими данными?
    • Какие механизмы обеспечения безопасности данных используются в Hadoop и Spark?
    • Работа с PCIDSS
  • Data Governance

    • Что такое управление данными (Data Governance) и почему это важно для больших данных?
    • Какие инструменты и технологии используются для управления качеством данных?
  • Machine Learning with Big Data

    • Как интегрировать машинное обучение с большими данными?
    • Какие фреймворки и библиотеки чаще всего используются для машинного обучения на больших данных?
  • Cloud Solutions for Big Data

    • Какие облачные решения существуют для работы с большими данными?
    • В чем преимущества и недостатки использования облачных платформ для обработки и хранения больших данных?
  • Data Lakes vs. Data Warehouses vs. Data Marts

    • В чем различия и сходства между Data Lakes, Data Warehouses и Data Marts?
    • Как определить, какое хранилище данных подходит для вашего проекта?
  • Real-time Analytics

    • Какие технологии позволяют проводить аналитику в реальном времени?
    • Какие вызовы и сложности связаны с аналитикой больших данных в реальном времени?
  • Data Quality and Data Cleaning

    • Какие подходы и инструменты используются для обеспечения качества данных?
    • Как автоматизировать процесс очистки данных?
  • Big Data Testing and Validation

    • Как проводится тестирование и валидация в проектах на больших данных?
    • Какие особенности нагрузочного тестирования для систем с большими данными?
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant