Обработка больших данных. Джейд Картер

Читать онлайн.
Название Обработка больших данных
Автор произведения Джейд Картер
Жанр
Серия
Издательство
Год выпуска 2024
isbn



Скачать книгу

от их текущих потребностей. Это означает, что ресурсы, неиспользуемые одним приложением, могут быть перераспределены для других задач, что повышает эффективность использования кластера и уменьшает время простоя ресурсов.

      4. Масштабируемость:

      YARN спроектирована для работы на масштабируемых кластерах, что позволяет увеличивать количество узлов и приложений без значительных изменений в конфигурации системы. Это достигается благодаря децентрализации управления: ResourceManager и NodeManager распределяют нагрузку, а ApplicationMaster обеспечивает индивидуальное управление приложениями.

      Введение YARN произвело революцию в экосистеме Hadoop, превратив её из платформы, ориентированной исключительно на MapReduce, в универсальную среду для выполнения различных типов приложений. YARN открыло возможности для интеграции множества фреймворков и инструментов, таких как Apache Spark, Apache Storm, Apache Flink, и другие. Это сделало Hadoop более гибкой и адаптивной платформой, способной удовлетворять разнообразные потребности современных организаций в области обработки и анализа больших данных.

      YARN также обеспечило более эффективное использование ресурсов в кластерах, что позволило компаниям снизить затраты на инфраструктуру и увеличить производительность своих систем. В результате YARN стал неотъемлемым компонентом для всех, кто работает с большими данными, обеспечивая надёжную, масштабируемую и гибкую основу для работы с различными типами данных и вычислений.

      Ниже приведена схема, которая показывает, как компоненты YARN взаимодействуют между собой для распределения ресурсов и выполнения задач.

      ResourceManager включает в себя два основных модуля: Scheduler и ApplicationManager.

      NodeManagers управляют ресурсами на каждом узле, и каждый из них содержит несколько контейнеров (Containers), где выполняются задачи.

      ApplicationMasters представляют разные приложения, которые взаимодействуют как с ResourceManager, так и с NodeManagers. (Рис. 2)

      – Hive

      Hive – это инструмент, разработанный для анализа больших объемов данных, который предоставляет удобный интерфейс, похожий на SQL, для взаимодействия с данными в экосистеме Hadoop. Основная задача Hive – упрощение работы с Hadoop, позволяя пользователям выполнять запросы, обработку и агрегацию данных с помощью языка, близкого к SQL, что делает его доступным для людей, не имеющих глубоких знаний в программировании на Java или MapReduce.

      Hive использует язык запросов HiveQL (или HQL), который является расширением SQL и поддерживает большинство стандартных SQL-команд. Это позволяет пользователям писать запросы, управлять данными и создавать отчеты без необходимости напрямую взаимодействовать с Hadoop MapReduce, что может быть сложным и трудоемким процессом. Внутренне Hive преобразует запросы HiveQL в задачи MapReduce, которые затем выполняются на кластере Hadoop. Это превращает сложные вычислительные задачи в последовательность более управляемых шагов, что упрощает работу с большими данными.

      Одной из ключевых особенностей Hive является поддержка различных форматов хранения данных, таких как текстовые файлы, паркет (Parquet), Avro и ORC (Optimized Row Columnar). Это позволяет пользователям выбирать наиболее подходящий