Какие два основных компонента структуры Hadoop?

ПрограммированиеData scienceHadoop

Анонимный вопросData Science

16 декабря 2021 · 606

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 16 дек 2021

Основные компоненты Apache Hadoop

Apache Hadoop - это платформа, которая позволяет распределенную обработку больших наборов данных в кластерах обычных компьютеров с использованием простой модели программирования. Он предназначен для масштабирования от отдельных серверов до тысяч машин, каждая из которых обеспечивает вычисления и хранение. Вместо того, чтобы полагаться на оборудование для обеспечения высокой доступности, сама структура предназначена для обнаружения и обработки сбоев на уровне приложений, тем самым предоставляя высокодоступную услугу поверх кластера компьютеров, каждый из которых может быть подвержен сбоям.

HDFS (хранилище) и YARN (обработка) - два основных компонента Apache Hadoop. Наиболее важным аспектом Hadoop является то, что и HDFS, и YARN разработаны с учетом друг друга, и каждый из них развертывается совместно, так что существует единый кластер и, таким образом, обеспечивает возможность перемещать вычисления к данным, а не наоборот. Таким образом, система хранения физически не отделена от системы обработки.

=========================

Распределенная файловая система Hadoop (HDFS)

HDFS - это распределенная файловая система, обеспечивающая высокопроизводительный доступ к данным. Он предоставляет ограниченный интерфейс для управления файловой системой, позволяющий масштабировать ее и обеспечивать высокую пропускную способность. HDFS создает несколько реплик каждого блока данных и распределяет их по компьютерам в кластере, чтобы обеспечить надежный и быстрый доступ.

Основные компоненты HDFS описаны ниже:

NameNode - хозяин системы. Он поддерживает систему имен (каталоги и файлы) и управляет блоками, которые присутствуют в узлах данных.

Узлы данных - это подчиненные устройства, которые развертываются на каждой машине и обеспечивают фактическое хранилище. Они несут ответственность за обслуживание запросов на чтение и запись для клиентов.

Secondary NameNode отвечает за выполнение периодических проверок. В случае сбоя NameNode вы можете перезапустить NameNode с помощью контрольной точки.

=========================

Фундаментальная идея YARN состоит в том, чтобы разделить две основные обязанности MapReduce - JobTracker, то есть управление ресурсами и планирование / мониторинг заданий, на отдельные демоны: глобальный ResourceManager и ApplicationMaster (AM) для каждого приложения.

ResourceManager и подчиненное устройство для каждого узла, NodeManager (NM), образуют новую общую систему для распределенного управления приложениями.

Основные компоненты MapReduce описаны ниже:

ResourceManager - это высший орган, который распределяет ресурсы между всеми приложениями в системе. ApplicationMaster для каждого приложения, по сути, является специфической сущностью платформы, и ему поручено согласовывать ресурсы из ResourceManager и работать с NodeManager (ами) для выполнения и мониторинга задач компонента.

NodeManager - это агент YARN для каждого узла, который заботится об отдельных вычислительных узлах в кластере Hadoop. Это включает в себя обновление с помощью ResourceManager (RM), наблюдение за управлением жизненным циклом контейнеров; мониторинг использования ресурсов (память, ЦП) отдельных контейнеров, отслеживание работоспособности узлов, управление журналами и вспомогательные службы, которые могут использоваться различными приложениями YARN.

Источник https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.0.8.0/bk_getting-started-guide/content/ch_hdp2_getting_started_chp2_1.html