Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Какие два основных компонента структуры Hadoop?

ПрограммированиеData scienceHadoop
Анонимный вопрос
Data Science
  · 605
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of...  · 16 дек 2021
Основные компоненты Apache Hadoop
Apache Hadoop - это платформа, которая позволяет распределенную обработку больших наборов данных в кластерах обычных компьютеров с использованием простой модели программирования. Он предназначен для масштабирования от отдельных серверов до тысяч машин, каждая из которых обеспечивает вычисления и хранение. Вместо того, чтобы полагаться на оборудование для обеспечения высокой доступности, сама структура предназначена для обнаружения и обработки сбоев на уровне приложений, тем самым предоставляя высокодоступную услугу поверх кластера компьютеров, каждый из которых может быть подвержен сбоям.
HDFS (хранилище) и YARN (обработка) - два основных компонента Apache Hadoop. Наиболее важным аспектом Hadoop является то, что и HDFS, и YARN разработаны с учетом друг друга, и каждый из них развертывается совместно, так что существует единый кластер и, таким образом, обеспечивает возможность перемещать вычисления к данным, а не наоборот. Таким образом, система хранения физически не отделена от системы обработки.
=========================
Распределенная файловая система Hadoop (HDFS)
HDFS - это распределенная файловая система, обеспечивающая высокопроизводительный доступ к данным. Он предоставляет ограниченный интерфейс для управления файловой системой, позволяющий масштабировать ее и обеспечивать высокую пропускную способность. HDFS создает несколько реплик каждого блока данных и распределяет их по компьютерам в кластере, чтобы обеспечить надежный и быстрый доступ.
Основные компоненты HDFS описаны ниже:
NameNode - хозяин системы. Он поддерживает систему имен (каталоги и файлы) и управляет блоками, которые присутствуют в узлах данных.
Узлы данных - это подчиненные устройства, которые развертываются на каждой машине и обеспечивают фактическое хранилище. Они несут ответственность за обслуживание запросов на чтение и запись для клиентов.
Secondary NameNode отвечает за выполнение периодических проверок. В случае сбоя NameNode вы можете перезапустить NameNode с помощью контрольной точки.
=========================
Фундаментальная идея YARN состоит в том, чтобы разделить две основные обязанности MapReduce - JobTracker, то есть управление ресурсами и планирование / мониторинг заданий, на отдельные демоны: глобальный ResourceManager и ApplicationMaster (AM) для каждого приложения.
ResourceManager и подчиненное устройство для каждого узла, NodeManager (NM), образуют новую общую систему для распределенного управления приложениями.
Основные компоненты MapReduce описаны ниже:
ResourceManager - это высший орган, который распределяет ресурсы между всеми приложениями в системе. ApplicationMaster для каждого приложения, по сути, является специфической сущностью платформы, и ему поручено согласовывать ресурсы из ResourceManager и работать с NodeManager (ами) для выполнения и мониторинга задач компонента.
NodeManager - это агент YARN для каждого узла, который заботится об отдельных вычислительных узлах в кластере Hadoop. Это включает в себя обновление с помощью ResourceManager (RM), наблюдение за управлением жизненным циклом контейнеров; мониторинг использования ресурсов (память, ЦП) отдельных контейнеров, отслеживание работоспособности узлов, управление журналами и вспомогательные службы, которые могут использоваться различными приложениями YARN.