Quais são as vantagens da estrutura do Hadoop 2.0 (YARN)?

Autor: Roger Morrison
Data De Criação: 18 Setembro 2021
Data De Atualização: 1 Julho 2024
Anonim
Quais são as vantagens da estrutura do Hadoop 2.0 (YARN)? - Tecnologia
Quais são as vantagens da estrutura do Hadoop 2.0 (YARN)? - Tecnologia

Contente


Fonte: Jim Hughes / Dreamstime.com

Leve embora:

O YARN é uma melhoria significativa em relação à estrutura do Hadoop 1.0. Aqui examinamos algumas das vantagens que ele tem sobre seu antecessor.

Desde a introdução do conceito de big data, ele passou por várias fases de evolução. O Hadoop foi introduzido em 2005 com alguns recursos iniciais, como o mecanismo de processamento MapReduce, que permitia cargas de trabalho de processamento de dados em larga escala distribuídas em clusters. O próprio Hadoop passou por muitas mudanças e desenvolveu estruturas e métodos avançados.

O YARN é um componente principal do Hadoop 2.0. Ele basicamente gerencia os recursos em um ambiente em cluster. O broker YARN interage com os recursos de computação (em nome dos aplicativos) e designa recursos para cada aplicativo com base em diferentes critérios de filtragem.

Neste artigo, examinaremos as principais vantagens do YARN sobre o Hadoop 1.0.


O que é o Framework YARN?

Yet UMAnão ela Resource NO egotiator é um componente principal do Hadoop 2.0, que gerencia recursos em um ambiente em cluster. A estrutura Hadoop YARN é uma versão avançada do Hadoop 1.0 que fornece desempenho aprimorado, o que é benéfico para o ecossistema Hadoop e para toda a gama de tecnologias associadas a ele. Agora que estamos um pouco mais familiarizados com o YARN, vamos examinar mais de perto o Hadoop 1.0 e o YARN.

Limitações da estrutura do Hadoop 1.0

Para entender as vantagens da estrutura YARN, é muito importante entender como o Hadoop 1.0 funciona e quais são as limitações dessa estrutura.

É aí que entra a função do JobTracker. Ele gerencia os recursos do cluster e determina a execução da tarefa MapReduce. Em poucas palavras, o JobTracker agenda e reserva os slots de tarefas, e configura e monitora cada tarefa em execução. Se uma tarefa falhar, realocará um novo slot para a tarefa iniciar novamente. Depois que uma tarefa é concluída, o JobTracker libera o slot para outras tarefas e limpa os recursos temporários.


Principais desvantagens da abordagem acima:

  • Disponibilidade - O JobTracker é o único ponto de disponibilidade no Hadoop 1.0. Isso significa que, se o JobTracker falhar, todas as tarefas serão reiniciadas por padrão.
  • Escalabilidade limitada - Como o JobTracker está executando várias tarefas e executando em uma única máquina, as outras máquinas disponíveis não estão sendo usadas; portanto, resultando em escalabilidade limitada.
  • Utilização de recursos - Na abordagem acima, os slots de mapa e os slots de redução são predefinidos. Pode acontecer que um dos slots esteja cheio, mas os outros slots da máquina estejam vazios. Como os slots vazios são reservados, eles permanecerão ociosos em vez de comprometer os slots completos. Isso pode causar um problema de utilização de recursos.
  • Executando aplicativos não MapReduce - JobTracker é um aplicativo criado para a estrutura MapReduce. O problema surge quando um aplicativo não-MapReduce tenta executar nesta estrutura. O aplicativo precisa estar em conformidade com a programação da estrutura MapReduce para executar com êxito. Alguns dos problemas comuns enfrentados devido a isso incluem problemas com:
    • Consulta ad-hoc
    • Análise em tempo real
    • abordagem de passagem
  • Falha na cascata - Um dos principais problemas dessa estrutura ocorre quando o número de nós é maior que 4000. Nesse cenário, ocorre uma falha de cascata, resultando na deterioração do cluster completo.

Essas são algumas das principais limitações enfrentadas ao trabalhar com essa estrutura. Existem outras limitações menores também, que não são mencionadas. A estrutura do YARN foi introduzida para superar essas limitações.

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

Framework YARN e suas vantagens

A estrutura do YARN, introduzida no Hadoop 2.0, deve compartilhar as responsabilidades do MapReduce e cuidar da tarefa de gerenciamento de cluster. Isso permite que o MapReduce execute apenas o processamento de dados e, portanto, simplifique o processo.

O YARN traz o conceito de gerenciamento central de recursos. Isso permite que vários aplicativos sejam executados no Hadoop, compartilhando um gerenciamento de recursos comum.

Alguns dos principais componentes da estrutura do YARN são:

  • ResourceManager - O componente ResourceManager é o negociador em um cluster para todos os recursos presentes nesse cluster. Além disso, esse componente é classificado em um gerenciador de aplicativos, responsável pelo gerenciamento de tarefas do usuário. No Hadoop 2.0, qualquer tarefa do MapReduce será considerada como um aplicativo.
  • ApplicationMaster - Este componente é o local em que existe um trabalho ou aplicativo. Ele também gerencia todos os trabalhos do MapReduce e é concluído após a conclusão do processamento do trabalho.
  • NodeManager - O componente do gerenciador de nós atua como o servidor para o histórico de tarefas. É responsável por proteger as informações dos trabalhos concluídos. Ele também acompanha os trabalhos dos usuários, juntamente com o fluxo de trabalho de um nó específico.

Tendo em mente que a estrutura do YARN possui diferentes componentes para gerenciar as diferentes tarefas, vamos ver como ela contraria as limitações do Hadoop 1.0.

  • Melhor utilização de recursos - A estrutura do YARN não possui slots fixos para tarefas. Ele fornece um gerenciador de recursos central que permite compartilhar vários aplicativos por meio de um recurso comum.
  • Executando aplicativos não MapReduce - No YARN, os recursos de agendamento e gerenciamento de recursos são separados do componente de processamento de dados. Isso permite que o Hadoop execute tipos variados de aplicativos que não estão em conformidade com a programação da estrutura do Hadoop. Agora, os clusters do Hadoop são capazes de executar consultas interativas independentes e executar melhor análise em tempo real.
  • Compatibilidade com versões anteriores - o YARN é uma estrutura compatível com versões anteriores, o que significa que qualquer tarefa existente do MapReduce pode ser executada no Hadoop 2.0.
  • O JobTracker não existe mais - As duas principais funções do JobTracker eram gerenciamento de recursos e agendamento de trabalhos. Com a introdução da estrutura YARN, eles agora são segregados em dois componentes separados, a saber:
    • NodeManager
    • Gerente de Recursos

Conclusão

A introdução da estrutura YARN facilitou a criação de aplicativos para desenvolvedores do Hadoop. Agora, os aplicativos não precisam mais ser implementados com ferramentas de terceiros. O YARN é uma grande mudança que permitirá que os usuários considerem o Hadoop 2.0 para criar aplicativos e manipular dados com mais eficiência. Com o tempo, haverá mais desenvolvimentos para aprimorar a usabilidade do Hadoop. Por enquanto, a estrutura do YARN desempenhará um papel crucial ao lidar com os problemas existentes e criar um ambiente sem complicações, mais versátil do que a versão anterior do modelo MapReduce.