Os 10 termos mais importantes do Hadoop que você precisa conhecer e entender

Contente

Mas primeiro, veja como o Hadoop funciona
Hadoop Common
Sistema de arquivos distribuídos do Hadoop (HDFS)
MapReduce
HBase
Colmeia
Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida
Porco Apache
Apache Spark
Apache Cassandra
Outro negociador de recursos (YARN)
Impala

Fonte: Trueffelpix / Dreamstime.com

Leve embora:

Para realmente entender big data, você precisa entender um pouco sobre o Hadoop e o idioma ao seu redor.

Big data, o nome cativante para grandes volumes de dados estruturados, não estruturados ou semiestruturados, é notoriamente difícil de capturar, armazenar, gerenciar, compartilhar, analisar e visualizar, pelo menos usando aplicativos tradicionais de banco de dados e software. É por isso que as tecnologias de big data têm o potencial de gerenciar e processar grandes volumes de dados de maneira eficaz e eficiente. E o Apache Hadoop, que fornece a estrutura e as tecnologias associadas para processar grandes conjuntos de dados em clusters de computadores de maneira distribuída. Portanto, para realmente entender big data, você precisa entender um pouco sobre o Hadoop. Aqui, dê uma olhada nos principais termos que você ouvirá em relação ao Hadoop - e o que eles significam.

Mas primeiro, veja como o Hadoop funciona

Antes de entrar no ecossistema Hadoop, você precisa entender claramente duas coisas fundamentais. A primeira é como um arquivo é armazenado no Hadoop; o segundo é como os dados armazenados são processados. Todas as tecnologias relacionadas ao Hadoop funcionam principalmente nessas duas áreas e a tornam mais amigável ao usuário. (Conheça o básico sobre como o Hadoop funciona em Como o Hadoop ajuda a resolver o problema de Big Data.)

Agora, para os termos.

Hadoop Common

A estrutura do Hadoop possui módulos diferentes para diferentes funcionalidades e esses módulos podem interagir entre si por vários motivos. O Hadoop Common pode ser definido como uma biblioteca de utilitários comum para dar suporte a esses módulos no ecossistema Hadoop. Esses utilitários são basicamente arquivos arquivados (JARs) baseados em Java. Esses utilitários são usados principalmente por programadores e desenvolvedores durante o tempo de desenvolvimento.

Sistema de arquivos distribuídos do Hadoop (HDFS)

O Hadoop Distributed File System (HDFS) é um subprojeto do Apache Hadoop da Apache Software Foundation. Essa é a espinha dorsal do armazenamento na estrutura do Hadoop. É um sistema de arquivos distribuído, escalável e tolerante a falhas que se estende por vários hardwares comuns conhecidos como cluster Hadoop. O objetivo do HDFS é armazenar um grande volume de dados de maneira confiável, com acesso de alto rendimento aos dados do aplicativo. O HDFS segue a arquitetura mestre / escravo, onde o mestre é conhecido como NameNode e os escravos são conhecidos como DataNodes.

MapReduce

O Hadoop MapReduce também é um subprojeto da Apache Software Foundation. MapReduce é na verdade uma estrutura de software puramente escrita em Java. Seu objetivo principal é processar grandes conjuntos de dados em um ambiente distribuído (composto de hardware comum) de maneira completamente paralela. A estrutura gerencia todas as atividades, como agendamento, monitoramento, execução e reexecução de tarefas (no caso de tarefas com falha).

HBase

O Apache HBase é conhecido como banco de dados Hadoop. É um armazenamento de big data colunar, distribuído e escalável. Também é conhecido como um tipo de banco de dados NoSQL que não é um sistema de gerenciamento de banco de dados relacional. Os aplicativos HBase também são escritos em Java, criados no Hadoop e executados no HDFS. O HBase é usado quando você precisa de leitura / gravação em tempo real e acesso aleatório ao big data. O HBase é modelado com base nos conceitos do Googles BigTable.

Colmeia

O Apache Hive é um sistema de software de armazém de dados de código aberto. O Hive foi desenvolvido originalmente por antes de pertencer à Apache Software Foundation e se tornar um código aberto. Isso facilita o gerenciamento e a consulta de grandes conjuntos de dados no armazenamento compatível distribuído do Hadoop. O Hive executa todas as suas atividades usando uma linguagem semelhante ao SQL conhecida como HiveQL. (Saiba mais em Uma breve introdução ao Apache Hive e Pig.)

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

Porco Apache

O Pig foi originalmente iniciado pelo Yahoo para desenvolver e executar tarefas do MapReduce em um grande volume de dados distribuídos. Agora, ele se tornou um projeto de código aberto da Apache Software Foundation. O Apache Pig pode ser definido como uma plataforma para analisar conjuntos de dados muito grandes de maneira eficiente. A camada de infraestrutura de porcos produz sequências de tarefas do MapReduce para realizar o processamento real. A camada de linguagem Pigs é conhecida como Pig Latin e fornece recursos semelhantes ao SQL para executar consultas em conjuntos de dados distribuídos.

Apache Spark

O Spark foi desenvolvido originalmente pela AMPLab na UC Berkeley. Tornou-se um projeto de nível superior do Apache em fevereiro de 2014. O Apache Spark pode ser definido como uma estrutura de computação de cluster de código aberto, de uso geral, que torna a análise de dados muito mais rápida. Ele é construído sobre o sistema de arquivos distribuídos do Hadoop, mas não está vinculado à estrutura do MapReduce. O desempenho do Sparks é muito mais rápido comparado ao MapReduce. Ele fornece APIs de alto nível em Scala, Python e Java.

Apache Cassandra

O Apache Cassandra é outro banco de dados NoSQL de código aberto. O Cassandra é amplamente usado para gerenciar grandes volumes de extensões de dados estruturados, semiestruturados e não estruturados em vários data centers e armazenamento em nuvem. O Cassandra é projetado com base em uma arquitetura "sem mestre", o que significa que não suporta o modelo mestre / escravo. Nesta arquitetura, todos os nós são iguais e os dados são distribuídos automaticamente e igualmente entre todos os nós. Os recursos mais importantes do Cassandras são disponibilidade contínua, escalabilidade linear, replicação embutida / personalizável, nenhum ponto único de falha e simplicidade operacional.

Outro negociador de recursos (YARN)

Ainda outro negociador de recursos (YARN) também é conhecido como MapReduce 2.0, mas na verdade se enquadra no Hadoop 2.0. O YARN pode ser definido como uma estrutura de agendamento de tarefas e gerenciamento de recursos. A idéia básica do YARN é substituir as funcionalidades do JobTracker por dois daemons separados, responsáveis pelo gerenciamento de recursos e pela programação / monitoramento. Nesta nova estrutura, haverá um ResourceManager (RM) global e um mestre específico do aplicativo conhecido como ApplicationMaster (AM). O ResourceManager global (RM) e o NodeManager (por escravo de nó) formam a estrutura de computação de dados real. Os aplicativos MapReduce v1 existentes também podem ser executados no YARN, mas esses aplicativos precisam ser recompilados com os jars do Hadoop2.x.

Impala

O Impala pode ser definido como um mecanismo de consulta SQL com poder maciço de processamento paralelo (MPP). É executado nativamente na estrutura do Apache Hadoop. O Impala foi projetado como parte do ecossistema do Hadoop. Ele compartilha o mesmo sistema de arquivos flexíveis (HDFS), metadados, gerenciamento de recursos e estruturas de segurança usados por outros componentes do ecossistema do Hadoop. O ponto mais importante é observar que o Impala é muito mais rápido no processamento de consultas em comparação com o Hive. Mas também devemos lembrar que o Impala se destina à consulta / análise de um pequeno conjunto de dados e foi desenvolvido principalmente como uma ferramenta de análise que funciona em dados processados e estruturados.

O Hadoop é um tópico importante em TI, mas há quem não acredite em sua viabilidade a longo prazo. Leia mais em O que é o Hadoop? Uma teoria cínica.