Hadoop operacional na arquitetura de dados de próxima geração

Autor: Roger Morrison
Data De Criação: 20 Setembro 2021
Data De Atualização: 1 Julho 2024
Anonim
Hadoop operacional na arquitetura de dados de próxima geração - Tecnologia
Hadoop operacional na arquitetura de dados de próxima geração - Tecnologia

Contente



Fonte: Romeo1232 / Dreamstime.com

Leve embora:

O Hadoop será um participante importante na arquitetura de dados da próxima geração devido à sua capacidade de lidar com grandes quantidades de dados.

A utilidade do Hadoop está começando a ir além do processamento e análise de grandes dados, à medida que a indústria exige mais dela. O Hadoop atende constantemente a diversos requisitos relacionados à arquitetura de dados corporativos, mantendo seus pontos fortes originais. A lista do que o Hadoop pode fazer e está fazendo atualmente é bastante longa. O Hadoop agora pode processar grandes volumes de cargas de trabalho transacionais, uma tarefa que antes era esperada das tecnologias tradicionais. No futuro, existem muitas possibilidades para o Hadoop no futuro. Por exemplo, sistemas de transação baseados em SQL podem utilizar um mecanismo SQL do Hadoop e o Hadoop também adiciona muitos recursos de RDBMS. Você pode dizer que o Hadoop está se tornando um híbrido de processamento de dados e recursos analíticos com recursos de arquitetura corporativa.


O que é a arquitetura de dados de próxima geração?

Simplificando, a arquitetura de dados da próxima geração é uma forma evoluída de arquitetura de dados. Tudo, incluindo modelos de dados, políticas de dados, regras e padrões que governam como os dados são coletados, armazenados, organizados, analisados ​​ou processados, integrados, usados ​​e distribuídos, evoluiu sob a arquitetura de dados da próxima geração.

A principal diferença entre arquitetura de dados anterior e arquitetura de dados de próxima geração é a capacidade deste último de coletar, armazenar e processar enormes volumes de dados, também conhecidos como big data, em tempo real. A arquitetura executa todas essas tarefas complexas sem comprometer os padrões de privacidade, segurança e governança de dados.

A arquitetura de dados da próxima geração enfrenta muitos desafios. Não é fácil lidar com o volume, velocidade e variedade de big data. Acrescente a isso os requisitos de otimização da carga de trabalho do sistema, aprimorando desempenhos, velocidade e precisão e redução de custos. Desnecessário dizer que a arquitetura de dados anterior não precisava gerenciar essas demandas.


Portanto, os CIOs e os arquitetos da informação querem encontrar uma solução que os ajude a alcançar seus objetivos. O Hadoop operacional está em foco há algum tempo neste contexto. As seções a seguir discutirão como o Hadoop operacional pode resolver problemas.

Expectativas do Hadoop no contexto da arquitetura de próxima geração

As empresas estão sob crescente pressão para oferecer melhores resultados e os efeitos estão chegando às expectativas colocadas nas tecnologias. Portanto, não é mais esperado que o Hadoop processe apenas dados. CIOs e CTOs querem mais do Hadoop. Dada a seguir, é apresentada uma lista de expectativas do Hadoop. De fato, o Hadoop já cumpriu algumas dessas expectativas.

Espera-se que o Hadoop funcione com sistemas de transações baseados em SQL e que tenham recursos de criação, leitura, atualização e exclusão. Os sistemas de transações aproveitarão o mecanismo SQL. Os sistemas também terão conformidade total com a Interface do Sistema Operacional Portátil (POSIX) e a capacidade de processar altos volumes de transações.

Espera-se que o Hadoop ofereça suporte a recursos como backup, tolerância a falhas, recuperação e recuperação de desastres. Para que o Hadoop evolua para um sistema com recursos de RDBMS, ele precisa ser compatível com as ferramentas de TI existentes.

O Hadoop já está trabalhando para atender às expectativas, como é evidente em alguns desenvolvimentos. O Hadoop pode fornecer análises em tempo real e respostas rápidas com base no suporte ao gerenciamento de recursos fornecido pelo YARN. O YARN é um sistema operacional distribuído em larga escala para aplicativos de big data, além de ser um gerenciador de recursos. Sabe-se que outros desenvolvimentos, como o Apache Storm, arquiteturas distribuídas na memória, como Apache Spark, Apache Hive, Drill e MapR-FS (uma substituição de HDFS de alto desempenho), estão funcionando, para oferecer vários recursos completos de banco de dados, como backup, recuperação de desastre, tolerância a falhas etc. (Para saber mais sobre o YARN, consulte Quais são as vantagens da estrutura do Hadoop 2.0 (YARN)?)

Quais valores o Hadoop pode adicionar à arquitetura de dados de próxima geração?

Os valores que o Hadoop operacional pode adicionar à arquitetura de dados da próxima geração podem ser vistos de duas perspectivas: uma, se está cumprindo as expectativas descritas acima, e duas, se está fazendo algo adicional. A seguir, são apresentados os principais valores que o Hadoop operacional pode trazer.

O Hadoop agora pode fornecer mais escalabilidade e capacidade de gerenciamento de dados dentro de sua plataforma através do HDFS. E o sistema operacional de dados foi ativado pelos aplicativos YARN do Hadoop. Essa estratégia representa uma mudança na arquitetura de dados em um nível fundamental. Agora, o Hadoop pode armazenar vários tipos de dados, como bancos de dados orientados a transações, bancos de dados de gráficos e bancos de dados de documentos, e esses dados podem ser acessados ​​por meio dos aplicativos YARN. Não há necessidade de duplicar ou mover os dados para outros locais.

Desempenho aprimorado como uma arquitetura de dados corporativos

O Hadoop operacional está a caminho de se tornar o sistema principal da arquitetura de dados corporativos. À medida que o Hadoop entra mais na arquitetura de dados corporativos, os silos de dados serão eliminados à medida que as linhas entre eles forem eliminadas. Haverá uma rápida melhoria em quase todos os aspectos. As melhorias ocorrerão na forma de formatos de arquivo mais eficientes, melhor desempenho do mecanismo SQL, sistemas de arquivos aprimorados e robustez que atenderão às necessidades dos aplicativos corporativos.

Diferença entre o Hadoop e outras tecnologias

No passado, a principal diferença entre o Hadoop e as tecnologias corporativas de dados eram os recursos de processamento de dados, relatórios e análises de big data do Hadoop. Agora, à medida que o Hadoop operacional se torna cada vez mais parte da arquitetura de dados corporativos, a diferença entre as entidades fica cada vez mais nítida. Portanto, o Hadoop operacional está emergindo como uma alternativa superior à arquitetura de dados corporativos existente.

Conclusão

Dadas as expectativas e o progresso, o Hadoop estará no foco do setor por algum tempo. Mas faz sentido não se concentrar muito no Hadoop e simplesmente ignorar outras tecnologias. Isso ocorre porque outras tecnologias farão progressos nos mesmos parâmetros e podem até ultrapassar o Hadoop. Nunca é bom ter um monopólio no mercado. É bom que os fabricantes de outras tecnologias além do Hadoop possam estar motivados a oferecer melhores produtos e até plug-ins que ajudam o Hadoop a melhorar seu desempenho.