Kudu: um divisor de águas no ecossistema Hadoop?

Contente

O que é o Kudu?
O que é o status atual da Kudus?
Como o Kudu pode complementar o HDFS / HBase?
Recursos do Kudu Framework
Como o Kudu pode alterar o ecossistema Hadoop?
Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida
Conclusão

Fonte: Agsandrew / Dreamstime.com

Leve embora:

O Kudu é um projeto de código aberto que ajuda a gerenciar o armazenamento com mais eficiência.

O Kudu é um novo projeto de código aberto que fornece armazenamento atualizável. É um complemento ao HDFS / HBase, que fornece armazenamento seqüencial e somente leitura. O Kudu é mais adequado para análises rápidas de dados rápidos, que atualmente são a demanda dos negócios. Portanto, Kudu não é apenas mais um projeto do ecossistema do Hadoop, mas tem o potencial de mudar o mercado. (Para saber mais sobre o Hadoop, consulte Os 10 termos mais importantes do Hadoop que você precisa conhecer e entender.)

O que é o Kudu?

Kudu é um tipo especial de sistema de armazenamento que armazena dados estruturados na forma de tabelas. Cada tabela possui um número de colunas predefinidas. Cada um deles tem uma chave primária, que na verdade é um grupo de uma ou mais colunas dessa tabela. Essa chave primária é criada para adicionar uma restrição e proteger as colunas, além de funcionar como um índice, o que permite fácil atualização e exclusão. Essas tabelas são uma série de subconjuntos de dados chamados tablets.

O que é o status atual da Kudus?

O Kudu é realmente bem desenvolvido e já está associado a muitos recursos. No entanto, ainda será necessário um polimento, o que pode ser feito mais facilmente se os usuários sugerirem e fizerem algumas alterações.

O Kudu é completamente de código aberto e possui a Apache Software License 2.0. Ele também deve ser enviado ao Apache, para que possa ser desenvolvido como um projeto da Incubadora Apache. Isso permitirá que seu desenvolvimento progrida ainda mais rapidamente e aumente ainda mais seu público. Após um certo período de tempo, o desenvolvimento de Kudu será feito de forma pública e transparente. Muitas empresas como AtScale, Xiaomi, Intel e Splice Machine se uniram para contribuir no desenvolvimento do Kudu. Kudu também tem uma grande comunidade, onde um grande número de audiências já está fornecendo suas sugestões e contribuições. Então, são as pessoas que estão impulsionando o desenvolvimento do Kudu.

Como o Kudu pode complementar o HDFS / HBase?

O Kudu não pretende substituir o HDFS / HBase. Na verdade, ele foi projetado para suportar o HBase e o HFDS e correr ao lado deles para aumentar seus recursos. Isso ocorre porque o HBase e o HDFS ainda têm muitos recursos que os tornam mais poderosos que o Kudu em determinadas máquinas. No geral, essas máquinas obterão mais benefícios desses sistemas.

Recursos do Kudu Framework

Os principais recursos da estrutura Kudu são os seguintes:

Verificações extremamente rápidas das colunas da tabela - Os melhores formatos de dados, como Parquet e ORCFile, precisam dos melhores procedimentos de verificação, que o Kudu aborda perfeitamente. Esses formatos precisam de verificações rápidas, que podem ocorrer apenas quando os dados colunares são codificados corretamente.
Confiabilidade do desempenho - A estrutura do Kudu aumenta a confiabilidade geral do Hadoop, fechando muitas lacunas e lacunas presentes no Hadoop.
Fácil integração com o Hadoop - Kudu pode ser facilmente integrado ao Hadoop e seus diferentes componentes para obter mais eficiência.
Código completamente aberto - Kudu é um sistema de código aberto com a licença Apache 2.0. Possui uma grande comunidade de desenvolvedores de diferentes empresas e origens, que o atualizam regularmente e fornecem sugestões de alterações.

Como o Kudu pode alterar o ecossistema Hadoop?

O Kudu foi desenvolvido para caber no ecossistema do Hadoop e aprimorar seus recursos. Ele também pode se integrar a alguns dos principais componentes do Hadoop, como MapReduce, HBase e HDFS. Os trabalhos do MapReduce podem fornecer dados ou obter dados das tabelas Kudu. Esses recursos também podem ser usados no Spark. Uma camada especial torna alguns componentes do Spark como Spark SQL e DataFrame acessíveis ao Kudu. Embora o Kudu não tenha sido desenvolvido tanto para substituir esses recursos, estima-se que, após alguns anos, ele será desenvolvido o suficiente para fazê-lo. Até então, a integração entre o Hadoop e o Kudu é realmente muito útil e pode preencher as principais lacunas do ecossistema do Hadoop. (Para saber mais sobre o Apache Spark, consulte Como o Apache Spark ajuda no rápido desenvolvimento de aplicativos.)

O Kudu pode ser implementado em vários lugares. Alguns exemplos de tais lugares são dados abaixo:

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

Transmissão de entradas em tempo quase real - Em locais onde as entradas precisam ser recebidas o mais rápido possível, o Kudu pode fazer um trabalho notável. Um exemplo desse lugar é nas empresas, nas quais grandes quantidades de dados dinâmicos são provenientes de diferentes fontes e precisam ser disponibilizadas rapidamente em tempo real.
Aplicativos de séries temporais com padrões de acesso variados - o Kudu é perfeito para aplicativos baseados em séries temporais, porque é mais simples configurar tabelas e digitalizá-las usando-as. Um exemplo desse uso está nas lojas de departamento, onde dados antigos precisam ser encontrados rapidamente e processados para prever a popularidade futura dos produtos.
Sistemas legados - Muitas empresas que obtêm dados de várias fontes e os armazenam em diferentes estações de trabalho se sentem em casa com o Kudu. O Kudu é extremamente rápido e pode se integrar efetivamente ao Impala para processar dados em todas as máquinas.
Modelagem preditiva - os cientistas de dados que desejam uma boa plataforma para modelagem podem usar o Kudu. O Kudu pode aprender com todos os conjuntos de dados inseridos nele. O cientista pode executar e refazer o modelo repetidamente para ver o que acontece.

Conclusão

Embora o Kudu ainda esteja no estágio de desenvolvimento, ele tem potencial suficiente para ser um bom complemento para componentes padrão do Hadoop, como HDFS e HBase. Ele tem potencial suficiente para alterar completamente o ecossistema do Hadoop, preenchendo todas as lacunas e adicionando mais alguns recursos. Também é muito rápido e poderoso e pode ajudar a analisar e armazenar rapidamente grandes tabelas de dados. No entanto, ainda há algum trabalho a ser feito para que seja usado com mais eficiência.