O que é a plataforma de dados abertos e qual a sua relação com o Hadoop?

Autor: Roger Morrison
Data De Criação: 19 Setembro 2021
Data De Atualização: 9 Poderia 2024
Anonim
O que é a plataforma de dados abertos e qual a sua relação com o Hadoop? - Tecnologia
O que é a plataforma de dados abertos e qual a sua relação com o Hadoop? - Tecnologia

Contente


Leve embora:

A Open Data Platform é um método relativamente novo de lidar com big data que pode funcionar com o Apache Hadoop.

A Open Data Platform (ODP) é uma iniciativa em nível de setor que se concentra no fortalecimento da adoção do ecossistema Apache Hadoop e na capacitação de soluções de big data para florescer com o ecossistema. Ele se baseia nos pontos fortes da estrutura do Apache Hadoop.

Obviamente, os defensores do ODP afirmam que trará muitos benefícios para aqueles que o adotam, mas nem todos estão convencidos. Parece haver muita confusão entre escolher o ODP e o Apache Hadoop, como se fossem tecnologias ou conceitos totalmente diferentes. O ODP ainda é relativamente novo e será interessante ver como a indústria abraça (ou não) o ODP.

O que é a plataforma aberta de dados?

Os principais componentes do ODP incluem o Hadoop Distributed File System (HDFS), a tecnologia de gerenciamento de cluster YARNs e o console de gerenciamento Hadoop Ambari. Ao estabelecer esse núcleo para o kernel ODP, a intenção é executar aplicativos no OPD criado na pilha do Hadoop. Além disso, o núcleo do ODP é uma força combinada de componentes de software e testes de código aberto que você pode basear para criar soluções.


Com o advento da Internet das Coisas (IoT), atualmente a necessidade mais urgente são os próprios dados, sejam dados estruturados, não estruturados ou brutos. Pelo contrário, a necessidade é melhorar a comunicação entre a crescente rede de objetos. Para facilitar, a Open Data Platform é a área principal aqui, pois aproveita o ecossistema do Hadoop.

Fornecendo soluções

Os dados abertos disponíveis gratuitamente podem ser usados ​​e distribuídos por quase qualquer pessoa. Este é um campo prospectivo em termos de resolução de um conjunto existente de problemas que a sociedade enfrenta. Não se limita apenas a um campo da sociedade, mas também afeta:

  • Governo
  • Educação
  • Cuidados de saúde
  • Trocas de fornecedores
  • Comportamento preditivo dos compradores

Portanto, a maneira de abordar uma resolução em torno de qualquer área problemática pode ser estruturada da seguinte maneira:


  • Área do problema - identifique a área do problema com seu conjunto atual de necessidades e limitações.
  • Resolução - procure uma solução usando dados abertos e ferramentas de análise.
  • Jogadores-chave - identifique os jogadores que são essenciais para o caso de uso, sejam eles jogadores ou beneficiários.
  • Inclusão - envolva todos os players de dados abertos para enriquecer a eficácia da resolução e seguir a iniciativa em nível de setor, por exemplo, o ecossistema ODP ou Apache Hadoop.
  • Valor comercial - Avalie a preposição comercial que ela traz para a mesa, por exemplo, como reduz o custo envolvido.

The Game Changer: Positivos

As grandes forças que acenam para a iniciativa OPD são os principais players - GE, Hortonworks, IBM, Infosys, Pivotal, SAS, AltiScale, Capgemini, CenturyLink, EMC, Teradata, Splunk, Verizon e VMware, entre outros. O objetivo principal é aproveitar o código aberto e a colaboração aberta para acelerar ainda mais o Apache Hadoop e elevar o big data para o próximo nível.

A iniciativa é realmente uma virada no jogo, pois atende às necessidades não apenas dos fornecedores, mas também dos usuários finais. Escusado será dizer que está estreitamente alinhado com o processo Apache Software Foundation (ASF), pois aproveita as contribuições feitas aos projetos Apache e aprimora-o ainda mais. O ODP forneceu a plataforma aberta para envolver a comunidade diversificada como um todo.

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

Com o intertravamento com os principais fornecedores, prestadores de serviços e usuários do Apache Hadoop, o maior desafio a ser superado é reduzir a fragmentação e ganhar força nos desenvolvimentos no ecossistema Apache Hadoop.

A intenção do ODP é trabalhar diretamente com projetos específicos do Apache, mantendo em vista as diretrizes da Apache Software Foundation sobre como contribuir com idéias e código. O objetivo é aprimorar a compatibilidade e padronizar a maneira como os aplicativos ou ferramentas são executados em qualquer sistema compatível.

O outro aspecto interessante é a padronização da implantação de soluções criadas no Hadoop ou outra tecnologia de big data.

As principais áreas de foco em torno das quais o ODP está trabalhando incluem:

  • Desenvolvendo um ecossistema de código aberto para big data
  • Atuando como catalisador para Hadoop e adoção de big data
  • Padronizando o ecossistema Apache Hadoop
  • Padronizando o modo de implementação para aplicativos
  • Adotando o melhor software de big data e analítico para suportar aplicativos orientados a dados

Os seguintes benefícios podem ser obtidos com o ODP:

  • Custos reduzidos de P&D para fornecedores e provedores de soluções
  • Interoperabilidade aprimorada
  • Base padronizada para futuras distribuições do Hadoop

Buzz negativo no mercado: outro lado

No entanto, outros players do mercado veem o ODP de maneira diferente. De acordo com esses players, o ODP é:

  • Redundante com o Apache Software Foundation - O Apache Software Foundation levou ao padrão Hadoop, usando quais aplicativos são capazes de conectar, trocar e usar informações entre as distribuições do Hadoop. O Hadoop se tornou o padrão de fato em todo o setor. Então, a questão que se coloca é: qual o valor que o ODP forneceria?
  • Falta participação dos líderes do Hadoop - Alguns dos principais players do Hadoop, como MapR, Amazon Web Services e Cloudera, nem participam dessa iniciativa.
  • Interoperabilidade e dependência de fornecedores não são um problema - de acordo com uma pesquisa da Gartner, apenas algumas empresas acham que a interoperabilidade e a dependência de fornecedores são realmente um problema. Além disso, a interoperabilidade do projeto e do subprojeto é garantida por distribuições gratuitas e pagas. Portanto, essa não é a área em que o ODP deve gastar seu esforço e tempo.
  • Perguntas sobre governança - Foram levantadas questões sobre o modelo de governança, pois direitos iguais de voto não são fornecidos às principais distribuições do Hadoop. O modelo de governança ainda não foi divulgado.
  • Não é verdadeiramente aberto - Com a Hortonworks como parceira, o ODP está estabelecendo uma plataforma de dados abertos na embalagem de um único fornecedor. Isso lança algumas dúvidas sobre a "abertura" da Plataforma de Dados Abertos.

Uma questão de escolha

O caminho a seguir para o ODP é o modelo de padronização. A padronização tem seu próprio conjunto de vantagens, mas a escolha é o que leva ao empoderamento. É a escolha que causa concorrência saudável, o que faz com que todos os envolvidos se esforcem por uma melhor qualidade.

Então, vamos esperar e ver como a indústria adota o ODP, dado o modelo padronizado. Ainda há muitas perguntas sem resposta, como estrutura de taxas, modelo de governança e direitos de voto. A questão maior é se o ODP trata efetivamente as principais perguntas dos clientes. Somente o tempo dirá como essa iniciativa vai além e beneficia a comunidade.

Conclusão

Uma escola de pensamento é inclinada ao Apache Hadoop e seus sabores, e a outra está preparada para desenvolver e adotar o ODP. Holisticamente falando, um diz que ODP e Hadoop são dois conceitos distintos, enquanto o outro diz que se complementam. Um diz que o ODP é uma ameaça para o Apache Hadoop, enquanto o outro diz que é uma grande oportunidade de aproveitar ainda mais o Apache Hadoop. Com todos os tipos de teorias do mercado, cada participante percebe o futuro de maneira diferente, com base no futuro que promete trazer de volta à sua organização.

Portanto, a maior questão aqui é se esses dois conceitos surgiriam de maneira diferente ou se fundiriam em algum momento do tempo. Vamos testemunhar a encruzilhada do big data juntos para descobrir se esses dois gigantes se abraçam no espaço do big data. Seja qual for o caso, parece inevitável que esses dois conceitos distintos se sobreponham e beneficiem o usuário final em geral.