Catálogos de dados e o amadurecimento do mercado de aprendizado de máquina

Autor: Roger Morrison
Data De Criação: 28 Setembro 2021
Data De Atualização: 21 Junho 2024
Anonim
Catálogos de dados e o amadurecimento do mercado de aprendizado de máquina - Tecnologia
Catálogos de dados e o amadurecimento do mercado de aprendizado de máquina - Tecnologia

Contente


Fonte: Nmedia / Dreamstime.com

Leve embora:

O mercado de MLDC está crescendo e as empresas que buscam alavancar efetivamente big data com aprendizado de máquina devem estar cientes dos principais nomes do campo e de suas classificações individuais.

Essa é a era do big data. Ficamos inundados de informações e as empresas acham um desafio gerenciar e extrair o valor delas.

O fluxo atual de big data envolve não apenas volume, variedade e velocidade, mas também complexidade. Conforme identificado pelo SAS no Big Data History e nas considerações atuais, esse é um fator dos fluxos "de várias fontes, o que dificulta a vinculação, correspondência, limpeza e transformação de dados nos sistemas". (Deseja saber mais sobre big data? Confira Big Data Big Data.)

Encontrar informações valiosas não é uma questão de simplesmente reunir o máximo de dados possível, mas encontrar os dados corretos. É impossível trabalhar com tudo isso com processos manuais. É por isso que mais e mais empresas estão "recorrendo a catálogos de dados para democratizar o acesso aos dados, permitir que o conhecimento de dados tribais faça a curadoria de informações, aplique políticas de dados e ative todos os dados para valor comercial rapidamente".


É aqui que os catálogos de dados (às vezes também conhecidos como catálogos de informações) entram na imagem. Conforme definido aqui, eles capacitam "os usuários a explorar suas fontes de dados necessárias e entender as fontes de dados exploradas e, ao mesmo tempo, ajudam as organizações a obter mais valor de seus investimentos atuais". Uma das maneiras de fazer isso é permitir um acesso muito maior aos dados, entre diferentes tipos de usuários que podem fazer uso ou contribuir com eles.

O imperativo da infonomia

Observando o aumento drástico da demanda por catálogos de dados no final de 2017, o Gartner os chamou de "o novo preto". Eles estavam se tornando reconhecidos como uma solução rápida e econômica "para inventariar e classificar as organizações cada vez mais distribuídas e desorganizadas, ativos de dados e mapear suas cadeias de fornecimento de informações". A necessidade disso surgiu devido ao aumento da "infonomia", que exige a aplicação da mesma meticulosidade no rastreamento de informações, assim como no gerenciamento de outros ativos de negócios. (Para saber mais sobre cadeias de suprimentos, consulte Como o aprendizado de máquina pode melhorar a eficiência da cadeia de suprimentos.)


Os Gartners criticam o Forrester Wave ™: Catálogos de dados de aprendizado de máquina, segundo trimestre de 2018. Mais da metade dos participantes da pesquisa relatou que estava planejando desenvolver a implementação do catálogo de dados. Provavelmente, eles foram motivados pelo fato de cada um ter pelo menos sete lagos de dados em sua organização. Como o Gartner explica os catálogos de dados, os catálogos de dados são particularmente úteis para extrair "o con, significado e valor dos dados" que normalmente são deixados de forma não classificada em um data lake.

A Forrester relata que mais de um terço dos tomadores de decisão de dados e análises lidavam com 1.000 TB ou mais de dados em 2017, uma quantidade relatada por apenas entre 10 e 14% no ano anterior. O gerenciamento de dados nessa escala é um desafio crescente, ou especificamente, dois desafios:

"1) mesclando processos de negócios existentes para obter dados para analisá-los e implementar insights e 2) terceirizando, coletando, gerenciando e governando os dados à medida que crescem".

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

O que os catálogos de dados podem fazer pelas empresas

O Gartner identifica maneiras específicas pelas quais os catálogos de dados podem melhorar o fluxo de informações e produtividade das organizações:

  • Agrupar e comunicar o inventário atualizado de ativos de informações que está disponível para a organização.

  • Criando o glossário comum de termos de negócios que define a interpretação semântica e o significado dos dados da organização, fornecendo os meios para mediar e resolver inconsistências de definição.

  • Permitir um ambiente de colaboração dinâmico e ágil para permitir que colegas de negócios e de TI comentem, documentem e compartilhem dados.

  • Fornecendo transparência no uso de dados com análise de linhagem e impacto.

  • Monitoramento, auditoria e rastreamento de dados em suporte aos processos de governança da informação.

  • Captura de metadados para aprimorar a análise interna do uso e reutilização de dados, otimização de consultas e certificação de dados.

  • Conualizar as informações dentro de seu uso comercial capturando, comunicando e analisando quais dados existem, de onde vêm, quais contras são usados, por que são necessários, como flui entre processos e sistemas, quem é responsável por eles, o que significa e qual o valor que tem.

É importante obter os dados adequadamente identificados e acessíveis às pessoas-chave da organização, diz o relatório da Gartner, não apenas para encontrar a maneira de "monetizar ativos de dados para resultados de negócios digitais", mas para cumprir com os regulamentos, sejam eles do setor específicos como a Lei de Portabilidade e Responsabilidade do Seguro de Saúde (HIPAA) ou de natureza mais geral, como o Regulamento Geral de Proteção de Dados (GDPR).

Adicionando aprendizado de máquina

Mas nada é sem suas desvantagens. Para catálogos de dados, o problema foi o processo lento e tedioso que envolve a criação manual deles com todos os metadados que precisam ser colocados no lugar. É aqui que entra o componente de aprendizado de máquina.

Os catálogos de dados que a Forrester avaliou são chamados MLDCs, porque aproveitam o poder do aprendizado de máquina, um dos componentes da IA. Como um blog da Podium Data explicou, isso possibilita "criar um repositório persistente de metadados e aplicar o ML / AI para descobrir e expor insights potencialmente úteis sobre os ativos de dados subjacentes".

Como escolher

Para ajudar as organizações a avaliar qual empresa deve selecionar, a Forrester aplicou 29 pontos de avaliação aos 12 principais MLDCs. Identificou os líderes nesse mercado como: IBM, Relito, Unifi Software, Alation e Collibra. Os melhores desempenhos encontrados foram a Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics e Cloudera. A Hortonworks está sozinha no ranking de "contendor".

No entanto, não se deve passar apenas pela classificação geral. O relatório detalha os pontos fortes e fracos de cada um. Portanto, se um recurso específico, como pesquisa e desenvolvimento, é da maior importância para uma organização, ele pode considerar o Hortonworks como o equivalente da IBM e do Colilbra para esse aspecto, porque esses três compartilham a pontuação máxima de cinco por essa qualidade. dois pontos melhor que Alation e Coloudera e quatro pontos melhor que Cambridge Semantics.

Consequentemente, o relatório da Forrester aconselha aqueles que usam seu relatório como orientação a não assumirem que a empresa mais bem classificada é a melhor escolha para todos. Eles devem prestar muita atenção ao detalhamento da avaliação para encontrar o que atende a seus requisitos específicos.