Como seus dados estão estruturados? Examinando dados estruturados, não estruturados e semiestruturados

Autor: Roger Morrison
Data De Criação: 25 Setembro 2021
Data De Atualização: 21 Junho 2024
Anonim
Como seus dados estão estruturados? Examinando dados estruturados, não estruturados e semiestruturados - Tecnologia
Como seus dados estão estruturados? Examinando dados estruturados, não estruturados e semiestruturados - Tecnologia

Contente



Fonte: monsitj / iStockphoto

Leve embora:

Aprenda sobre dados estruturados, não estruturados e semiestruturados.

Historicamente, os analistas de dados eram capazes de descriptografar e extrair informações de apenas um tipo de dados: dados estruturados. Esse tipo de dados era facilmente pesquisável por causa de seus padrões claros, mas representava uma porcentagem menor do total de dados disponíveis.

Os dados não estruturados incluíam vídeo, áudio, se dados provenientes de mídias sociais e dispositivos móveis. Foi, sem dúvida, a maior reserva de informações brutas disponíveis, mas ninguém conseguiu acessar esse recurso de maneira confiável.

As coisas mudaram, no entanto, com o aumento da disponibilidade de armazenamento e recursos superiores de processamento que deram origem a análises de dados não estruturadas - uma nova e, portanto, imatura, forma de tecnologia. Uma melhor inteligência de negócios está aproveitando ao máximo esta oportunidade e estão sendo feitos investimentos substanciais para agregar análises de dados estruturados e não estruturados para acessar essa aparentemente infinita mina de ouro de informações.


Vamos dar uma olhada nesses dois formatos de dados para entender suas diferenças e o que o futuro reserva para todos os analistas de dados.

O que são dados estruturados?

Os dados estruturados são informações geradas por humanos ou por máquina e altamente organizadas que podem ser facilmente armazenadas em estruturas de banco de dados de linhas conhecidas como bancos de dados relacionais (RDBs). É tudo o que existe em um formato que pode ser facilmente capturado, armazenado e organizado em uma estrutura RDB para ser analisado posteriormente. (Para saber mais sobre bancos de dados, consulte nossa Introdução aos bancos de dados.)

Os exemplos incluem códigos postais, números de telefone e dados demográficos do usuário, como idade ou sexo. Os dados encontrados nesses bancos de dados podem ser consultados com as funções Structured Query Language (SQL) ou VLOOKUP nas planilhas do Excel. Também é possível criar algoritmos para pesquisar rapidamente dados encontrados nos vários campos usando seus índices ou dados numéricos e alfabéticos. No entanto, todos os dados são estritamente definidos em termos de tipo e nome do campo, e a capacidade de armazenar, consultar e analisar é, portanto, restrita em certa medida.


Os aplicativos típicos que usam dados estruturados incluem software de gerenciamento hospitalar, aplicativos de gerenciamento de relacionamento com clientes (CRM) e sistemas de reservas de companhias aéreas. Devido à sua organização organizada e fácil acessibilidade, os dados estruturados são úteis e eficientes ao lidar com grandes volumes de informações. Ao perfurar o óleo preto oculto na quantidade interminável de dados produzidos todos os dias pela humanidade, no entanto, procurar dados estruturados nada mais é do que arranhar a superfície.

O que são dados não estruturados?

A grande maioria dos dados encontrados em uma organização não é estruturada e alguns estimam em até 80% do total de dados atualmente disponíveis. Por definição, dados não estruturados são tudo o que não possui estrutura interna identificável. No entanto, alguns tipos de dados que se enquadram nessa categoria tem alguma forma de estrutura interna vaga, mas não está de acordo com um banco de dados ou planilha.

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida


Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

A maioria dos dados corporativos não é estruturada, variando de interações de atendimento ao cliente, arquivos, registros da web, vídeos e outros conteúdos multimídia, automação de vendas e publicações em mídias sociais. Não é necessário explicar o quão valioso esses dados poderiam ser se pudessem ser extraídos, organizados e analisados.

A maioria dos dados não estruturados é gerada por seres humanos e, portanto, é feita para ser entendida por outros seres humanos. Isso significa que a inteligência computacional mais limpa não entende esse tipo de informação, pois está muito distante da linearidade da linguagem de máquina e dos bancos de dados estruturados.

Classificados no meio: dados semiestruturados

Dados semiestruturados são um terceiro tipo de dados que representa um pedaço muito menor de toda a pizza (5 a 10 por cento). Literalmente capturados entre os dois mundos, os dados semiestruturados contêm tags e marcações semânticas internas que identificam elementos separados, mas não possuem a estrutura necessária para caber em um banco de dados relacional.

Por exemplo, s podem parecer dados estruturados, pois podem ser categorizados por data, tamanho do arquivo ou hora. No entanto, não são, uma vez que as informações mais valiosas são as encontradas neles, e não seus rótulos relativamente simples. Eles não podem ser realmente organizados por conteúdo e assunto, uma vez que os humanos não falam em padrões tão rígidos para permitir que uma máquina os compreenda inequivocamente. Outros exemplos de dados semiestruturados incluem bancos de dados NoSQL, o JSON padrão aberto e o XML da linguagem de marcação.

Dados semiestruturados geralmente são consultados e catalogados para análise usando a análise de metadados. Por exemplo, uma varredura de raios-X consiste em um grande número de pixels que formam a imagem - dados inerentemente não estruturados que não podem ser acessados. No entanto, o arquivo de verificação ainda incluirá uma parte de metadados que fornece informações sobre ele, como anotações e ID do usuário.

Dados não estruturados podem ser transformados em dados estruturados?

O desafio fundamental que todo analista de dados deve enfrentar é organizar as informações em mãos de maneira organizada e organizada, para que possam ser acessadas e compreendidas. As ferramentas de mineração de dados geralmente não estão equipadas para analisar informações que, por definição, são muito semelhantes à linguagem humana, o que significa que apenas outro humano pode coletá-las e categorizá-las.

No entanto, o grande volume de dados não estruturados faz com que qualquer tentativa de armazenamento ou organização seja extremamente trabalhosa e cara. O conjunto de informações provenientes de, por exemplo, um mecanismo de pesquisa na Web é tão grande que a maioria dos elementos exige um grande investimento em termos de trabalho e recursos apenas para extrair os mais básicos. Mesmo as técnicas mais eficientes de mineração de dados ainda perdem uma quantidade substancial de informações encontradas na Web e, pior ainda, dentro da Web profunda.

Mas existem técnicas. E eles estão sendo desenvolvidos a uma velocidade incrível. Por exemplo, os metadados podem ser usados ​​para conectar dados estruturados e não estruturados. As informações coletadas podem ser filtradas e indexadas por usuários e algoritmos, além de apenas analisar dados relevantes. Outras soluções incluem "disputa de dados", que é um processo através do qual dados complexos são progressivamente organizados passo a passo por usuários não técnicos. (Para saber mais sobre usuários comuns que lidam com dados, consulte Como o Big Data pode ajudar no Analytics de autoatendimento.)

Em algum momento, poderemos transformar eficientemente essas quantidades massivamente desorganizadas de informações em um formato mais organizado e reestruturado. Talvez não hoje, talvez não amanhã, mas em breve seremos capazes de invadir o maior cofre que a humanidade já viu: big data.