7 etapas para aprender mineração de dados e ciência de dados

Autor: Eugene Taylor
Data De Criação: 12 Agosto 2021
Data De Atualização: 22 Junho 2024
Anonim
7 etapas para aprender mineração de dados e ciência de dados - Tecnologia
7 etapas para aprender mineração de dados e ciência de dados - Tecnologia

Contente


Fonte: Paul Fleet / Dreamstime.com

Leve embora:

A ciência dos dados é melhor aprendida com o fazer, mas também é importante uma boa base de estatística e aprendizado de máquina.

Muitas vezes me perguntam como aprender mineração de dados e ciência de dados. Aqui está o meu resumo.

Você pode aprender melhor a mineração de dados e a ciência de dados, iniciando a análise dos dados o mais rápido possível! No entanto, não se esqueça de aprender a teoria, pois você precisa de uma boa base estatística e de aprendizado de máquina para entender o que está fazendo e encontrar pepitas de valor reais no ruído do big data.

Aqui estão sete etapas para aprender mineração de dados e ciência de dados. Embora estejam numerados, você pode fazê-los em paralelo ou em uma ordem diferente.

  1. Idiomas: Aprenda R, Python e SQL
  2. Ferramentas: Aprenda a usar ferramentas de mineração e visualização de dados
  3. livros: Leia livros introdutórios para entender os fundamentos
  4. Educação: Assista a seminários on-line, faça cursos e considere um certificado ou uma graduação em ciência de dados (Leia mais em Ben Loricas Como criar um cientista de dados.)
  5. Dados: verifique os recursos de dados disponíveis e encontre algo lá
  6. Competições: Participe de competições de mineração de dados
  7. Interaja com outros cientistas de dados, via redes sociais, grupos e reuniões

Neste artigo, eu uso mineração de dados e ciência de dados de forma intercambiável. Veja minha apresentação, Visão geral do setor de análises, onde analiso a evolução e a popularidade de diferentes termos, como estatística, descoberta de conhecimento, mineração de dados, análise preditiva, ciência de dados e big data.


1. Aprendendo idiomas

Uma pesquisa recente do KDnuggets descobriu que os idiomas mais populares para mineração de dados são R, Python e SQL. Existem muitos recursos para cada um, por exemplo:

  • E-book gratuito sobre Data Science com R
  • Introdução ao Python para ciência de dados
  • Python para análise de dados: ferramentas ágeis para dados do mundo real
  • Um Python indispensável: fornecimento de dados para a ciência de dados
  • W3 Schools Learning SQL

2. Ferramentas: Mineração de Dados, Ciência de Dados e Software de Visualização

Existem muitas ferramentas de mineração de dados para tarefas diferentes, mas é melhor aprender a usar um conjunto de mineração de dados que suporta todo o processo de análise de dados. Você pode começar com ferramentas de código aberto (gratuitas), como KNIME, RapidMiner e Weka.


No entanto, para muitos trabalhos de análise, você precisa conhecer o SAS, que é a principal ferramenta comercial e amplamente utilizada. Outros softwares populares de análise e mineração de dados incluem MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler e Rattle.

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

A visualização é uma parte essencial de qualquer análise de dados. Aprenda a usar o Microsoft Excel (adequado para muitas tarefas mais simples), gráficos R (especialmente ggplot2) e também o Tableau - um excelente pacote para visualização. Outras boas ferramentas de visualização incluem o TIBCO Spotfire e o Miner3D.

3. livros

Existem muitos livros sobre mineração de dados e ciência de dados disponíveis, mas você pode verificar estes:

  • Análise e mineração de dados: conceitos e algoritmos fundamentais, download gratuito em PDF (rascunho), de Mohammed Zaki e Wagner Meira Jr.
  • Data Mining: Ferramentas e Técnicas Práticas de Aprendizado de Máquina, de Ian Witten, Eibe Frank e Mark Hall, dos autores de Weka, e usando Weka extensivamente em exemplos
  • Os Elementos de Aprendizagem Estatística, Mineração de Dados, Inferência e Previsão, de Trevor Hastie, Robert Tibshirani, Jerome Friedman. Uma ótima introdução para os orientados matematicamente
  • LIONbook: Aprendizado e otimização inteligente, de Roberto Battiti e Mauro Brunato, disponíveis gratuitamente na Web, capítulo por capítulo
  • Livro sobre Mineração de Conjuntos de Dados Massivos, de A. Rajaraman, J. Ullman
  • O livro StatSoft Electronic Statistics (gratuito), inclui muitos tópicos de mineração de dados

4. Educação: Webinars, cursos, certificados e diplomas

Você pode começar assistindo a muitos dos seminários on-line e webcasts gratuitos sobre os tópicos mais recentes em análise, big data, mineração de dados e ciência de dados.

Existem também muitos cursos on-line, curtos e longos, muitos deles gratuitos. (Veja o diretório educacional on-line do KDnuggets.)

Verifique em particular estes cursos:

  • Machine Learning, na Coursera, ministrado por Andrew Ng
  • Aprendendo com os dados da edX, ministrado pelo professor Yaser Abu-Mostafa da Caltech
  • Curso Online Aberto em Ciência de Dados Aplicada, da Syracuse iSchool
  • Mineração de dados com Weka, curso online gratuito
  • Confira também slides on-line gratuitos do meu Curso de Mineração de Dados, um curso introdutório de um semestre para mineração de dados

Por fim, considere obter certificados em mineração de dados e ciência de dados ou diplomas avançados, como um mestrado em ciência de dados.

5. Dados

Você precisará de dados para analisar - consulte o diretório KDnuggets de Conjuntos de Dados para Mineração de Dados, incluindo:

  • Sites e portais de dados governamentais, federais, estaduais, municipais, locais e públicos
  • APIs de dados, hubs, mercados, plataformas, portais e mecanismos de pesquisa
  • Conjuntos de dados públicos gratuitos

6. Competições

Novamente, você aprenderá melhor, participando das competições do Kaggle. Comece com competições para iniciantes, como Predicting Titanic Survival Using Machine Learning.

7. Interagir: Reuniões, Grupos e Redes Sociais

Você pode participar de muitos grupos de colegas. Veja os 30 principais grupos do LinkedIn para análises, big data, mineração de dados e ciência de dados.

AnalyticBridge é uma comunidade ativa para análises e ciência de dados.

Você pode participar de algumas das muitas reuniões e conferências sobre análise, big data, mineração de dados, ciência de dados e descoberta de conhecimento.

Além disso, considere ingressar na ACM SIGKDD, que organiza a conferência anual KDD - a principal conferência de pesquisa em campo.

Este artigo é reed de KDNuggets.com. Foi usado com permissão do autor.