![7 etapas para aprender mineração de dados e ciência de dados - Tecnologia 7 etapas para aprender mineração de dados e ciência de dados - Tecnologia](https://a.continuousdev.com/technology/7-steps-for-learning-data-mining-and-data-science.jpg)
Contente
- 1. Aprendendo idiomas
- 2. Ferramentas: Mineração de Dados, Ciência de Dados e Software de Visualização
- Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida
- 3. livros
- 4. Educação: Webinars, cursos, certificados e diplomas
- 5. Dados
- 6. Competições
- 7. Interagir: Reuniões, Grupos e Redes Sociais
Fonte: Paul Fleet / Dreamstime.com
Leve embora:
A ciência dos dados é melhor aprendida com o fazer, mas também é importante uma boa base de estatística e aprendizado de máquina.
Muitas vezes me perguntam como aprender mineração de dados e ciência de dados. Aqui está o meu resumo.
Você pode aprender melhor a mineração de dados e a ciência de dados, iniciando a análise dos dados o mais rápido possível! No entanto, não se esqueça de aprender a teoria, pois você precisa de uma boa base estatística e de aprendizado de máquina para entender o que está fazendo e encontrar pepitas de valor reais no ruído do big data.
Aqui estão sete etapas para aprender mineração de dados e ciência de dados. Embora estejam numerados, você pode fazê-los em paralelo ou em uma ordem diferente.
- Idiomas: Aprenda R, Python e SQL
- Ferramentas: Aprenda a usar ferramentas de mineração e visualização de dados
- livros: Leia livros introdutórios para entender os fundamentos
- Educação: Assista a seminários on-line, faça cursos e considere um certificado ou uma graduação em ciência de dados (Leia mais em Ben Loricas Como criar um cientista de dados.)
- Dados: verifique os recursos de dados disponíveis e encontre algo lá
- Competições: Participe de competições de mineração de dados
- Interaja com outros cientistas de dados, via redes sociais, grupos e reuniões
Neste artigo, eu uso mineração de dados e ciência de dados de forma intercambiável. Veja minha apresentação, Visão geral do setor de análises, onde analiso a evolução e a popularidade de diferentes termos, como estatística, descoberta de conhecimento, mineração de dados, análise preditiva, ciência de dados e big data.
1. Aprendendo idiomas
Uma pesquisa recente do KDnuggets descobriu que os idiomas mais populares para mineração de dados são R, Python e SQL. Existem muitos recursos para cada um, por exemplo:
- E-book gratuito sobre Data Science com R
- Introdução ao Python para ciência de dados
- Python para análise de dados: ferramentas ágeis para dados do mundo real
- Um Python indispensável: fornecimento de dados para a ciência de dados
- W3 Schools Learning SQL
2. Ferramentas: Mineração de Dados, Ciência de Dados e Software de Visualização
Existem muitas ferramentas de mineração de dados para tarefas diferentes, mas é melhor aprender a usar um conjunto de mineração de dados que suporta todo o processo de análise de dados. Você pode começar com ferramentas de código aberto (gratuitas), como KNIME, RapidMiner e Weka.
No entanto, para muitos trabalhos de análise, você precisa conhecer o SAS, que é a principal ferramenta comercial e amplamente utilizada. Outros softwares populares de análise e mineração de dados incluem MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler e Rattle.
Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida
Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.
A visualização é uma parte essencial de qualquer análise de dados. Aprenda a usar o Microsoft Excel (adequado para muitas tarefas mais simples), gráficos R (especialmente ggplot2) e também o Tableau - um excelente pacote para visualização. Outras boas ferramentas de visualização incluem o TIBCO Spotfire e o Miner3D.
3. livros
Existem muitos livros sobre mineração de dados e ciência de dados disponíveis, mas você pode verificar estes:
- Análise e mineração de dados: conceitos e algoritmos fundamentais, download gratuito em PDF (rascunho), de Mohammed Zaki e Wagner Meira Jr.
- Data Mining: Ferramentas e Técnicas Práticas de Aprendizado de Máquina, de Ian Witten, Eibe Frank e Mark Hall, dos autores de Weka, e usando Weka extensivamente em exemplos
- Os Elementos de Aprendizagem Estatística, Mineração de Dados, Inferência e Previsão, de Trevor Hastie, Robert Tibshirani, Jerome Friedman. Uma ótima introdução para os orientados matematicamente
- LIONbook: Aprendizado e otimização inteligente, de Roberto Battiti e Mauro Brunato, disponíveis gratuitamente na Web, capítulo por capítulo
- Livro sobre Mineração de Conjuntos de Dados Massivos, de A. Rajaraman, J. Ullman
- O livro StatSoft Electronic Statistics (gratuito), inclui muitos tópicos de mineração de dados
4. Educação: Webinars, cursos, certificados e diplomas
Você pode começar assistindo a muitos dos seminários on-line e webcasts gratuitos sobre os tópicos mais recentes em análise, big data, mineração de dados e ciência de dados.
Existem também muitos cursos on-line, curtos e longos, muitos deles gratuitos. (Veja o diretório educacional on-line do KDnuggets.)
Verifique em particular estes cursos:
- Machine Learning, na Coursera, ministrado por Andrew Ng
- Aprendendo com os dados da edX, ministrado pelo professor Yaser Abu-Mostafa da Caltech
- Curso Online Aberto em Ciência de Dados Aplicada, da Syracuse iSchool
- Mineração de dados com Weka, curso online gratuito
- Confira também slides on-line gratuitos do meu Curso de Mineração de Dados, um curso introdutório de um semestre para mineração de dados
Por fim, considere obter certificados em mineração de dados e ciência de dados ou diplomas avançados, como um mestrado em ciência de dados.
5. Dados
Você precisará de dados para analisar - consulte o diretório KDnuggets de Conjuntos de Dados para Mineração de Dados, incluindo:
- Sites e portais de dados governamentais, federais, estaduais, municipais, locais e públicos
- APIs de dados, hubs, mercados, plataformas, portais e mecanismos de pesquisa
- Conjuntos de dados públicos gratuitos
6. Competições
Novamente, você aprenderá melhor, participando das competições do Kaggle. Comece com competições para iniciantes, como Predicting Titanic Survival Using Machine Learning.
7. Interagir: Reuniões, Grupos e Redes Sociais
Você pode participar de muitos grupos de colegas. Veja os 30 principais grupos do LinkedIn para análises, big data, mineração de dados e ciência de dados.
AnalyticBridge é uma comunidade ativa para análises e ciência de dados.
Você pode participar de algumas das muitas reuniões e conferências sobre análise, big data, mineração de dados, ciência de dados e descoberta de conhecimento.
Além disso, considere ingressar na ACM SIGKDD, que organiza a conferência anual KDD - a principal conferência de pesquisa em campo.
Este artigo é reed de KDNuggets.com. Foi usado com permissão do autor.