Introdução à ciência de dados


Data Science é uma combinação de várias disciplinas que usa estatísticas, análise de dados e aprendizado de máquina para analisar dados e extrair conhecimento e insights deles.


O que é Ciência de Dados?

Data Science é sobre coleta de dados, análise e tomada de decisão.

Data Science trata de encontrar padrões em dados, por meio de análises, e fazer previsões futuras.

Ao usar a Data Science, as empresas são capazes de fazer:

  • Decisões melhores (devemos escolher A ou B)
  • Análise preditiva (o que acontecerá a seguir?)
  • Descobertas de padrões (encontrar padrões ou talvez informações ocultas nos dados)

Onde a ciência de dados é necessária?

A ciência de dados é usada em muitos setores no mundo de hoje, por exemplo, bancos, consultoria, saúde e manufatura.

Exemplos de onde a Ciência de Dados é necessária:

  • Para planejamento de rotas: Para descobrir as melhores rotas para enviar
  • Para prever atrasos para voo/navio/trem etc. (através de análise preditiva)
  • Para criar ofertas promocionais
  • Para encontrar o momento mais adequado para entregar mercadorias
  • Para prever a receita dos próximos anos para uma empresa
  • Analisar o benefício para a saúde do treinamento
  • Para prever quem vai ganhar as eleições

A Ciência de Dados pode ser aplicada em quase todas as partes de uma empresa onde os dados estão disponíveis. Exemplos são:

  • Bens de consumo
  • Mercado de ações
  • Indústria
  • Política
  • Empresas de logística
  • Comércio eletrônico

Como funciona um cientista de dados?

Um Cientista de Dados requer experiência em várias origens:

  • Aprendizado de máquina
  • Estatisticas
  • Programação (Python ou R)
  • Matemática
  • Bancos de dados

Um Cientista de Dados deve encontrar padrões nos dados. Antes de encontrar os padrões, ele deve organizar os dados em um formato padrão.

Veja como funciona um Cientista de Dados:

  1. Faça as perguntas certas - Para entender o problema do negócio.
  2. Explorar e coletar dados - Do banco de dados, logs da web, feedback do cliente, etc.
  3. Extraia os dados - Transforme os dados em um formato padronizado.
  4. Limpe os dados - Remova os valores incorretos dos dados.
  5. Localizar e substituir valores ausentes - Verifique os valores ausentes e substitua-os por um valor adequado (por exemplo, um valor médio).
  6. Normalize os dados - Escale os valores em uma faixa prática (por exemplo, 140 cm é menor que 1,8 m. No entanto, o número 140 é maior que 1,8. - então a escala é importante).
  7. Analise dados, encontre padrões e faça previsões futuras .
  8. Represente o resultado - Apresente o resultado com insights úteis de uma forma que a "empresa" possa entender.

Onde começar?

Neste tutorial, começaremos apresentando o que são dados e como os dados podem ser analisados.

Você aprenderá a usar estatísticas e funções matemáticas para fazer previsões.