Dados de IA

Até 80% de um projeto de Inteligência Artificial é sobre Coleta de Dados :

  • Quais dados são necessários ?
  • Quais dados estão disponíveis ?
  • Como selecionar os dados?
  • Como coletar os dados?
  • Como limpar os dados?
  • Como preparar os dados?
  • Como usar os dados?

O que é Dados?

Os dados podem ser muitas coisas. Com a Inteligência Artificial deve ser uma coleção de fatos:

ModeloExemplos
NúmerosPreços. Datas.
MedidasTamanho. Altura. Peso.
PalavrasNomes e Lugares.
ObservaçõesContando carros.
DescriçõesEstá frio.

Dados de necessidades de inteligência

A inteligência humana precisa de dados:

Um corretor de imóveis precisa de dados sobre casas vendidas para estimar preços.

A inteligência artificial precisa de dados:

Um programa de computador também precisa de dados para estimar preços.


Armazenando dados

Os dados mais comuns a serem coletados são Números e Medidas.

Muitas vezes, os dados são armazenados em matrizes que representam a relação entre os valores.

Esta tabela contém preços de casas versus tamanho:

Preço7889991011141415
Tamanho5060708090100 110120130140150

Quantitativo vs. Qualitativo

Os dados quantitativos são numéricos:

  • 55 carros
  • 15 metros
  • 35 crianças

Os dados qualitativos são descritivos:

  • Está frio
  • Isso é longo
  • Foi divertido

Censo ou Amostragem

Um Censo é quando coletamos dados para cada membro de um grupo.

Uma Amostra é quando coletamos dados de alguns membros de um grupo.

Se quiséssemos saber quantos americanos fumam cigarros, poderíamos perguntar a cada pessoa nos EUA (um censo), ou poderíamos perguntar a 10.000 pessoas (uma amostra).

Um censo é preciso , mas difícil de fazer. Uma amostra é imprecisa , mas é mais fácil de fazer.


Termos de amostragem

Uma população é um grupo de indivíduos (objetos) dos quais queremos coletar informações.

Um Censo é a informação sobre cada indivíduo em uma população.

Uma Amostra é informação sobre uma parte da população (Para representar tudo).


Amostras aleatórias

Para que uma amostra represente uma população, ela deve ser coletada aleatoriamente.

Uma Amostra Aleatória é uma amostra em que todos os membros da população têm a mesma chance de aparecer na amostra.


Viés de amostragem

Um viés de amostragem (erro) ocorre quando as amostras são coletadas de tal forma que alguns indivíduos têm menos (ou mais) probabilidade de serem incluídos na amostra.