Tutorial Python

Python HOME Introdução ao Python Introdução ao Python Sintaxe do Python Comentários do Python Variáveis ​​Python Tipos de dados Python Números Python Conversão de Python Strings Python Booleanos Python Operadores Python Listas Python Tuplas Python Conjuntos Python Dicionários Python Python Se... Senão Python While Loops Python para loops Funções do Python Python Lambda Matrizes Python Classes/objetos Python Herança Python Iteradores Python Escopo do Python Módulos Python Datas em Python Matemática Python Python JSON Python RegEx Python PIP Python Tente...Exceto Entrada do usuário Python Formatação de String Python

Manipulação de arquivos

Manipulação de arquivos Python Arquivos de leitura do Python Python Gravar/Criar Arquivos Arquivos de exclusão do Python

Módulos Python

Tutorial NumPy Passo a passo do Panda Tutorial Scipy

Python Matplotlib

Introdução ao Matplotlib Introdução ao Matplotlib Matplotlib Pyplot Plotagem Matplotlib Marcadores Matplotlib Linha Matplotlib Etiquetas Matplotlib Grade Matplotlib Subtramas do Matplotlib Dispersão Matplotlib Barras Matplotlib Histogramas Matplotlib Gráficos de pizza Matplotlib

Aprendizado de máquina

Começando Modo Mediano Médio Desvio padrão Percentil Distribuição de dados Distribuição normal de dados Gráfico de dispersão Regressão linear Regressão Polinomial Regressão múltipla Régua Treinar/Teste Árvore de decisão

Python MySQL

Introdução ao MySQL MySQL Criar banco de dados MySQL Criar Tabela Inserir MySQL Seleção do MySQL MySQL Onde MySQL Ordenar por Excluir MySQL Tabela de descarte do MySQL Atualização do MySQL Limite do MySQL Associação do MySQL

Python MongoDB

Introdução ao MongoDB Banco de dados de criação do MongoDB Criar coleção do MongoDB Inserir MongoDB MongoDB Find Consulta do MongoDB Classificação do MongoDB Excluir MongoDB Coleção de Drops do MongoDB Atualização do MongoDB Limite do MongoDB

Referência Python

Visão geral do Python Funções incorporadas do Python Métodos de string do Python Métodos de lista do Python Métodos de dicionário Python Métodos de Tupla Python Métodos de conjunto do Python Métodos de arquivo Python Palavras-chave Python Exceções do Python Glossário Python

Referência do Módulo

Módulo Aleatório Módulo de solicitações Módulo de Estatísticas Módulo de matemática cMódulo de matemática

Python Como fazer

Remover duplicatas de lista Inverter uma string Adicionar dois números

Exemplos de Python

Exemplos de Python Compilador Python Exercícios de Python Teste do Python Certificado Python

Aprendizado de máquina - Distribuição de dados


Distribuição de dados

Anteriormente neste tutorial, trabalhamos com quantidades muito pequenas de dados em nossos exemplos, apenas para entender os diferentes conceitos.

No mundo real, os conjuntos de dados são muito maiores, mas pode ser difícil coletar dados do mundo real, pelo menos em um estágio inicial de um projeto.

Como podemos obter conjuntos de Big Data?

Para criar grandes conjuntos de dados para teste, usamos o módulo Python NumPy, que vem com vários métodos para criar conjuntos de dados aleatórios, de qualquer tamanho.

Exemplo

Crie um array contendo 250 floats aleatórios entre 0 e 5:

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

Histograma

Para visualizar o conjunto de dados podemos desenhar um histograma com os dados que coletamos.

Usaremos o módulo Python Matplotlib para desenhar um histograma.

Aprenda sobre o módulo Matplotlib em nosso Tutorial Matplotlib .

Exemplo

Desenhe um histograma:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

Resultado:

Histograma explicado

Usamos o array do exemplo acima para desenhar um histograma com 5 barras.

A primeira barra representa quantos valores na matriz estão entre 0 e 1.

A segunda barra representa quantos valores estão entre 1 e 2.

etc.

O que nos dá este resultado:

  • 52 valores estão entre 0 e 1
  • 48 valores estão entre 1 e 2
  • 49 valores estão entre 2 e 3
  • 51 valores estão entre 3 e 4
  • 50 valores estão entre 4 e 5

Nota: Os valores da matriz são números aleatórios e não mostrarão exatamente o mesmo resultado em seu computador.

Distribuições de Big Data

Uma matriz contendo 250 valores não é considerada muito grande, mas agora você sabe como criar um conjunto aleatório de valores e, alterando os parâmetros, pode criar o conjunto de dados do tamanho que desejar.

Exemplo

Crie uma matriz com 100.000 números aleatórios e exiba-os usando um histograma com 100 barras:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()