Pandas - Analisando DataFrames


Visualizando os dados

Um dos métodos mais usados ​​para obter uma visão geral rápida do DataFrame, é o head()método.

O head()método retorna os cabeçalhos e um número especificado de linhas, começando do topo.

Exemplo

Obtenha uma visão geral rápida imprimindo as primeiras 10 linhas do DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

Em nossos exemplos, usaremos um arquivo CSV chamado 'data.csv'.

Baixe data.csv ou abra data.csv em seu navegador.

Nota: se o número de linhas não for especificado, o head()método retornará as 5 primeiras linhas.

Exemplo

Imprima as primeiras 5 linhas do DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Há também um tail()método para visualizar as últimas linhas do DataFrame.

O tail()método retorna os cabeçalhos e um número especificado de linhas, começando na parte inferior.

Exemplo

Imprima as últimas 5 linhas do DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

Obter certificação!

Complete os módulos do Pandas, faça os exercícios, faça o exame e você se tornará certificado pela w3schools!

$ 10 INSCRIÇÃO

Informações sobre os dados

O objeto DataFrames possui um método chamado info(), que fornece mais informações sobre o conjunto de dados.

Exemplo

Imprimir informações sobre os dados:

print(df.info()) 

Resultado

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Resultado explicado

O resultado nos diz que existem 169 linhas e 4 colunas:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

E o nome de cada coluna, com o tipo de dados:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Valores Nulos

O info()método também nos diz quantos valores não nulos estão presentes em cada coluna e, em nosso conjunto de dados, parece que há 164 de 169 valores não nulos na coluna "Calorias".

O que significa que existem 5 linhas sem valor algum, na coluna "Calorias", por qualquer motivo.

Valores vazios, ou valores nulos, podem ser ruins ao analisar dados, e você deve considerar a remoção de linhas com valores vazios. Este é um passo em direção ao que é chamado de limpeza de dados , e você aprenderá mais sobre isso nos próximos capítulos.