Pandas - Analisando DataFrames
Visualizando os dados
Um dos métodos mais usados para obter uma visão geral rápida do DataFrame, é o head()
método.
O head()
método retorna os cabeçalhos e um número especificado de linhas, começando do topo.
Exemplo
Obtenha uma visão geral rápida imprimindo as primeiras 10 linhas do DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
Em nossos exemplos, usaremos um arquivo CSV chamado 'data.csv'.
Baixe data.csv ou abra data.csv em seu navegador.
Nota: se o número de linhas não for especificado, o head()
método retornará as 5 primeiras linhas.
Exemplo
Imprima as primeiras 5 linhas do DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Há também um tail()
método para visualizar as
últimas linhas do DataFrame.
O tail()
método retorna os cabeçalhos e um número especificado de linhas, começando na parte inferior.
Exemplo
Imprima as últimas 5 linhas do DataFrame:
print(df.tail())
Obter certificação!
$ 10 INSCRIÇÃO
Informações sobre os dados
O objeto DataFrames possui um método chamado info()
, que fornece mais informações sobre o conjunto de dados.
Exemplo
Imprimir informações sobre os dados:
print(df.info())
Resultado
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Resultado explicado
O resultado nos diz que existem 169 linhas e 4 colunas:
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
E o nome de cada coluna, com o tipo de dados:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Valores Nulos
O info()
método também nos diz quantos valores não nulos estão presentes em cada coluna e, em nosso conjunto de dados, parece que há 164 de 169 valores não nulos na coluna "Calorias".
O que significa que existem 5 linhas sem valor algum, na coluna "Calorias", por qualquer motivo.
Valores vazios, ou valores nulos, podem ser ruins ao analisar dados, e você deve considerar a remoção de linhas com valores vazios. Este é um passo em direção ao que é chamado de limpeza de dados , e você aprenderá mais sobre isso nos próximos capítulos.