Ciência de dados - Python DataFrame


Criar um DataFrame com Pandas

Um quadro de dados é uma representação estruturada de dados.

Vamos definir um data frame com 3 colunas e 5 linhas com números fictícios:

Exemplo

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Exemplo explicado

  • Importar a biblioteca Pandas como pd
  • Defina dados com coluna e linhas em uma variável chamada d
  • Crie um quadro de dados usando a função pd.DataFrame()
  • O quadro de dados contém 3 colunas e 5 linhas
  • Imprima a saída do quadro de dados com a função print()

Nós escrevemos pd. na frente de DataFrame() para informar ao Python que queremos ativar a função DataFrame() da biblioteca Pandas.

Esteja ciente das maiúsculas D e F no DataFrame!


Interpretando a saída

Esta é a saída:

Saída do Dataframe

Vemos que "col1", "col2" e "col3" são os nomes das colunas.

Não se confunda com os números verticais que variam de 0 a 4. Eles nos informam sobre a posição das linhas.

Em Python, a numeração de linhas começa com zero.

Agora, podemos usar o Python para contar as colunas e linhas.

Podemos usar df.shape[1] para encontrar o número de colunas:

Exemplo

Conte o número de colunas:

count_column = df.shape[1]
print(count_column)

Podemos usar df.shape[0] para encontrar o número de linhas:

Exemplo

Conte o número de linhas:

count_row = df.shape[0]
print(count_row)

Por que não podemos apenas contar as linhas e colunas sozinhos?

Se trabalharmos com conjuntos de dados maiores com muitas colunas e linhas, será confuso contá-los por conta própria. Você corre o risco de contar errado. Se usarmos as funções internas do Python corretamente, garantimos que a contagem está correta.