Ciência de dados - Python DataFrame
Criar um DataFrame com Pandas
Um quadro de dados é uma representação estruturada de dados.
Vamos definir um data frame com 3 colunas e 5 linhas com números fictícios:
Exemplo
import pandas as pd
d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9,
5], 'col3': [7, 8, 12, 1, 11]}
df = pd.DataFrame(data=d)
print(df)
Exemplo explicado
- Importar a biblioteca Pandas como pd
- Defina dados com coluna e linhas em uma variável chamada d
- Crie um quadro de dados usando a função pd.DataFrame()
- O quadro de dados contém 3 colunas e 5 linhas
- Imprima a saída do quadro de dados com a função print()
Nós escrevemos pd. na frente de DataFrame() para informar ao Python que queremos ativar a função DataFrame() da biblioteca Pandas.
Esteja ciente das maiúsculas D e F no DataFrame!
Interpretando a saída
Esta é a saída:
Vemos que "col1", "col2" e "col3" são os nomes das colunas.
Não se confunda com os números verticais que variam de 0 a 4. Eles nos informam sobre a posição das linhas.
Em Python, a numeração de linhas começa com zero.
Agora, podemos usar o Python para contar as colunas e linhas.
Podemos usar df.shape[1] para encontrar o número de colunas:
Exemplo
Conte o número de colunas:
count_column = df.shape[1]
print(count_column)
Podemos usar df.shape[0] para encontrar o número de linhas:
Exemplo
Conte o número de linhas:
count_row = df.shape[0]
print(count_row)
Por que não podemos apenas contar as linhas e colunas sozinhos?
Se trabalharmos com conjuntos de dados maiores com muitas colunas e linhas, será confuso contá-los por conta própria. Você corre o risco de contar errado. Se usarmos as funções internas do Python corretamente, garantimos que a contagem está correta.