Advertisement

Aula 02 - Conhecendo o Pandas



O pandas é uma biblioteca do python que dá a possibilidade de manipular séries e dataframes (vetores e matrizes) de forma muito mais eficiente. O pandas permite que operações que tomariam seu tempo e várias linhas de código sejam feitas em 1 ou 2 linhas.


Importando


Para importar o pandas é necessário instalar a biblioteca via pip:

pip install pandas

Após a instalação apenas importe:

import pandas as pd


Criando uma série simples

Uma série pode ser comparada a um vetor do python nativo. No entanto, ao declarar uma série você estará utilizando o pandas para controlar seus dados.

x = pd.Series([1,2,3,4,5])

Realizando operações em séries

Operações matemáticas simples 

O pandas permite realizar operações em todos os elementos de uma série utilizando uma sintaxe bastante resumida:

print (x + 100)

Nesse caso o resultado seria:

0    101
1    102
2    103
3    104
4    105

Isso faz sentido, pois o pandas adicionou 100 a cada elemento da série

Operações booleanas


É possível ainda realizar operações booleanas em uma série e verificar o resultado para cada linha. 

print (x > 2)

Nesse caso o resultado seria 

0    False
1    False
2     True
3     True
4     True

Isso faz sentido, sabendo que os dois primeiros elementos (1,2) são realmente menores que 2.  Para uma série de valores booleanos é possível verificar se todos os valores são TRUE pelo método all:

maior_que_2 = x > 2
maior_que_2.all()

ou se algum valor é TRUE:

maior_que_2.any()

Copiando uma série

Quando desejamos copiar uma série do pandas, é necessário recordar que estamos lidando com um objeto. Logo realizar uma operação simples de atribuição apenas criará uma cópia da referência. Sendo assim, se você deseja criar séries iguais em objetos diferentes.

y = x.copy()

Criando um dataframe

Resumidamente um dataframe é um conjunto de séries:

data = [1,2,3,4,5,6,7,8,9]
df= pd.DataFrame(data,columns=["x"]) 

Adicionando mais colunas

A adição de mais colunas a um dataframe é bastante simples e pode ser feita com uma operação de atribuição:

df["x_mais_2"] = df["x"] + 2

Removendo colunas

Para remover colunas utilize o método drop:

df = df.drop("x_mais_2",1)

Lendo arquivos CSV

Para ler arquivos CSV e transforma-los automaticamente em DataFrames utilize o método read_csv.


dataset = pd.read_csv('nome.csv')




Nenhum comentário

Conta pra mim sua opinião!

Fale comigo