Pandas es una biblioteca de código abierto de Python que proporciona una herramienta poderosa para análisis y manipulación de datos.
Es una biblioteca muy prometedora en representación de datos, filtros y programación estadística. La pieza más importante de Panda es el DataFrame donde almacena y juega con los datos.
En este artículo, revisaremos el uso de un DataFrame, como crearlo desde diferentes fuentes, cómo exportarlo a diferentes resultados y como manipular datos.
Instalación de Pandas
Se puede instalar Pandas en Python con pip, utilizando el siguiente comando:
1 | pip install pandas |
También se puede instalar Pandas usando condas, de la siguiente forma:
1 | conda install pandas |
Leer un archivo Excel
Desde Pandas, se puede leer desde un archivo excel utilizando el método read_excel(), para esto se necesita importar un módulo adicional:
1 | pip install xlrd |
En los siguientes pasos revisaremos como leer un excel:
La salida es del tipo DataFrame, que es la unidad básica de Pandas. Un DataFrame es una estructura titulada de dos dimensiones en donde se pueden guardar diferentes tipos. Un DataFrame es similar a una tabla SQL.
Import CSV File
Para leer un CSV, se debe utilizar el método read_csv(), en forma similar se debe importar pandas.
El siguiente código también genera un DataFrame desde un csv:
Leer un SQL
Para leer desde una tabla SQL se debe utilizar el método read_sql(), esto se puede ver en el siguiente ejemplo:
1 2 3 4 5 | import sqlite3 import pandas con = sqlite3.connect('mydatabase.db') pandas.read_sql('select * from Employee', con) |
En este ejemplo, la conexión es a una base de datos SQLite 3, que tiene la tabla Employee, para esto se utiliza el método read_sql() de pandas. La consulta obtiene toda la data de la tabla.
Seleccionar filas por valor
Primero vamos a crear un DataFrame desde donde seleccionar las filas. Para crear el DataFrame utilizar el siguiente código:
1 2 3 4 5 6 7 | import pandas frame_data = { 'name': ['James', 'Jason', 'Rogers'], 'age': [18, 20, 22], 'job': ['Assistant', 'Manager', 'Clerk']} df = pandas.DataFrame(frame_data) |
En el ejemplo, se esta creando un DataFrame con tres columnas y tres filas utilizando el método DataFrame().
Para seleccionar una fila basada en el valor, utilizar lo siguiente:
1 | df.loc[df['name']] == "Jason" |
Cambiando el tipo de columnas
El tipo de la columna se puede cambiar utilizando astype() en el DataFrame. Para visualizar el tipo de dato de cada columna, se debe utilizar dtypes.
1 | df.dtypes |
Ahora, para convertir, una columna en otra, se debe utilizar:
1 | df.name = df.name.astype(str) |
Como observa, trabajar con pandas es bastante útil y simple, puede revisar el tutorial completo en Python Pandas: Getting Started With DataFrames.