Al revisar sobre Pandas, ubique con esta increíble librería que amplía el código de pandas existente cambiando solo una línea de código y haciéndola al menos 2 veces más rápido en comparación con el existente. Ver tan grandes reclamos sobre la velocidad de pandas me dio una razón para probarla y ver los resultados del mismo.

Pueden ubicar el proyecto modin en github.

Se va a utilizar 2 datasets de diferentes tamaños para comparar los tiempos de respuesta para ambos métodos.

Dataset 1:

Size  = 445MB

Utilizando la librería modin:

Dataset 2:

Size = 900 MB

Utilizamos el mismo código y volvemos a ejecutar, y obtenemos lo siguiente:

 Desafortunadamente, modin no admite el método read_table a partir de ahora, por eso se tuvo que utilizar read_csv

De acuerdo a lo que se observa, los resultados son sorprendentes. Esto permitirá manejar una buena cantidad de datos en pandas a una mayor velocidad.

Modin utiliza Ray para proporcionar una manera fácil de acelerar los programas con pandas, scripts y librerías pandas, al mismo tiempo que ofrece una integración y compatibilidad perfecta con el código de pandas existente. Utiliza los 4 núcleos físicos mientras que en los pandas, solo puede usar un núcleo a la vez cuando estas haciendo cálculos de cualquier tipo.

Esto ha contribuido a los entusiastas de Data Science / ML. Pruébelo al menos una vez para su caso de uso.


Este artículo se encuentra basado en Faster pandas, even on your laptop.

Python: Pandas más rápidos, incluso en la laptop
Si te gusto, comparte ...Email this to someone
email
Share on Facebook
Facebook
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin
Share on Google+
Google+
Etiquetado en:        

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Facebook