A fin de dominar, o incluso simplemente utilizar, el análisis de datos, Python es el lenguaje de programación para hacerlo. Python es fácil de aprender, tiene un gran soporte y la mayoría de librerías para Data Science y Machine Learning tienen una librería para Python.

Durante los últimos meses, varios proyectos de Data Sciente para Python han lanzado nuevas versiones con importantes actualizaciones de funciones. Algunos son actualizaciones a las versiones actuales, otra hacen que sea más fácil para los Pythonistas escribir código rápido y optimizado para estas áreas de aplicación.

SciPy 1.0: Librería para Data Science

Para que es SciPy:

Los usuarios de Python que quieren una librería de matemáticas rápida y potente pueden utilizar NumPy, pero NumPy por sí misma no está muy enfocada en esta tarea. SciPy utiliza NumPy para proporcionar bibliotecas para tareas comunes de programación orientada a las matemáticas y la ciencia, desde álgebra lineal, estadística y procesamiento de señales.

Cómo SciPy ayuda a Data Science

SciPy ha sido útil para proporcionar herramientas convenientes y ampliamente utilizadas para trabajar con matemáticas y estadística. Pero durante mucho tiempo no tenía una versión 1.0 adecuada, aunque tenía una fuerte compatibilidad hacia atrás en todas las versiones.

El gatillo para llevar el proyecto SciPy a la versión 1.0, según el desarrollador Ralf Gommers, fue principalmente una consolidación de como se lidero el proyecto. Pero también incluía un proceso de integración continua para las compilaciones de MacOS y Windows, así como el soporte adecuado para los archivos binarios de Windows.

Dask 0.15.4: Librería para Data Science

Que es Dask:

La potencia de procesamiento es más barata que nunca, pero puede ser complicado aprovecharla de la mejor manera posible, al dividir las tareas en varios núcleos de CPU, procesadores físicos o nodos de cálculo.

Dask tomo un proceso de Python y lo ejecuta de forma eficiente en múltiples sistemas. Lo más útil de Dask es que la sintaxis utilizada para iniciar trabajos de Dask es prácticamente la misma que para hacer otras cosas en Python, por lo que sólo requiere una pequeña modificación del código para ser de utilidad.

Cómo Dask ayuda a Data Science

Dask proporciona sus propias versiones de algunas interfaces populares de Machine Learning y Data Science en Python. Su objeto DataFrame es el mismo que el de la biblioteca Pandas; del mismo modo, puede llevar a que un proceso único se ejecute en paralelo con algunos cambios mínimos.

Dask también puede usarse para ejecutar en forma paralela trabajos escritos en Python, y tiene tipos de objetos (como Bag) adecuados para optimizar estos tipos de trabajos.

Numba 0.35.0: Librería para Data Science

Que es Numba:

Numba permite que el código Python se compile a lenguaje assembler a través del compilador LLVM. Puede hacer esto sobre la marcha, siempre que se realice un programa Python. En este sentido, Numba es como Cython, pero Numba es a menudo más conveniente para trabajar, aunque el código de Cython es más fácil de distribuir a terceros.

Cómo Numba ayuda a Data Science

La forma más obvia en que Numba ayuda en Data Science es acelerar las operaciones escritas en Python. Se pueden realizar prototipos de proyectos en Python puro, luego agregarle anotaciones con Numba para que sean más rápidos en producción.

Numba también puede proporcionar aceleraciones que se ejecutan más rápido en hardware creado para Machine Learning y Data Science.

Cython 0.27: Librería para Data Science

Para que es Cython:

Cython transforma el código existente de Python en código C que puede ejecutarse mucho más rápido. Esta transformación resulta más práctica con un código que es pesado para las matemáticas o se ejecuta con muchos bucles, algo que se ve mucho en los programas de Python escritos para ingeniería, ciencias y machine learning.

Cómo Cython ayuda a Data Science

La última versión de Cython amplia el soporte para la integración con IPython/Jupiter. El código compilado por Cython ya se puede utilizar en Jupiter mediante anotaciones en línea, tal como si el código de Cython fuera cualquier otro código de Python.

HPAT: Librería para Data Science

Que es HPAT(High Performance Analytics Toolkit)

HPAT es el kit de herramientas de análisis de alto rendimiento de Intel, es un proyecto experimental para acelerar el análisis de datos y la ejecución de Machine Learning en clusters. Compila un subconjunto de programas Python para que en forma automática se ejecuten en paralelo utilizando la utilidad MPirum de Open MPI.

Cómo HPAT ayuda a Data Science

HPAT utiliza Numba, pero a diferencia de este proyecto y Cython, no compila Python tal como es. En su lugar, trabaja con un sub conjunto de código Python, principalmente matrices NumPy y dataframes Pandas, y los optimiza para que se ejecute en diferentes nodos.

Al igual que Numba, HPAT tiene la anotación @jit que puede convertir funciones específicas a su contraparte optimizadas. También incluye un módulo de E/S para leer y escribir archivos HDF5.


Este artículo fue escrito en base a 5 essential Python tools for data science.

Python: 5 herramientas esenciales para Data Science
Si te gusto, comparte ...Email this to someone
email
Share on Facebook
Facebook
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin
Share on Google+
Google+
Etiquetado en:        

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Facebook
A %d blogueros les gusta esto: