Ing. Ivan Oscco Cossio, PMP®

En el presente artículo abordaremos alternativas de cómo implementar Hadoop en nuestra organización. Así, debe tener en cuenta que adquirir, desplegar e integrar adecuadamente todas las partes conformantes del ecosistema de Hadoop ha probado ser una tarea difícil para muchas organizaciones de TI americanas, pues se centraron demasiado en los aspectos primarios de negocios más que en procurar el disponer de un ambiente modular y “artesanal” tecnológico para Hadoop.

Para complicar lo anterior, Hadoop no solo está evolucionando continuamente, sino que todos sus proyectos relacionados de su ecosistema también lo están haciendo. Afortunadamente, existen alternativas para afrontar estos riesgos en la actualidad, y se tienen por ahora tres tipos de distribuciones de facto y que son pertenecientes a tres compañías respetables en el mundo del BigData y son: Cloudera, MapR y Hortworks; éstas ofrecen cada uno un tipo de infraestructura basada en Hadoop y según lo que requiere su organización deberá decidirse por una de ellas.

A continuación se indican los tres modelos de distribución “de facto” de Hadoop.

 

Modelos Hadoop 2

En un esfuerzo para facilitar esta tarea de despliegue para un entorno completo de Hadoop, cada vez un mayor número de vendedores están ofreciendo distribuciones y aplicaciones que generalmente caen entre algunos de los tres modelos descritos, los mismos que a continuación describiremos brevemente:

Código abierto y Soporte

Implica disponer el código abierto de Hadoop y un pago por el soporte profesional y sus servicios. Hortonworks es un buen ejemplo de esta estrategia.

Código abierto, soporte, e innovación en la gestión

Este va un paso más adelante al combinar el código abierto de Hadoop con herramientas y utilidades muy amigables que facilitan el trabajo de la línea principal de TI en las organizaciones. Cloudera es una instancia de este modelo

Código abierto, soporte y el valor añadido a través de una innovadora arquitectura

En este caso Hadoop es orquestado con un modelo de componentes hacia el sistema de archivos. Aquellos que son innovadores, podrán reemplazar uno o más componentes y paquetes basados en código abierto y poder mantener su compatibilidad con Hadoop sin inconvenientes. MapR es una instancia de este modelo.

Adoptar una infraestructura de Hadoop es una decisión vital y que de lejos tiene muchas ramificaciones e impactos hacia la organización entera y va más allá de una decisión de negocios, donde existirán contingencias que usted no tendrá maneras de anticipar al finalizar su primer enfoque sobre una implementación con Hadoop, más aun si considera que estamos asistiendo al nacimiento de la era de Big data en las empresas con toda la incertidumbre que suele generar el advenimiento, transición y establecimiento de tecnología tan disruptiva.

Tampoco deje de tener en cuenta que Hadoop es eso, una infraestructura, y que requiere el mismo nivel de atención y escrutinio que brinda su organización cuando adquiere un activo critico tales como servidores, almacenamiento, y bases de datos. Así no se sorprenda si su ambiente de trabajo para Hadoop demande los mismos requerimientos que su  portafolio de IT, como es: SLAs, proteccion de datos, Seguridad, Integración con otras aplicaciones, servicios especializados, entrenamientos, etc.

Una última mención lo merece Spark, un “sustituto” de MapReduce, y que es un esquema de trabajo de código abierto, con procesamiento paralelo de datos y que complementa a Apache Hadoop para hacer más fácil y rápido el desarrollo de aplicaciones de BigData al combinar el procesamiento por lotes, flujos de datos, y la analítica de datos interactiva en toda la data. Según lo indica la misma web de Cloudera, Spark es entre 10 a 100 veces más rápido que MapReduce para entregar resultados, e “insights” de la data procesada, resultando muy oportuno para la toma de decisiones de negocios y de la obtención de sus resultados. Si aspiráramos a ser mas concretos diríamos que la diferencia principal entre MapReduce y Spark, es que Spark carga toda la data en memoria y ejecuta los algoritmos en memoria.

A continuación aprecie las comparaciones entre Hadoop=MapReduce y Spark. Saque sus conclusiones.

 

3er Blog 2

 

Procesamiento en “tiempo real”: Storm (Solución de Streaming con MapReduce) vs Spark

 

 

3er Blog 1 Tiempo por Iteracion: Hadoop=Map Reduce vs Spark 

Spark, fue originalmente desarrollado en la Universidad de Berkeley en el 2009. Luego sus creadores en el 2013 fundan Databricks, que se ha convertido en otro jugador relevante en las plataformas tecnológicas de BigData. Y que en los últimos años ha concitado cada vez más interés, al punto que Spark podría reemplazar a MapReduce, como auguran algunos “pitonisos”, pero habrá que esperar que sucederá finalmente.

Y bueno, finalmente hemos llegado al fin de este tercer artículo y de este primer lote de artículos introductorios al Big Data y Hadoop, esperamos obtener sus apreciaciones y comentarios al respecto. En los post siguientes abordaremos Data-Driven.

 

Referencias

1 Sobre Spark por Cloudera 

2 HDFS y MapReduce por Cloudera 

3 Guía del comprador de Hadoop

4 Información adicional sobre Spark vs MapReduce 

 

Pd. Les comparto el evento TOP de Big Data en el mundo, el de O´Reilly y Cloudera, el Strata+Hadoop: Strataconf y que afortunadamente tuve la oportunidad de asistir en febrero de este año 2015. La versión en San José – California es el que congrega más participantes.

http://strataconf.com/

Strata Hadoop

Modelos de Distribución de Hadoop
Si te gusto, comparte ...Email this to someone
email
Share on Facebook
Facebook
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin
Share on Google+
Google+
Etiquetado en:                

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Facebook
A %d blogueros les gusta esto: