En el presente artículo abordaremos alternativas de cómo implementar Hadoop en nuestra organización. Así, debe tener en cuenta que adquirir, desplegar e integrar adecuadamente todas las partes conformantes del ecosistema de Hadoop ha probado ser una tarea difícil para muchas organizaciones de TI americanas, pues se centraron demasiado en los aspectos primarios de negocios más que en procurar el disponer de un ambiente modular y «artesanal» tecnológico para Hadoop.
Para complicar lo anterior, Hadoop no solo está evolucionando continuamente, sino que todos sus proyectos relacionados de su ecosistema también lo están haciendo. Afortunadamente, existen alternativas para afrontar estos riesgos en la actualidad, y se tienen por ahora tres tipos de distribuciones de facto y que son pertenecientes a tres compañías respetables en el mundo del BigData y son: Cloudera, MapR y Hortworks; éstas ofrecen cada uno un tipo de infraestructura basada en Hadoop y según lo que requiere su organización deberá decidirse por una de ellas.
A continuación se indican los tres modelos de distribución “de facto” de Hadoop.
En un esfuerzo para facilitar esta tarea de despliegue para un entorno completo de Hadoop, cada vez un mayor número de vendedores están ofreciendo distribuciones y aplicaciones que generalmente caen entre algunos de los tres modelos descritos, los mismos que a continuación describiremos brevemente:
Código abierto y Soporte
Implica disponer el código abierto de Hadoop y un pago por el soporte profesional y sus servicios. Hortonworks es un buen ejemplo de esta estrategia.
Código abierto, soporte, e innovación en la gestión
Este va un paso más adelante al combinar el código abierto de Hadoop con herramientas y utilidades muy amigables que facilitan el trabajo de la línea principal de TI en las organizaciones. Cloudera es una instancia de este modelo
Código abierto, soporte y el valor añadido a través de una innovadora arquitectura
En este caso Hadoop es orquestado con un modelo de componentes hacia el sistema de archivos. Aquellos que son innovadores, podrán reemplazar uno o más componentes y paquetes basados en código abierto y poder mantener su compatibilidad con Hadoop sin inconvenientes. MapR es una instancia de este modelo.
Adoptar una infraestructura de Hadoop es una decisión vital y que de lejos tiene muchas ramificaciones e impactos hacia la organización entera y va más allá de una decisión de negocios, donde existirán contingencias que usted no tendrá maneras de anticipar al finalizar su primer enfoque sobre una implementación con Hadoop, más aun si considera que estamos asistiendo al nacimiento de la era de Big data en las empresas con toda la incertidumbre que suele generar el advenimiento, transición y establecimiento de tecnología tan disruptiva.
Tampoco deje de tener en cuenta que Hadoop es eso, una infraestructura, y que requiere el mismo nivel de atención y escrutinio que brinda su organización cuando adquiere un activo critico tales como servidores, almacenamiento, y bases de datos. Así no se sorprenda si su ambiente de trabajo para Hadoop demande los mismos requerimientos que su portafolio de IT, como es: SLAs, proteccion de datos, Seguridad, Integración con otras aplicaciones, servicios especializados, entrenamientos, etc.
Una última mención lo merece Spark, un “sustituto” de MapReduce, y que es un esquema de trabajo de código abierto, con procesamiento paralelo de datos y que complementa a Apache Hadoop para hacer más fácil y rápido el desarrollo de aplicaciones de BigData al combinar el procesamiento por lotes, flujos de datos, y la analítica de datos interactiva en toda la data. Según lo indica la misma web de Cloudera, Spark es entre 10 a 100 veces más rápido que MapReduce para entregar resultados, e “insights” de la data procesada, resultando muy oportuno para la toma de decisiones de negocios y de la obtención de sus resultados. Si aspiráramos a ser mas concretos diríamos que la diferencia principal entre MapReduce y Spark, es que Spark carga toda la data en memoria y ejecuta los algoritmos en memoria.
A continuación aprecie las comparaciones entre Hadoop=MapReduce y Spark. Saque sus conclusiones.
Procesamiento en «tiempo real»: Storm (Solución de Streaming con MapReduce) vs Spark
Tiempo por Iteracion: Hadoop=Map Reduce vs Spark
Spark, fue originalmente desarrollado en la Universidad de Berkeley en el 2009. Luego sus creadores en el 2013 fundan Databricks, que se ha convertido en otro jugador relevante en las plataformas tecnológicas de BigData. Y que en los últimos años ha concitado cada vez más interés, al punto que Spark podría reemplazar a MapReduce, como auguran algunos «pitonisos», pero habrá que esperar que sucederá finalmente.
Y bueno, finalmente hemos llegado al fin de este tercer artículo y de este primer lote de artículos introductorios al Big Data y Hadoop, esperamos obtener sus apreciaciones y comentarios al respecto. En los post siguientes abordaremos Data-Driven.
Referencias
2 HDFS y MapReduce por Cloudera
3 Guía del comprador de Hadoop
4 Información adicional sobre Spark vs MapReduce
Pd. Les comparto el evento TOP de Big Data en el mundo, el de O´Reilly y Cloudera, el Strata+Hadoop: Strataconf y que afortunadamente tuve la oportunidad de asistir en febrero de este año 2015. La versión en San José – California es el que congrega más participantes.