Entonces, ¿qué se necesita para tener un lago de datos exitoso? Al igual que con cualquier proyecto, es imprescindible alinearlo con la estrategia comercial de la empresa y contar con el patrocinio ejecutivo y una amplia aceptación. Además, en base a las discusiones con decenas de empresas que implementan lagos de datos con diferentes niveles de éxito, se pueden identificar tres requisitos previos clave:

  • La plataforma adecuada
  • Los datos correctos
  • Las interfaces adecuadas

La plataforma Adecuada

Las tecnologías de big data como Hadoop y las soluciones en la nube como Amazon Web Services (AWS), Microsoft Azure y Google Cloud Platform son las plataformas más populares para un lago de datos. Estas tecnologías comparten varias ventajas importantes:

  • Volumen: Estas plataformas se diseñaron para escalar horizontalmente, en otras palabras, para escalar indefinidamente sin una degradación significativa del rendimiento.
  • Costo: Siempre hemos tenido la capacidad de almacenar una gran cantidad de datos en un almacenamiento bastante económico, como cintas, discos WORM y discos duros. Pero no fue sino hasta las tecnologías de big data que tuvimos la capacidad de almacenar y procesar grandes volúmenes de datos de manera tan económica, generalmente a una décima o una centésima parte del costo de una base de datos relacional comercial.
  • Variedad: Estas plataformas utilizan sistemas de archivos o almacenes de objetos que les permiten almacenar todo tipo de archivos: Hadoop HDFS, MapR FS, Simple Storage Service (S3) de AWS, etc. A diferencia de una base de datos relacional que requiere que la estructura de datos esté predefinida o a un sistema de archivos, a un almacén de objetos realmente no le importa lo que escriba. Por supuesto, para procesar de manera significativa los datos, necesita conocer su esquema, pero eso es solo cuando usa los datos. Este enfoque se denomina esquema en lectura y es una de las ventajas importantes de las plataformas de macrodatos, ya que permite lo que se denomina “ingestión sin fricciones”.
  • Preparado para el futuro: Debido a que nuestros requisitos y el mundo en el que vivimos están cambiando, es fundamental asegurarse de que los datos que tenemos se puedan utilizar para ayudar con nuestras necesidades futuras. Hadoop y otras plataformas de big data, son muy modulares. El mismo archivo puede ser utilizado por varios motores de procesamiento y programas, desde consultas de Hive, hasta scripts Pig, Spark y trabajos de MapReduce personalizados, todo tipo de herramientas y sistemas diferentes pueden acceder y usar los mismos archivos.

La Data Correcta

La mayoría de los datos recopilados por las empresas en la actualidad se desechan. Un pequeño porcentaje se agrega y se guarda en un almacén de datos durante algunos años, pero los datos operativos más detallados, los datos generados por máquinas y los datos históricos antiguos se agregan o se desechan por completo. Eso dificulta la realización de análisis. Por ejemplo, si un analista reconoce el valor de algunos datos que tradicionalmente se desechaban, puede llevar meses o incluso años acumular suficiente historial de esos datos para realizar análisis significativos. La promesa del lago de datos, por lo tanto, es poder almacenar tantos datos como sea posible para uso futuro.

Por lo tanto, el lago de datos es como una alcancía a menudo no sabe para qué está guardando los datos, pero los quiere en caso de que los necesite más adelante. Además, como no sabe cómo utilizará los datos, no tiene sentido convertirlos o tratarlos de forma prematura. Puede pensar en ello como viajar con su alcancía a través de diferentes países, agregar dinero en la moneda del país en el que se encuentra en ese momento y mantener el contenido en sus monedas nativas hasta que decida en qué país desea gastar el dinero. En resumen, el objetivo es guardar la mayor cantidad de datos posible en su formato nativo.

Otro desafío para obtener los datos correctos son los silos de datos. Diferentes departamentos pueden acumular sus datos, tanto porque es difícil y costoso de proporcionar como porque a menudo existe una renuencia política y organizacional a compartir. En una empresa típica, si un grupo necesita datos de otro grupo, tiene que explicar qué datos necesita y luego el grupo propietario de los datos tiene que implementar trabajos ETL que extraigan y empaqueten los datos requeridos. Esto es costoso, difícil y requiere mucho tiempo, por lo que los equipos pueden retrasar las solicitudes de datos tanto como sea posible y luego tomar el mayor tiempo posible para proporcionar los datos.

Con un lago de datos, debido a que el lago consume datos sin procesar a través de una ingestión sin fricciones (básicamente, se ingiere tal cual sin ningún procesamiento), ese desafío (y excusa) desaparece. Un lago de datos bien gobernado también está centralizado y ofrece un proceso transparente a las personas de toda la organización sobre cómo obtener datos, por lo que la propiedad se convierte en una barrera mucho menor.

La Interface Correcta

Una vez que tenemos la plataforma correcta y cargamos los datos, llegamos a los aspectos más difíciles del lago de datos, donde la mayoría de las empresas fracasan: elegir la interfaz correcta. Para lograr una amplia adopción y aprovechar los beneficios de ayudar a los usuarios comerciales a tomar decisiones basadas en datos, las soluciones que brindan las empresas deben ser de autoservicio, de modo que sus usuarios puedan encontrar, comprender y utilizar los datos sin necesidad de ayuda de TI.

Hay dos aspectos para habilitar el autoservicio: proporcionar datos con el nivel adecuado de experiencia para los usuarios y garantizar que los usuarios puedan encontrar los datos correctos.

Proporcionar Datos al Nivel Adecuado

Para lograr una amplia adopción del lago de datos, queremos que todos, desde científicos de datos hasta analistas comerciales, lo utilicen. Sin embargo, al considerar audiencias tan divergentes con diferentes necesidades y niveles de habilidad, debemos tener cuidado de poner los datos correctos a disposición de las poblaciones de usuarios adecuadas.

Por ejemplo, los analistas a menudo no tienen las habilidades para usar datos sin procesar. Los datos brutos suelen tener demasiados detalles, son demasiado granulares y, con frecuencia, tienen demasiados problemas de calidad para poder utilizarlos fácilmente. Por ejemplo, si recopilamos datos de ventas de diferentes países que usan diferentes aplicaciones, esos datos vendrán en diferentes formatos con diferentes campos (por ejemplo, un país puede tener impuestos sobre las ventas mientras que otro no) y diferentes unidades de medida.

Los científicos de datos, por otro lado, son todo lo contrario. Para ellos, los datos cocinados a menudo pierden las pepitas de oro que están buscando. Por ejemplo, si quieren ver con qué frecuencia se compran dos productos juntos, pero la única información que pueden obtener son los totales diarios por producto, los científicos de datos se quedarán estancados. Son como chefs que necesitan ingredientes crudos para crear sus obras maestras culinarias o analíticas.


Estos serían los principales aspectos a tener en cuenta al implementar un Lago de Datos en forma correcta: La plataforma Adecuada, los datos correctos y las interfaces correctas.

Esto artículo se encuentra basado en The Enterprise Big Data Lake.

Consideraciones para un Lago de Datos exitoso
Si te gusto, comparte ...Email this to someone
email
Share on Facebook
Facebook
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin
Etiquetado en:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Facebook