Las organizaciones que desean realizar un gran uso de la data y el análisis de la misma requieren almacenar y administrar la data de forma que puedan elaborar un análisis en forma ágil, mientras el almacenamiento es robusto y escalable a largo plazo.

Un Lago de Datos o Data Lake es un entorno de datos compartidos que esta diseñado para conocer estas necesidades y proporcionar un entorno de almacenamiento y administración a largo plazo para todos los tipos de datos y sumiinistro de datos para el análisis.

Diferencias entre un Lago de Datos y un Data Warehouse

Existen algunas diferencias entre un Data Warehouse y un Lago de Datos:

  1. Los Lagos de Datos retienen todos los Datos: Un Data Warehouse esta diseñado luego de un extenso análisis de las fuentes de datos, que permíte un entendimiento de los procesos del negocio y un perfilamiento de los datos. El resultado es un modelo estructurado de datos en donde se tiene definido que datos agregar y que datos no. En contraste, un Lago de Datos almacena toda la data.
  2. Los Lagos de Datos soportan todo tipo de Datos: Un Data Warehouse consiste en datos extraidos de un sistema transaccional. Los datos no tradicionales como logs de los servidores, data de sensores, actividad de las redes sociales e imagines fueron ignorados por mucho tiempo. Un lago de datos toma en cuenta estos tipos de datos no tradicionales.
  3. Un Lago de Datos se adapta a fácilmente a los cambios: Una de las dificultades para un Data Warehouse es el tiempo que toma para aplicar un cambio. En un Lago de Datos toda la data se almacena en su forma original.

Beneficios de un Lago de Datos

  • Permite la recepción y almacenamiento rápido de los datos
  • Es un entorno gestionado para asegurar que los datos se puedan encontrar, se entiendan y se evite la duplicación innecesaria.
  • Permite un fácil acceso a los datos para su análisis.
  • Permite un análisis exploratorio para proporcionar nuevos insight o “fallar rápido”.
  • Proporciona un sistema altamente escalable y una infraestructura capaz de análisis a escala.

Un Lago de Datos incluye una variedad de fuentes para almacenamiento de datos incluyendo tecnologías de Big Data como Hadoop, Spark, Graph y sistemas de Data Warehouse.

Hadoop generalmente juega un rol importante en un Lago de Datos pero Hadoop Data Lake puro es insuficiente para satisfacer el espectro completo de las necesidades que se presentan en la organización.

Las capacidades de gobierno son claves para un Lago de Datos. Un Lago de Datos no administrado y sin gobierno se convierte rápidamente en un Pantano de Datos, con duplicación de datos, dificultad para encontrar datos y falta de confianza en los datos debido a la incapacidad para entender su procedencia y calidad.

Conclusión

Un Lago de datos puede ser una solución para su compañia si:

  • Necesita extender el actual Data Warehouse con otros tipos de datos.
  • Esta explorando o investigando sistemas de Big Data como Hadoop.
  • Esta explorando simplificar el auto servicio de acceso a datos para análisis, cientifico de datos, usuarios o desarrolladores.
  • Esta pensando en escalar los entornos de Hadoop y Big Data en entornos productivos.
  • Esta enfrentando desafíos asociados a seguridad, administración y requerimientos de regulación alrededor de sus fuentes de datos.

Este artículo se encuentra basado en What is a Data Lake? de IBM.

¿Que es un Lago de Datos o Data Lake?
Si te gusto, comparte ...Email this to someone
email
Share on Facebook
Facebook
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin
Etiquetado en:        

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Facebook