Un Lago de Datos, de acuerdo a lo que mencionamos en el artículo ¿Que es un Lago de Datos?, se define como un entorno de datos compartidos que esta diseñado para conocer estas necesidades y proporcionar un entorno de almacenamiento y administración a largo plazo para todos los tipos de datos y sumiinistro de datos para el análisis.
Además, un Lago de Datos debe soportar las siguientes características:
- Coleccionar y almacenar cualquier tipo de datos, a cualquier escala y a un bajo costo.
- Asegurar y proteger todos los datos almacenados en el repositorio central.
- Buscar y encontrar los datos relevantes en el repositorio central.
- Realización rápida y sencilla de nuevos análisis de datos sobre el conjunto de datos.
- Consultar los datos definiendo la estructura de los datos en el momendo de su uso (esquema a leer).
De esta forma, un Lago de Datos más que reemplazar el actual Data Warehouse, lo complementa.
Construcción de un Lago de Datos en AWS
Una solución de Data Lake en AWS, en esencia, aprovecha Amazon S3 para un servicio seguro y rentable de almacenamiento duradero y escalable. Puede recopilar rápida y fácilmente datos en Amazon S3, desde una amplia variedad de fuentes mediante servicios como AWS Import / Export, Snowball o Amazon Kinesis, Flujos de entrega de Firehose. Amazon S3 también ofrece una amplio conjunto de funciones que le ayudarán a proporcionar una seguridad sólida para sus datos, incluidos los controles y políticas de acceso, la transferencia de datos SSL, cifrado en reposo, registro y monitoreo, y más.
Para la gestión de los datos, puede aprovechar servicios como Amazon DynamoDB y Amazon ElasticSearch para catalogar e indexar los datos desde Amazon S3. Uso de funciones de AWS Lambda que son activados directamente por Amazon S3 en respuesta a eventos como la carga de nuevos datos, puede mantener su catálogo actualizado. Con Amazon API Gateway, puede crear una API que actúa como una «puerta de entrada» para que las aplicaciones accedan a los datos de forma rápida y segura al autorizar el acceso a través de AWS Identity y Gestión de acceso (IAM) y Amazon Cognito.
Para analizar y acceder a los datos almacenados en Amazon S3, AWS brinda acceso rápido a servicios flexibles y de bajo costo, como Amazon Elastic MapReduce (Amazon EMR), Amazon Redshift, y Amazon Machine Learning, para que pueda escalar rápidamente cualquier solucion analitica. Las soluciones de ejemplo incluyen almacenamiento de datos, análisis de flujo de clics, detección de fraudes, motores de recomendación, ETL impulsado por eventos y procesamiento de Internet de las cosas. Aprovechando AWS, puede aprovisionar en forma sencilla exactamente los recursos y escala que necesita para impulsar cualquier aplicación de Big Data o de innovación.
Conclusión
En conclusión, si esta pensando en implementar un Lago de Datos, puede basarse en el conjunto de herramientas que presenta AWS, este artículo a pretendido brindar una visión panóramica de las herramientas que tiene AWS y una estructura de las mismas, la cual se presenta en el digrama.
Este artículo esta basado en Building a Data Lake on AWS.