Es un término que está muy de moda hoy en día y ya hace un tiempo, muchos ya afirman trabajar con Big Data y otros están empezando proyectos con Big Data. Más a todo esto, ¿Qué es Big Data? Me surgió la duda sobre esta nueva moda y espero poder clarificar con algunas definiciones.
De acuerdo al libro Hadoop for Dummies, describen Big Data como una manera de resolver los problemas de datos que no pueden ser resueltos con las herramientas tradicionales. Así mismo agrega que, para ayudar a entender la naturaleza de Big Data, presenta una clasificación de “las 3 Vs de Big Data”: Volumen, variedad y velocidad.
- Volumen: Gran volumen de datos que están en rangos de terabytes o petabytes.
- Variedad: La data está organizada en múltiples estructuras, desde texto sin formato (muchos denominan data no estructurada), archivos de registro de eventos (comúnmente denominados data semi estructurada), hasta data ordenada en columnas y filas (data estructurada). Para hacerlo más confuso, algunos datos incluyen estos tres tipos de estructura de datos (Esto son denominados data con múltiples estructuras).
- Velocidad: Data que ingresa a la organización y que tiene valor por un determinado límite de tiempo. Cuanto mayor sea el volumen de datos por segundo que ingresa a la organización, mayor será el reto de velocidad.
Cada uno de estos criterios por si solo posee un conjunto de retos para aquellos que deben analizar esta información. Como tal, estos tres criterios son una manera fácil de evaluar los problemas de Big Data y proporcionar claridad sobre lo que se ha convertido en una palabra de moda, pero un poco vaga en su definición.
Grandes volúmenes de datos
Es claro que vivimos en un mundo que se encuentra en un estado avanzado de la era de la información. Los datos son generados y capturados en forma electrónica por sensores de redes en grandes volúmenes, en velocidades crecientes y en gran variedad de datos. Dispositivos como los teléfonos, cámaras, automóviles, televisores y máquinas de la industria, todos ellos contribuyen a la gran explosión de datos que observamos hoy. Esta información puede ser consultada, almacenada y compartida, pero aún no se llega a explotar todo el potencial que estos datos pueden proporcionar. Este valor radica en que esta información, puede abrir nuevos mercados, proporcionar información sobre problemas complejos de negocios, reducir costos y mejorar la salud general de la sociedad.
En principios del 2000 organizaciones como Yahoo! o Google buscaron resolver este tipo de problemas al buscar nuevas formas de analizar las grandes cantidades de información que los buscadores se encontraban recolectando. Producto de este tipo de problemas es que se obtienen herramientas como Hadoop para el trabajo con Big Data.
Variedad de estructuras de la data
Estructurada: Este tipos de datos tiene un alto grado de organización y es lo que generalmente visualiza en base de datos relacionales. Debido a su estructura definida, es clasificada fácilmente en algún tipo de dato o alguno definido por los usuarios (basado en los tipos de datos estándar). Estos se pueden buscar por los algoritmos tradicionales y administrados en formas bastantes definidas.
Semi estructurados: este tipo de data es más compleja de entender que los datos estructurados (esto puede verlo en los archivos de registro de eventos). Generalmente esta información es almacenada en archivos de texto, que tiene algún grado de ordenamiento – por ejemplo, limitado por tabs, donde las columnas están separadas por el carácter tab.
No estructurada: Esta data no tiene la ventaja de tener una estructura de datos (para ser exactos, denominarlo no estructurada no es del todo preciso, pues en una computadora todo dato tiene cierto grado de estructuración, el denominarlo data no estructurada es para indicar que tiene un bajo grado de estructuración). Analizar esta data bajo los medios tradicionales se torna difícil y costoso, y en ocasiones logísticamente imposible. Por ejemplo, imagine años de datos registrados por los operadores de un call center registrando el comportamiento del consumidor. Sin una buena herramienta para analizar este texto, será difícil encontrar patrones de comportamiento o alguna información interesante dentro de estas observaciones.
Considerando estas definiciones de Big Data, ¿En su empresa hay información que se pueda clasificar como Big Data? ¿Tienen alguna herramienta para trabajar estos datos?¿Existe Big Data, pero aún no procesa esta información?