En los últimos años se ha ido acrecentando el interés por el Big Data, y por lo que potencialmente pueda representar para la conducción y gestión de nuestro negocio u organización, sea que estemos en el ámbito privado o gubernamental.
Pero, ¿Que es el Big Data? ¿Cómo lo puedo “operativizar” al interior de mi organización? ¿Cuáles son las aplicaciones y beneficios que ofrece? ¿Debería ¨adoptarlo¨ en mis operaciones? Ó mejor dicho; ¿Están dadas las condiciones tecnológicas, organizativas y humanas para adoptarlo? ¿Y de estarlo, el beneficio esperado justificara su inversión? Estas y otras interrogantes son las que a mi modesto entender “deberían asaltarnos” antes de emprender una iniciativa de Big Data.
En línea con lo expresado anteriormente, éste artículo, como los que posteriormente se irán publicando, pretenderán explorar ciertos aspectos de la complejidad del Data Analytics: Data Mining, Data Science, Big Data, Data Driven, Deep Learning, etc. Y sus aplicaciones. Y qué a través de sus comentarios, aportes, y críticas, esperamos poder construir un espacio de intercambio de ideas, opiniones y discusiones que nos conduzcan a un mejor entendimiento de lo que representan estas tendencias tecnológicas, entendiendo sus desafíos pero también las oportunidades que encierran y que podamos explotarlas.
Pues ahora, vayamos al título de este artículo, y que nos ha convocado: el Big Data; Si “googleamos” el termino Big Data, obtendremos varias definiciones al respecto y es probable que todas tengan algo de cierto, pero para efectos de este articulo empleare aquella que a mi modesto entender es necesaria; éste es el propuesto por Robert D. Schneider – un respetable consultor en tecnología en Sillicon Valley 1 – que en una publicación titulada: Hadoop Buyers Guide 2, de Ubuntu, nos indica las siguientes características sobre el Big Data:
- Es todo aquello que engloba inmensas cantidades de datos; ahora por “inmensas” nos referimos al orden de los terabytes y petabytes. Para tener una idea de estas magnitudes apreciemos un dato: Facebook tiene 60 mil millones de imágenes, lo que supone 1,5 petabytes de almacenamiento y crece a un ritmo de 220 millones de imágenes por semana 3.
- Suele estar conformado por una gran variedad de tipos de datos y de formatos, el tipo de dato que considera no se limita al «tradicional» dato rígido y estructurado de filas y columnas, sino al dinámico y no-estructurado y/o semi-estructurado y que es proveído por métodos no convencionales. Hemos de tener en consideración que los datos estructurados “tradicionales” son los almacenados por las actuales bases de datos y aplicaciones como Excel, SQL, etc. Mientras que los «semi-estructurado» son los archivos tipo CSV, XML, etc. Y los «no-estructurado» son los SMS, Video, imágenes, archivos de sonido y audio, y que es la data que representa alrededor del 80% de toda la data existente y que se encuentra fuera del control de nuestra organización.
- Es generado por fuentes de datos dispares, pues además de aquellas generadas por las aplicaciones transaccionales, deberemos considerar la generada por los dispositivos móviles, sensores, – Internet de las Cosas IoT-, indicadores de comportamiento generados por clicks, logs de navegación, publicaciones en las redes sociales, flujos de información de las interacciones machine-to-machine (M2M), etc.
- Suele ser Retenido por largos periodos de tiempo, más allá de las obligaciones legales, pudiendo los datos ser almacenados desde años hasta décadas! Imagine Ud. El “storage” que ha de disponer para éste periodo de tiempo para semejante cantidad de información (orden de petabytes).
- Robert D. Schneider, finalmente nos menciona que es utilizado por nuevas e innovadoras aplicaciones, las aplicaciones suelen basarse en el principio de “aprendizaje de datos” (Machine Learning), es decir la experimentación para descubrir y predecir conocimiento, información, insights, etc. a partir de un set de datos.
Sobre ésta última característica, vale la pena traer a colación el aporte de Mike Walsh, quién en su libro The Dictionary of Dangerous Ideas 4, precisa que las aplicaciones de Big Data, al disponer de tal cantidad de datos están desafiando los enfoques convencionales para la gestión y análisis de datos actuales. Y Cita una investigación donde se argumenta que con suficiente data, la elección de un modelo matemático-estadístico ya no es muy importante. Refiriendo que en el caso de la traducción automática de lenguaje, se descubrió que simples modelos de datos triunfan sobre modelos muchos más elaborados y con menos data. Toda una idea peligrosa para los actuales esquemas empleados en la analítica de datos 5.
Podemos apreciar, que en cada una de las características enunciadas anteriormente, cada uno de los aspectos de Big Data introduce toda una complejidad, la que no solo debe ser considerada y evaluada por la unidad de TI, pues es evidente que va más allá del ámbito tecnológico e inclusive del aspecto de negocio. Debe entenderse así, que el Big Data debe ser abordado por toda la organización en su conjunto, para asegurar que su implementación y operación sea exitosa.
Una reflexión fugaz, y ultima nos conduce al hecho que muchas de las organizaciones actuales han sido concebidas como entes “basados en procesos” y no como organizaciones “orientados a datos, es decir: data-driven”, sucediendo lo mismo para las aplicaciones tecnológicas que soportan éstos procesos; por lo que emprender una iniciativa de Big-Data deberá necesariamente afectar la estructura organizacional y funcional existente, para convertirla en una data-driven organization: una organización que adquiere, procesa, y aprovecha de forma oportuna y elegante los datos para crear eficiencias; como iterar y desarrollar productos innovadores – “a partir de los datos” – y así navegar en el paisaje de la competitividad 6. Como vemos solo organizacionalmente ya tenemos otro desafío a considerar, y que dentro de nuestras aspiraciones y posibilidades ayudara a tomar decisiones más informadas.
En el siguiente artículo, “aterrizaremos” el cómo implementar el Big Data en nuestra organización. Hasta pronto.
Referencias
2 Guía del comprador de Hadoop
3 Sobre cantidades de información almacenadas en Facebook
4 Ideas Peligrosas de Mike Walsh
5 Googlear: The Unreasonable Effectiveness of Data
6 Libro sobre Data Driven de O´Reilly