En el anterior post introducimos el concepto de Data Driven Organization, ahora brindaremos una definición algo “más sofisticada” de data-driven organization, y que dice que es aquella: que adquiere, procesa y aprovecha los datos de manera oportuna y elegante para crear eficiencias, crear, testear y desarrollar nuevos productos y servicios basados en datos para así navegar por la senda de la competitividad 1 .
Vale la pena resaltar, que los pasos de adquisición y procesamiento de datos, no son tan obvios como suele ser con los procesos actuales de gestión de datos estructurados, recordemos que Big data se ocupa en data “semi-estructurada” y “no estructurada” y que mayormente esta fuera del ámbito de la organización, por lo que una organización deberá focalizarse en mantener sus datos bien organizados, documentados y consistentemente formateados y libre de errores; este proceso de limpieza de datos suele ser una de las tareas más duras de la ciencia de datos y frecuentemente puede tomar hasta el 80% de todo el trabajo. La depuración de datos, según la escala a la cual se lleve a cabo añadirá mayor complejidad. Así pues las organizaciones deberían efectuar un análisis costo beneficio para estas actividades, sus herramientas y las auditorias regulares que ameriten, pues como reza aquel adagio sobre la importancia de la data: garbage in, garbage out: ingresa basura-sale basura.
Las organizaciones que deseen invertir grandes cantidades de dinero en procesar sus datos, con la esperanza de que las personas simplemente comiencen a crear valor a partir de estos, deberán pensarlo dos veces. Y sobre aquel pensamiento que subyace y dice: «si nosotros lo construimos, el valor vendrá», en realidad rara vez funciona. Y como consecuencia se tendrá luego capital desperdiciado en infraestructura. Por ello una organización deberá poner a usar sus datos, a desarrollar experimentos que le permitan testear sus hipótesis que mejoraran su organización, sus procesos y la oferta de valor de sus productos o servicios.
Lo anterior se logra, a través del uso de metodologías y procesos definidos para enfocarse en los datos actuales y sobre todo en los futuros para la búsqueda de nuevos conocimientos y descubrimientos a posteriori, donde la intuición se desarrollara basada en la práctica y en la fiabilidad de los datos empleados.
Cuando un científico de datos, inicialmente navega y se sumerge en los datos, no solo está empleando técnicas estadísticas y matemáticas, sino también está desarrollando una intuición para cualquier deficiencia en los datos y además para detectar cualquier otra cosa inesperada que los datos puedan explicar o decir. Este proceso es similar, con algunas variantes al conocido método científico.
Hoy en día cada vez más negocios, y más administradores toman decisiones basadas en hechos y conducen sus negocios basados en los números, y en datos confiables y en métricas que suelen estar integradas dentro de sus procesos de negocios. Y a futuro tendrán más datos que provendrán de nuevas fuentes, y en forma on-line desde una tercera parte como: medios sociales, dispositivos electrónicos, aplicaciones de smartphones, e inclusive de artefactos y máquinas electrónicas, piense en Internet of Things IoT – Internet de las Cosas; así los equipos de negocios necesitarán una manera eficiente y eficaz para relacionar los nuevos datos y aprovecharlos en el logro de sus objetivos organizacionales.
Los beneficios del data-driven como soporte a las decisiones –Data Driven Decision– DDD han sido demostrado de manera casi contundente en varios estudios, citaremos uno, el del economista Erik Brynjolfsson y su colegas del MIT and Penn´s Wharton School, que condujeron un estudio de como el Data Driven Decision afecta el rendimiento de una firma (Brynjolfsson, Hitt, & Kim, 2011). Ellos desarrollaron una medida de que el uso intenso del DDD para la toma de decisiones a través de la compañía son «estadísticamente» más productivas que aquellas que no lo hacen, y esto es a pesar de existir algunas situaciones confusas, y las diferencias existentes no son pequeñas. Considere que una alta desviación estándar en la escala de DDD es asociada con un 4% a 6% de incremento en la productividad. DDD además es correlacionado con altos retornos en sus activos, valor de mercado, y esta relación parece ser causal 2.
Finalmente, a manera de conclusión diremos, para que una organización sea realmente una basada en data-driven, requiere que vaya más allá del hipo tecnológico y de tener sus procesos aislados de datos a tenerlos integrados, y en vez de tener su organización basada en procesos deberá ser una organización orientada a datos sobre la cual montar aplicaciones orientada a datos, llamadas Data Driven Applications.
¿Y que son las Data Driven Applications?, pues la abordaremos en el siguiente artículo.