Ing. Ivan Oscco Cossio, PMP®

En el mundo del Data Analytics: BigData, DataMining, Predicitve Analytics, etc., se suele escuchar el término científico de datos o data scientist, puede sonar algo presumido pero en fin se ha acuñado como tal y es el propósito de este artículo dar luces al respecto.

Data Science, dicen los entendidos, suele involucrar los principios, procesos y técnicas para el entendimiento de fenómenos a través de un análisis – automatizado – de los datos. Debemos entender así al Data Science en el contexto de otros procesos relacionados a los datos en la organización, distinguiéndose más allá del procesamiento de datos y según se aprecia en la actualidad está ganando una atención creciente en el mundo de los negocios.
Si tomaríamos literalmente el término data science, pronto apreciaremos que es poco apropiado, por los skills y competencias asociadas a su quehacer, evidenciándose una falta de consenso en su definición y peor aun cuando se desea estructurar una malla curricular para su formación profesional. Esta dificultad para definir sus skills es debido a que la división entre su parte sustantiva y metodológica es ambigua, y como tal es poco claro cómo distinguir cuales corresponden a las de un programador por ejemplo, cuales a un estadístico, cuales a un especialista en IT y así, otras materias relacionadas.

Lo que es claro, sin embargo, es que uno necesitara aprender un montón si aspira a convertirse en un data scientist competente, y desafortunadamente, la presencia o enumeración de infinidad de webs, textos y tutoriales poco contribuyen a desenredar los nudos existentes en este nueva profesión.

En un esfuerzo por simplificar mayor discusión, y proponer una propuesta es que, presentaremos el enfoque de Drew Conway a través de su Data Science Venn Diagram. Uno de los conceptos de data science que más consenso ha obtenido en el mundo del data analytics y que presentamos a continuación.

Data_Science_VD

Para leer, el diagrama, tenemos los colores primarios de datos: skills de hacking, conocimientos en matemática y estadística, y una sustantiva expersite. Podemos apreciar una inherente naturaleza interdisciplinaria y la forma en que se presenta, tampoco es del todo precisa y específica, y también es importante que cada uno de esos skills sea muy valorado, pero que la combinación entre dos de ellos no es data science e incluso existe una zona de peligro.
Para bien o para mal, data es un commodity comercializado electrónicamente, por lo tanto, en orden para ser primero en este mercado Usted necesita hablar como hacker (Hacking Skills). Esto, sin embargo, no requiere un back ground en ciencias de la computación – de hecho- muchos de los hackers más impresionantes nunca tomaron un curso al respecto. Siendo lo suficientemente hábil para manipular archivos de texto vía línea de comandos, entendiendo operaciones vectorizadas, pensando algorítmicamente; esos son pues las habilidades que hace a un hacker exitoso.

Una vez que ha adquirido y depurado la data, el siguiente paso es extraer insights de estos. En orden para hacer esto, Usted necesita aplicar métodos matemáticos y estadísticos apropiados (Math & Statitics Knowledge), los cuales requieren al menos una familiaridad con sus herramientas. Esto no quiere decir que un PhD en estadística es requerido para ser un data scientist competente, pero esto requiere conocer al menos que es una regresión cuadrática y como interpretarla.

En la tercera pieza crítica (Substantive Expertise), que es la sustantiva es donde las creencias divergen entre uno y otro, pues más allá de las matemáticas, estadísticas y del machine learning, la ciencia es que sobre lo que descubres y como construyes conocimiento, lo cual requiere algunas preguntas de motivación sobre el mundo y las hipótesis al respecto.

Debe tenerse en cuenta que la demanda por los científicos de datos ha sido conducida mayormente por las compañías de Internet más grandes.

Google, Facebook, LinkedIn, y Amazon, todas ellas han construido sus marcas usando la data creativamente, no solo almacenándola, procesándola, segmentándola, etc. sino que la han transformado en algo de valor. Sea que el valor sea un resultado, una publicada focalizada, una relación sugerida o una compra que puede interesarle. Así el científico de datos, es alguien que produce datos que la gente desea y valora. Y no solo es del ámbito de compañías de Internet: Walmart por ejemplo, no produce productos de datos como tal, ellos son bien conocidos por el uso de la data para optimizar cada aspecto de sus operaciones retail.

Referencias adicionales

Data Scientist: El Científico de Datos
Si te gusto, comparte ...Email this to someone
email
Share on Facebook
Facebook
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin
Share on Google+
Google+
Etiquetado en:            

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Facebook
A %d blogueros les gusta esto: