Les dificultats d'interpretar les dades del 'big data'.




Hay que entender es que existe una gran distancia entre los datos y la información. Producimos una inmensa cantidad de datos, pero eso no significa que estemos haciendo más o mejor información. Por ejemplo: gracias al procesador de texto, hoy en día escribir es más fácil que nunca, si lo comparamos con el esfuerzo que tenía que hacer Cervantes para escribir. Pero no estamos haciendo más literatura de calidad que en tiempos de Cervantes. Yo creo que podemos aprender mucho de los datos, pero se ha sobrevendido su potencial de tener un contenido informativo.

Hay muchas cosas que la tecnología no te puede hacer. Las estadísticas te dicen que la mayoría de los que mueren ahogados en el océano son muy buenos nadadores. Con esos datos en la mano, si te preguntas si debes enseñar a tus hijos a nadar, la respuesta es no. Y no hay tecnología que puedas usar ni datos que puedas recolectar que expliquen la decisión de quien fuera que saliese a nadar y se pusiera a sí mismo en peligro. Puede que haya sobreestimado su habilidad, ¡pero eso no lo puedo saber! ¿Qué solución te propone el big data? Agarrar a todos los niños de Madrid, tirarles a cinco kilómetros de la costa y llegar a la conclusión, correcta, de que el que nada peor se ahoga antes y que no saber nadar no te salva de morir ahogado, así que hay que enseñar a los niños a nadar. Pero no creo que debiéramos llegar a ese punto para tener esa respuesta [ríe]. Hay más fondos de capital riesgo que han quebrado tras usar big data que fondos que han triunfado. Y estamos hablando del sector financiero: gente muy inteligente.

Me parece un error gravísimo la gente que dice que los datos hablan por sí solos: los datos nunca hablan por sí solos. Los datos son como los criminales: puedes hacerlos confesar, pero no siempre te van a dar la información que tú quieres.

Lo que tratamos es buscar la información más relevante; por ejemplo, lo que hacemos con los precios. Junto a Alberto Cavallo, otro profesor en el MIT, llevamos 12 años coordinando un proyecto de mejorar la recolección de datos estadísticos a través de las nuevas tecnologías. Pongamos el caso de Amazon, que vende cerca de 53 millones de productos. Imagínate que quiero medir cuánto han cambiado los precios en Amazon. Yo tengo la capacidad de bajar toda esa información; no me supone ningún problema. Pero algo más de 22 millones de esos productos son libros o música. Y solo 500 de esos libros representan más del 90% de las ventas. Yo solo necesito esos 500 libros para obtener un dato relevante. ¿Para qué bajarse el resto? Es totalmente inútil. Es un ejemplo de que no se trata de fuerza bruta.

No hay una carrera universitaria de análisis de datos. Y quien se dedique a esto va a necesitar un poco de conocimiento de ingeniería técnica, un poco de economía, un poco de sociología, un poco de psicología... y eso todavía no existe.

Que estamos hablando de la revolución de datos, pero en muchos casos falta conocimiento a la hora de saber qué es información. Una empresa te puede recoger un montón de datos y vendértelos. Tú, como no tienes ni idea, te crees que con esos datos puedes aprender de todo. Pero cuando no hay gente que sepa cómo preguntar a esos datos, se hacen preguntas al azar. Y cuando haces preguntas al azar, obtienes respuestas al azar. Si lo único que te han vendido es un par de correlaciones mal hechas, tomas decisiones equivocadas basadas en esos datos. Y fracasas. Hay gente invirtiendo muchísimo dinero en recolectar datos, pero no saben que cuando más datos tienes más difícil es procesarlos, y se quedan sentados sin saber qué hacer con ellos. Eso son recursos que se pierden.El problema es que, ahora mismo, las empresas que saben usar los datos de forma eficiente son como cinco”

Thiago Ferrer Morini, entrevista a Roberto Rigobon (extracto): "El tener más datos no quiere decir que haya mejor información", Negocios. El País, 26/10/2014

Comentaris

Entrades populars d'aquest blog

Percepció i selecció natural 2.

Freud: la geneologia de la moral.