Analítica predictiva aplicada y visualización de datos

Dejando que los datos narren (del "data mining" al "data meaning")

Todos los días tomamos decisiones sobre la marcha. Desde qué vamos a desayunar hasta qué colectivo es mejor tomar para llegar a algún lado. Las hacemos muy rápidamente y por lo general sin pensar mucho o sin considerar muchas opciones. Pasamos del problema a la solución casi automáticamente. Pero ¿qué tal cuando se trata de decisiones de gran peso? La búsqueda de las mejores opciones para tales situaciones es a lo que se dedica el campo de la analítica predictiva. Esta disciplina engloba una variedad de técnicas tales como la estadística, el modelado, el “machine learning” y la minería de datos (o data mining) para analizar hechos actuales y pasados, para hacer predicciones acerca del futuro u otros eventos inciertos. Los modelos resultantes capturan relaciones entre los diferentes factores para facilitar la evaluación de los riesgos y beneficios asociados con un conjunto particular de condiciones, que son utilizados para orientar la toma de decisiones.

La historia de la analítica predictiva nos remite a una serie de sucesos que se fueron sumando hasta dar con la madurez de la disciplina tal como la conocemos hoy. El primer evento a destacar fue la fundación de la Econometric Society en los años 30. Autodefinida como una “sociedad internacional para el avance de la teoría económica en su relación con las matemáticas y la estadística“, se dedicó a curar y organizar aquellas herramientas matemáticas que luego serían aprovechadas computacionalmente. Desde los años 60 la capacidad de procesamiento de datos fue mejorando. Luego, desde fines de los años 70, con la aparición de las primeras bases de datos relacionales comenzó a crecer exponencialmente la capacidad para almacenar datos estructurados.

Para cumplir con un último requerimiento -la creación o recuperación de datos- se utilizan las redes sociales, las métricas no intrusivas y los distintos sistemas de estadística incorporados por las empresas. Estas tecnologías, que suelen representar bajo costo, son muy comunes y permiten a los investigadores recuperar información útil acerca de las vidas y hábitos de las personas.

Más allá del origen en el ámbito corporativo o financiero, la analítica predictiva escapó de sus límites y adquirió un rol protagónico para la toma de decisiones críticas en ciertos escenarios. Por ejemplo, el análisis de los patrones de conducta de las personas en un escenario de crisis podría dar información indispensable para mejorar las políticas de control de situaciones límite como el advenimiento de un huracán.

En este punto es donde la visualización de la información hace su aparición y tiende el puente entre los datos y la capacidad de interpretación humana de los mismos. Esto nos permite ver un panorama más completo de la situación (por los datos que manejamos), hacer mejores preguntas para resolver la situación (por el análisis llevado a cabo) y tomar decisiones de forma más rápida y efectiva (porque finalmente estamos mucho mejor equipados para evaluar).

Predicción de alocación de recursos geográficamente

Predicción de alocación de recursos geográficamente.

La visualización de datos aplicada a catástrofes

En octubre de 2012 cuando el huracán Sandy hizo su paso por Nueva York haciendo estragos millonarios, mucho eco se hizo de una imagen que Foursquare subió en su sitio web. Esta imagen mostraba cómo cambian los patrones de “check-in” durante un evento de tal magnitud.

sandy

El impacto que tuvo la imagen motivó al equipo de Foursquare a preparar el siguiente “timelapse” del bajo Manhattan, que comienza el sábado 27 de octubre antes de la tormenta y termina el lunes 5 de noviembre por la mañana, cuando ya comenzaba a restablecerse la electricidad en gran parte del centro. Más allá de los altibajos esperables en el flujo de personas durante el día y la noche a lo largo de la semana, se puede notar cómo entre el martes y el viernes el número de check-ins disminuyó drásticamente debajo de la calle 34, seguramente debido a que prácticamente toda esa zona estuvo a oscuras.

Esta información, si bien está limitada por, entre otras cosas, la voluntad de las personas de hacer check-in, es información fundamental y de primera mano para conocer qué es lo que efectivamente sucedió respecto del tránsito de las personas durante la catástrofe y de qué manera es que orgánicamente se vuelve al ritmo normal de la ciudad.

Sergey Brin y su cruzada contra el Parkinson

Hace algunos años Sergey Brin, el co-fundador de Google, comenzó una campaña para encontrar la cura del mal de Parkinson. Motivado por el historial de la enfermedad en su familia. donó más de 130 millones de dólares (de un total esperado de mil millones de dólares) a través de la fundación de Michael J. Fox para la investigación del Parkinson, que fueron destinados a cubrir costos de operación e investigación.

Con este inmenso apoyo monetario lo que se pretende es lograr la consolidación de una base de datos que contenga la información genética de miles de pacientes con Parkinson, de tal manera que, analítica predictiva de por medio, sea posible encontrar patrones genéticos e identificar posibles tratamientos en consecuencia. La idea que subyace es que a través de la evaluación de colecciones masivas de material genético se pueda encontrar aquellas regularidades que median en la manifestación del Parkinson de tal manera de poder desarrollar tratamientos y predecir diagnósticos o índices de incidencia.

Tal es la efectividad del cruce entre medicina y computación que los resultados no se hicieron esperar y el año pasado se encontraró que a pesar de poseer el gen LRRK2 -la mutación genética que se ha asociado con mayores probabilidades de desarrollar Parkinson- algunas personas no contraían la enfermedad por la presencia de otro gen que funciona como “protección”. La idea es desarrollar drogas para el tratamiento a partir de estos descubrimientos.

A través de la aplicación iterada de algoritmos que analizan, muchas veces desde distintos acercamientos, a estos grandes conjuntos de datos es que se pasa de meros datos archivados a vistosas visualizaciones que nos permiten inferir heurísticamente complejos comportamientos. Por ejemplo, en el siguiente video que muestra la visualización a través del tiempo de los tweets escritos acerca del 15 M (2011) en España puede verse claramente cómo a las 15 horas cesa toda la actividad, y eso se repite todos los días. Como alguien en los comentarios indicaba: a esa hora se almuerza. 

Visualización de Tweets en 15 M

2 Responses to “Analítica predictiva aplicada y visualización de datos”

  1. Imperdibles (abril 6th – 14:27 – 17:34) » Hipertextos [desde La Plata]

    […] Analítica predictiva aplicada y visualización de datos – Todos los días tomamos decisiones sobre la marcha. Desde qué vamos a desayunar hasta qué colectivo es mejor tomar para llegar a algún lado. Las hacemos muy rápidamente y por lo general sin pensar mucho o sin considerar muchas opciones. Pasamos del problema a la solución casi automáticamente. Pero ¿qué tal cuando se trata de decisiones de gran peso? La búsqueda de las mejores opciones para tales situaciones es a lo que se dedica el campo de la analítica predictiva. Esta disciplina engloba una variedad de técnicas tales como la estadística, el modelado, el “machine learning” y la minería de datos (o data mining) para analizar hechos actuales y pasados, para hacer predicciones acerca del futuro u otros eventos inciertos. Los modelos resultantes capturan relaciones entre los diferentes factores para facilitar la evaluación de los riesgos y beneficios asociados con un conjunto particular de condiciones, que son utilizados para orientar la toma de decisiones. […]

    Responder

Deja un comentario

 

Últimos artículos

Big Brain Project

Todos somos inventores*

Abrir la caja negra