Analítica predictiva: ¿Se puede predecir el futuro?

Etiquetas: Análisis de datos

La analítica predictiva es un término paraguas que se usa para describir el proceso de aplicar varias técnicas computacionales con el objetivo de establecer algunas predicciones acerca del futuro, basándose en datos pasados. Esto abarca una variedad de técnicas que incluye la minería de datos (Data Mininig), el modelaje, el reconocimiento de patrones o la visualización de datos entre otras.

¿Significa esto que podemos predecir los números de la Lotería del Niño con los números ganadores de otros años? Tristemente no, pero si alguien quiere demostrarnos que estamos equivocados, necesitará al menos tres demostraciones en directo para convencernos.

Dado que el campo de estudio de la analítica predictiva es muy amplio, no entraremos en mucho detalle; pero sí vamos a enumerar los pasos básicos del proceso general a la hora de realizar predicciones con datos históricos.

 

1) Obtener los datos

El primer paso del proceso es, generalmente, recolectar y filtrar los datos (Data Mining). A menudo, las fuentes de datos son extensas y están desestructuradas. Por eso, este proceso trata de extraer datos estructurados de las distintas fuentes. En este sentido, es importante que dichas fuentes sean relevantes y de confianza.

 

2) Analizar los datos

En este punto, hay que fijarse en el contenido de los datos, lo que en sí mismo puede ser un reto. Por ejemplo, si intentas establecer una predicción sobre tu propia salud, ¿qué información deberías tener en cuenta?: ¿Fumas? ¿Cuál es tu color preferido? ¿Dónde trabajas? A menudo, determinar qué es relevante y qué no, puede resultar complicado. A la hora de limpiar los datos, es preciso emplear técnicas de procesado y filtrado apropiadas.

También es importante asegurar la buena calidad de los datos. Una fuente fiable en sí misma no asegura esa calidad necesaria. ¿Qué ocurre si utilizas datos de Wikipedia justo el día que a un vándalo le pareció divertido corromperlos? Es recomendable contrastar la información mediante un análisis que permita detectar datos cuestionables.

 

3) Modelado de los datos

Este paso es fundamental porque permite estructurar los datos de una forma en la que se pueden reconocer patrones que, potencialmente, ayudan a tus datos a extraer tendencias de futuro. Los modelos permiten describir y explicar los datos de una manera más formal. Lo cual, es de gran ayuda para entender los resultados que se obtienen del análisis de datos; pero también es un buen punto de partida a la hora de visualizar los resultados.

Al igual que en la extracción de los datos, los modelos deben pasar por el mismo escrutinio. Deberías asegurar que tus modelos son una representación válida de la cuestión que estás intentando predecir. Consultarlo con expertos en la materia puede ser una buena idea: ¿quieres predecir la inflación en los próximos años? Bueno, entonces deberías hablar con un economista antes de definir el modelo.

 

4) Predecir el futuro

Los datos se han extraído, limpiado, comprobado su calidad y finalmente, encajan en tu modelo. Es el momento de echar ojo a la bola de cristal y predecir el futuro… Bueno, espera. Hay muchas bolas de cristal para usar y ninguna asegura el éxito.

Aquí es donde se abre el gran campo del aprendizaje automático (Machine Learning). Hay varias formas de empezar a reconocer patrones en los datos; y de explotar esos patrones. Redes neuronales (RNA), regresión lineal, redes bayesianas (Red de Creencia), aprendizaje profundo (Deep Learning): todas estas y muchas más pueden ayudar a hacer predicciones.

Afortunadamente, el análisis de datos se está haciendo tan importante en los últimos tiempos que todo este tipo de herramientas están disponibles como simples programas. Esto significa que es mucho más fácil analizar los datos sin la necesidad de entender cómo funciona la bola de cristal.

 

Si no puedo predecir la Lotería, ¿por qué preocuparme?

No puedes predecir la Lotería porque es algo puramente aleatorio; pero hay multitud de cosas en la vida que no lo son y pueden ser predecibles en algún modo. La analítica predictiva afecta, por ejemplo, a cualquiera que tenga un seguro: las primas que paga no se establecen por un generador de números al azar, sino por la predicción del riesgo en la vida de dicha persona y cómo se ha evadido o no ese riesgo en el pasado.

La analítica predictiva juega un papel relevante también en la gestión de proyectos. Cualquier proyecto a largo plazo puede fracasar y estimar esa probabilidad de fallo es importante a la hora de decidir si debería abordarse o no (y a qué precio o con qué tipo de penalizaciones). Antes de los tiempos de la analítica predictiva, se confiaba en la experiencia y el instinto profesional; pero ahora se puede medir las posibilidades de éxito con estas técnicas.

En IGN tenemos experiencia en la realización de predicciones con Qlik, una herramienta que nos permite estimar las ventas a futuro en una compañía o calcular las necesidades de compra de materia prima (ver ejemplo en una empresa de estampación de metal), entre otras cuestiones.

La cantidad de aplicaciones aquí son incontables, pero una de las razones que hacen que merezca la pena adentrarse en este campo es la advertencia. Nos vamos a poner en plan idealistas en este punto: imagina que podemos hacer predicciones de una forma realmente amplia y precisa. ¿Qué fallos podríamos haber evitado? Ataques terroristas, la crisis de las subprime en 2007, la epidemia del ébola… las Guerras Mundiales. ¿Podremos evitar los del futuro?

 


 Adaptación realizada a partir de la traducción de un artículo de Raphaelle RF en Data Science Central.