En Big Data, el contexto lo es todo

Gestión de información

25 SEP 2017

La correlación no prueba la causalidad. Todos hemos escuchado esto un millón de veces. Pero a veces lo olvidamos, especialmente cuando se trata de proyectos de Big Data. El libro "Spurious Correlations" pone ejemplos de cómo relaciones mal construidas pueden dar conclusiones equívocas, como la relación entre el consumo de queso y los accidentes con enredos con la sábana (94,7 por ciento).

Dado que en Big Data impera la búsqueda de correlaciones entre los datos operacionales, el contexto debe ayudarnos a materializar esas premisas y esas conclusiones. En estos momentos podemos recoger una vertiginosa cantidad de datos relacionados con todo tipo de procesos de negocios: desde el número de camiones que llegan a cada muelle de carga hasta el número de pedidos procesados por minuto en cualquier día y hora, el número de reclamaciones de clientes recibidas el lunes siguiente a un fin de semana festivo.

Los nuevos procesadores y las bases de datos escalables permiten a operadores expertos explotar estos datos, buscando patrones dentro de los números: específicamente, correlaciones entre las variables operacionales. Descubriendo estos patrones, Big Data promete exponer complejas relaciones para desbloquear cuellos de botella y problemas operativos, permitiendo así una nueva era de productividad basada en datos.

El problema es que estas correlaciones son a menudo tan débiles como "el ingreso estimado por juegos de bingo por el número de hogares con plantas de interior (89,3 por ciento)". Es simplemente una cuestión de matemáticas.

Cuando se les da suficientes series de números, algunos conjuntos no relacionados pueden mostrar una correlación positiva - esto se llama coincidencia. Pero los profesionales de la gestión de la información deben determinar qué relaciones de datos son significativas y cuáles son simplemente coincidencias.

Es cierto que las soluciones de Big Data están empezando a usar el aprendizaje de máquinas para identificar correlaciones significativas, pero a pesar de la promesa de las nuevas capacidades de inteligencia artificial, sigue habiendo problemas inherente en el descubrimiento de información.

El problema es que se puedan establecer relaciones lógicas pero sin relevancia, lo que puede hacer que los motores de recomendación muestren sugerencias irrelevantes y que distraen.

Para ello, se recomienda el aprendizaje supervisado, de manera que las máquinas y herramientas aprendan cuáles son las relaciones interesantes y las que no. También existe lo que se denomina "small data" en forma de contexto.

El contexto proporciona la conciencia situacional que puede hacer que una situación aparentemente compleja se vuevla clara. Tal vez el ejemplo más simple de contexto es la ubicación. Google Now utiliza tu ubicación actual para proporcionar recomendaciones de búsqueda muy relevantes, como las empresas ubicadas a poca distancia.

Otras formas de contexto incluyen personas (por ejemplo, con quién trabajo) y hora (por ejemplo, citas de calendario superpuestas).

Descubre la innovación