¿Qué entendemos por Plataforma de Inteligencia basada en Datos?
Entendemos por Plataforma de Inteligencia basada en Datos, también llamadas Plataforma de Datos o Plataforma de Analítica de Datos, a un sistema informático que nos permite conseguir una ventaja competitiva a partir de la agregación de datos de fuentes diversas y del análisis de los mismos.
Los beneficios más habituales de una Plataforma de Datos suelen ser:
Por ejemplo, una Plataforma Inteligente de Procesamiento de Contenidos que permite reducir el esfuerzo manual de gestión de los contenidos como puede ser: preparar los contenidos, etiquetarlos, clasificarlos, etc.
¿Cuáles son los errores más habituales en los proyectos de Plataforma de Inteligencia basada en Datos?
1.- Falta de objetivos concretos y aterrizados.
El primer paso, es tener muy bien definidos y aterrizados los objetivos de la plataforma de datos. En muchos casos, nos encontramos con plataformas que parecen resolver cualquier necesidad de información. Estas plataformas poseen todo tipo de filtros, visualizaciones (ej. Power BI, Tableau, …), accesos a datos, etc. Pero al fin y al cabo, este tipo de plataformas que pretenden resolver todos los problemas acaban siendo un fracaso ya que muchas veces los usuarios suelen tener unas necesidades de información o de inteligencias concretas y estas plataformas tan genéricas requieren dedicar tiempo y esfuerzo para obtener la inteligencia que se necesita. Además, en ocasiones, esta inteligencia no se obtiene en unos formatos óptimos para su uso.
Para que lo anterior no nos pase, es fundamental haber definido muy bien el objetivo de la plataforma. Por supuesto, puede haber varios objetivos y en este caso, los debemos priorizar y centrarnos en aquellos más importantes. Así, es habitual que la regla de pareto de 80-20 también sea aplicable, es decir, debemos centrarnos en ese 20% de la plataforma que va a ser utilizado el 80% del tiempo, y dedicar todo nuestro esfuerzo a que ese 20% pueda ser usado de una forma muy eficiente por los usuarios de la plataforma de datos. Para ello, debemos de tener claro cuales son los objetivos principales de la plataforma y huir de la tentación de generar una “plataforma Frankenstein” que pretenda cubrir cualquier necesidad de golpe.
2.- No dedicar el tiempo suficiente a la selección y análisis de las fuentes.
En nuestra experiencia, nada puede aportar más a un proyecto de Inteligencia que una buena fuente de datos. Es asombroso que, en muchas ocasiones, a la selección de fuentes relevantes para un proyecto no se le dedique el tiempo suficiente.
A la hora de selección las fuentes de datos es clave investigar qué hay disponible (ej. open data) y, sobre todo, ser creativos. En muchos casos, la fuente de datos ideal no existe, pero si puede existir una fuente de datos que correlacione adecuadamente con esa fuente ideal y que si incorporamos a nuestro proyecto pueda ser el elemento diferencial para el éxito del mismo.
3.- No aprovechar los datos poco estructurados (esfuerzo y especialización)
Se calcula que más del 80% de los datos a los que podemos acceder son datos poco estructurados (imagen, html, pdf, texto, video, etc). En muchos casos el poder incorporar estos datos poco estructurados a nuestros proyectos puede marcar la diferencia entre el éxito y el fracaso.
Incorporar datos poco estructurados conlleva resolver distintos retos técnicos, algunos de ellos de gran complejidad. Pero en muchos proyectos merecen la pena este esfuerzo.
Es importante que contemos con proveedores (o recursos internos) que tengan experiencia en la puesta en valor de este tipo de datos y que sean capaces de evaluar el retorno que podemos obtener. Además, dependiendo del tipo del proyecto debemos contar con que el uso de datos poco estructurados introducirá incertidumbre en la información resultante (ejemplo, falsos positivos, falsos negativos) por lo que debemos diseñar adecuadamente como vamos a gestionar esta incertidumbre o errores que los datos poco estructurados pueden introducir.
4.- No diseñar adecuadamente la capa de interacción (visualización)
Si no has cometido el primer error y tienes bien definidos y aterrizados los objetivos de la Plataforma de Datos, es importante que diseñemos un interfaz adecuado para esos objetivos. Al final del día, la persona que va a utilizar la plataforma va a dedicar gran parte de su tiempo a unas pantallas concretas, por lo que es muy importante diseñar estas pantallas, claves para el éxito de la Plataforma de Datos, de la forma adecuada.
Cuántas veces nos hemos encontrado que la empresa ya dispone de una super herramienta (del estilo Power BI, Tableau, etc) que tiene que amortizar y que acaban forzando para que le sirva como interfaz de la Plataforma de Inteligencia, consiguiendo al final que todo el proyecto fracase al centrar su esfuerzo en amortizar la herramienta en lugar de centrarse en conseguir el objetivo marcado.
5.- Olvidar el valor que te pueden aportar las interacciones de tus usuarios.
Debemos diseñar una capa de interacción adecuada que nos permita capturar las interacciones de los usuarios con la plataforma. Estas interacciones son la materia prima clave para nuevas funcionalidades de inteligencia y debemos ser muy cuidadosos en que nuestra plataforma las recolecte de la forma adecuada y no encontrarnos, como en muchos casos sucede, que cuando se quieren utilizar no se han recopilado de la forma adecuada (formatos, falta de datos suficiente, etc). Es importante que contemos con proveedores (o recursos internos) que cuenten con la experiencia suficiente no solo para recopilar las interacciones, que esto podría hacerlo cualquier desarrollador web, sino en los modelos analíticos que harán uso de dichas interacciones de forma que podamos estar seguro de que no nos estamos dejando nada detrás.
6.- Reutilizar infraestructuras que no cumplen los objetivos y tiempos de respuesta.
Es habitual que la empresa (o la empresa de desarrollo de confianza) intente reutilizar la infraestructura con la que ya cuenta y por supuesto, esto no es malo. El problema es que en la mayoría de los proyectos de Inteligencia de Datos se requiere infraestructura específica que, en muchos casos, es diferente a la que la empresa dispone. Por lo que existe la tentación de adaptar el proyecto a la infraestructura disponible, lo que suele acabar en un fracaso.
Debemos de ser muy cuidadosos en la infraestructura a desplegar en función de los objetivos del proyecto. Así, si nuestro proyecto va a requerir realizar búsquedas sobre contenidos textuales, necesitaremos un buscador. Si vamos a trabajar con datos relacionados nos interesará una base de datos de grafos. Si trabajamos con documentos, nos puede interesar una base de datos NoSQL. Si vamos a utilizar modelos, nos puede interesar una capa de microservicios.
Es importante que contemos con proveedores (o recursos internos) con la experiencia suficiente para determinar qué infraestructura es adecuada para cada proyecto y dimensionarla de la forma más económica posible.
En el mes de mayo lanzamos la iniciativa «Plataforma de apoyo a la decisión para el COVID19» con el fin de poner en marcha una plataforma colaborativa de apoyo a la toma de decisiones para minimizar las consecuencias producidas por el Coronavirus. Asimismo, lanzabamos una llamada a la colaboración de empresas, organizaciones y/o instituciones públicas a participar en el proyecto, cuyos principales perfiles y datos necesarios para el mejor desarrollo de la iniciativa eran:
Esta llamada a la colaboración sigue en abierto y pueden contactar con nosotros en el formulario que aparece al final de este post.
El objetivo de esta plataforma de datos es ayudar a la toma de decisiones informadas, basadas en datos -valga la redundancia-, que permita incrementar la actividad económica minimizando los riesgos de contagio por el COVID-19. Para ello la plataforma será capaz de responder a preguntas como:
En un post anterior, explicábamos para qué sirve la plataforma con un un ejemplo gráfico. En esta ocasión, queremos mostrar una parte más técnica y explicar cómo funciona la Plataforma de apoyo a la decisión para el COVID19.
¿Cómo Funciona la Plataforma?
La plataforma, aprovecha datos de cualquier fuente relevante y los utiliza con un doble objetivo, por un lado, para aprender de ellos utilizando técnicas de inteligencia artificial y por otro lado recomendar las mejores decisiones a partir de los datos y del aprendizaje derivado de los mismos.
Para entender mejor su funcionamiento nos centramos en esta imagen, la cual describimos a continuación:
PASO UNO: Obtención de Datos de Fuentes Colaborativas
La plataforma incorpora datos de distintas fuentes relevantes sobre el COVID-19, desde resultados de análisis de centros de salud, a información proveniente de los corona detectives. Además, la plataforma dispone de datos procedentes de fuentes abiertas que son relevantes para los análisis: datos socidemograficos, meteorología, renta, …
PASO DOS: Integración de Datos
En este paso los datos provenientes de las distintas fuentes son puestos en común. Aquí es necesario que los datos hagan referencia a una misma escala temporal (ej. número de infectados por día) y espacial (ej. número de infectados por día en una determinada área) Los datos de las distintas fuentes, son integrados y puestos en un formato común, tanto espacial como temporalmente. Además en muchos casos también será necesario deiponer de fun
PASO TRES: Evaluación Escenarios
En este paso los datos integrados son utilizados con dos finalidades diferentes. Por un lado, modelos de Inteligencia Artificial, a partir de determinados factores (ej. sociodemografia de una zona, situación de contagios,…) “predicen” los parámetros que se utilizan en las simulaciones. Por otro lado, el simulador utilizando los parámetros obtenidos por el modelos de inteligencia, realiza simulaciones para cada área de estudio y acciones posibles, el resultado de todo esto son un conjunto de “escenarios”, cada uno de ellos correspondiente a realizar una acción (ej. confinar, restringir movilidad,…) en cada una de las áreas (ej. en cada código postal) y el simulador lo que obtiene es el “resultado” para cada escenario en términos de numero de contagios, numero de hospitalizado y defunciones en una ventana temporal.
PASO CUATRO: Recomendador Decisiones
En este paso los distintos escenarios y sus consecuencias, alimentan un modelo de optimización que una vez resuelto para un objetivo concreto (ej. minimizar el numero de defunciones en la ventana temporal) y unas restricciones (ej. capacidad de las UCI, capacidad de realizar tests,…). El resultado de esta optimización es la determinación de que acción aplicar en cada área, de forma que se pueda realizar con los medios disponibles y además permita minimizar nuestro objetivo (ej. minimizar las defunciones).
PASO CINCO: Interacción con la Plataforma
El usuario podrá acceder a las funcionalidades de la plataforma a través de una pagina web. Esta página permitirá al usuario evaluar distintas alternativas, visualizar los resultados sobre un Sistema de Información Geográfica y acceder a datos, KPIs y resultados de los modelos de inteligencia. Además existirá un mecanismo de feedback que permita capturar las interacciones del usuario con la plataforma, con el objetivo de mejorar la plataforma y hacer sus resultados mas relevantes.
¿Qué ventajas aporta la Plataforma de Apoyo a la Decisión?
¿Quieres colaborar?
Para participar o solicitar más información: