ITELLIGENT

Hibridación de datos y su aplicación en la Industria 4.0

Post sobre:

Escrito por:

Martel, Jaime
17/10/2018

Por Jaime Martel Romero-Valdespino es CTO en  Intelligent Information Technologies SL
LinkedIn

Recuerdo que a finales de los 90s desarrollando un proyecto de Revenue Management para el sector hotelero, cuyo primer componente era un sistema de predicción de la demanda para las habitaciones del hotel, me sorprendió que dichos modelos de predicción no tuviesen en cuenta los precios de hoteles cercanos de la competencia que ya estaban disponibles en las plataformas webs. Mucho más sorprendente es que después de casi 20 años me siga encontrando con empresas en distintas áreas que todavía continúen sin sacarle partido al gran volumen de datos que tienen a su disposición. En este artículo se intenta arrojar un poco de luz en cómo sacar partido a distintas fuentes de datos, mediante la hibridación de datos de distintas fuentes y en particular como los puede aprovechar la industria en sus plantas de producción.

Datos internos, datos externos, datos estructurados y poco estructurados

Hasta la llegada de Internet, las empresa tenían a su disposición principalmente datos procedentes de su propia actividad (compras, ventas, nominas, contabilidad, …) a este tipo de datos propios de cada empresas los denominaremos datos internos. La llegada de Internet pone a disposición de las organizaciones una gran cantidad de datos externos de gran interés (precios de la competencia, catalogo de productos de la competencia, opiniones de productos, licitaciones y ayudas públicas,….). Las empresas que se disponen a sacar partido a estos datos (ej. inteligencia competitiva, inteligencia comercial,…) observan que no es nada fácil utilizar estos datos externos. En muchos casos estos datos están en formatos complejos de utilizar (ej. textos, pdfs, audio, video, …) y en otros, existen ambigüedades inherentes (ej. el nombre de un mismo producto en un página web es diferente que el nombre en el sistema de gestión de la empresa). Generalmente,  estas dificultades obedecen a que la mayor parte de estos datos externos están en mayor o menor medida poco estructurados en comparación con los datos internos que suelen ser datos estructurados en sistemas que facilitan su uso automático (bases de datos, hojas de Excel,…).

Hibridación de Datos

Aunque siempre cabe la posibilidad de recopilar datos poco estructurados de forma manual, por ejemplo, recopilar precios de la competencia de páginas webs o fotos de productos de interés en redes sociales; lo interesante es recopilar los datos poco estructurados de forma automatiza y “unirlos” al resto de los datos para poder generar “inteligencia”. A esto último lo llamamos, “hibridación de datos”, aquellos procesos que permiten generar de un conjunto de datos único y listo para ser utilizado desde herramientas informáticas, a partir de fuentes de datos heterogéneas y con distintos grados de estructuración. A partir de nuestra experiencia en la  “hibridación de datos”, podemos afirmar ésta debe requerir al menos cuatro pasos:

  1. ESTRUCTURACIÓN DE DATOS. Si los datos son poco estructurados –por ejemplo, textos en formato libre, imágenes, etc.- antes de utilizarlos hace falta conseguir una representación que permitan su uso. En muchos casos, esto requiere la utilización de técnicas de Procesamiento del Lenguaje Natural o PLN –por ejemplo, clasificar un conjunto de tweets en distintas categorías según su contenido- o nuevas técnicas de Deep learning –por ejemplo, para obtener una representación de imágenes que permitan su utilización en modelos analíticos-.
  2. HOMOGENIZACIÓN DE DATOS. Es necesario “normalizar” los datos. Esto se refiere, por ejemplo, pasar a mililitros el volumen de bebidas obtenidas de una página web u obtener las temperaturas horarias a partir de las máximas y mínimas diarias obtenidas de la AEMET.
  3. ARMONIZACIÓN DE DATOS. Las distintas fuentes de datos hace falta “ponerlas en común” o “enlazarlas”. Un ejemplo podría ser tener dos series temporales procedentes de distintos sensores con frecuencias diferentes y decidir “unirlas” en una base común como agregando los datos de la serie de mayor frecuencia, por ejemplo. En otros casos, pueden hacer falta modelos de Product Matching como cuando se tienen datos de productos procedentes de webs diferentes y debemos ser capaces de saber que productos son equivalentes en ambas webs.
  4. ENRIQUECIMIENTO DE DATOS. En algunos casos se puede disponer de fuentes que son fáciles de “enlazar”, por lo que no hablamos de armonización si no de enriquecimiento. De esta forma, si disponemos de la referencia catastral de una parcela, podemos fácilmente obtener del catastro sus datos. A esto le llamamos enriquecimiento.

Aplicación en la Industria 4.0

Actualmente, la hibridación de datos en el sector industrial está mucho menos presente que en otros sectores como servicios o retail. Además, para obtener cierta “inteligencia” que suponga una ventaja competitiva para la empresa, en el sector industrial se suele “hibridar” datos con el objetivo de explicar o predecir la demanda. Esto suele hacerse mediante la hibridación de datos internos de ventas de productos o servicios con los datos externos de diversas fuentes –tales como meteorología, geodemografía, trafico, festivos, etc.-. Por norma general, estos proyectos suelen estar orientados a la mejora de la logística, distribución, desarrollo de negocio, inteligencia comercial o como sistema de previsión de demanda para la planificación de la producción.

Salvando el caso de previsión de demanda, dentro de las plantas industriales suele ser mucho menos habitual encontrar casos “potentes” de hibridación de datos. En general, los sistemas de información no suelen estar integrados y cuando lo están, suele ser una integración encaminada a un propósito operativo (ej. trazabilidad) y no a la obtención de unos datos de calidad que permitan su uso por sistemas de inteligencia. Desgraciadamente, cualquier avance para generar plantas industriales más inteligentes estará cimentado en la disponibilidad de datos de calidad sobre su actividad. Por lo que es prioritario disponer de repositorios de datos de los procesos productivos correctamente hibridados.

Otras entradas de esta categoría

¿Quieres aportar nueva información o hacernos un comentario?

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *