Desde la llegada de Internet las compañías además de poseer datos internos estructurados y almacenados en Bases de Datos, manejan nuevos datos externos de diversas fuentes procedentes de Internet (redes sociales, noticias, open data, etc) y en formatos poco estructurados (PDF, html, imágenes, vídeos, etc). Estos últimos suponen casi un 80% del total de datos que puede manejar una compañía. A este tipo de datos desestructurados, se le conoce bajo el nombre de dark data (datos oscuros) y su análisis supone todo un reto.
Qué es Dark Data
En muchas ocasiones, para explicar qué es Dark Data (datos oscuros) utilizamos la imagen de un icerberg porque resulta más fácil de explicar y de entender. Observando el iceberg, podríamos decir que aquellos datos que posee una compañía de forma interna y estructura en sus base de datos es aquella información que se conoce y resulta «sencilla» de manejar -la parte del iceberg que se ve fuera del agua-. Por otro lado, toda la información externa de una compañía -datos desestructurados- es la que se desconoce y cuyo manejo es más complicado -la parte del iceberg que está sumergida en el agua-. Este último tipo de datos es lo que se le llama Dark Data (el dato que no se ve) y que, muchas veces, las compañías ni siquiera se dan cuenta del poderoso conocimiento inherente que hay en estos datos.
¿Cómo sacar partido al Dark Data?
El problema inherente al dark data es la inaccesibilidad de los datos y la dificultad para registrarlos y tratarlos. El objetivo de cualquier empresa es identificar oportunidades y en este caso, el Dark Data puede proporcionar información valiosa sobre nuevos clientes y/o negocios, descubrir nuevo conocimiento y tener una ventaja competitiva. Sin embargo, ¿cómo solucionar la desestructuración de datos para tener una ventaja competitiva? ¿cómo sacar partido al Dark Data? Lo podemos conseguir a través del siguiente procedimiento:
En este post incluimos algunos ejemplos de proyectos relacionados con la minería web en los que ITelligent ha participado. Estos proyectos pueden dar una estupenda idea de cómo se puede emplear la minería web que explicábamos en un post anterior.
Inteligencia Comercial para el sector Fotovoltaico y Termosolar
Este proyecto consistió en la obtención de inteligencia comercial para el sector fotovoltaico y termo-solar, el resultado fue un sistema que permite a sus usuarios obtener una ventaja competitiva gracias a que el sistema les permite monitorizar todos los proyectos de energía solar que se publican en España y disponer para cada uno de ellos de una información lista para ser aprovechada comercialmente.
Para este proyecto se desarrolló un «pipeline» muy complejo que a continuación se describe:
Sistema de Minería de Opinión para el sector Automovilístico
En este proyecto el cliente requería la monitorización de diversas páginas web de automóviles con contenidos subjetivos (comentarios) y la extracción de inteligencia de estos comentarios. El resultado es un sistema que permite determinar de cada automóvil del que se habla, de que elemento del mismo se habla (ej. seguridad, conducción, habitáculo) y si se habla positivamente o negativamente.
Inicialmente el cliente indicó las características que quería estudiar de los automóviles (ej. precio, habitáculo, servicio, seguridad, …) y las páginas web que deseaba monitorizar. Una vez definido lo anterior se desarrolló, en colaboración con los profesores de la Universidad de Sevilla doctores José Antonio Troyano y Fermín Cruz, el sistema que a continuación se describe:
Inteligencia Competitiva para Ayudas y Subvenciones
En este proyecto el cliente necesitaba obtener todas las ayudas que diariamente se publican en España (sobre 30.000 ayudas al año), clasificarlas y obtener una ficha de cada una de las convocatorias, automatizando lo más posible con vistas a minimizar el esfuerzo manual. El cliente permite ofrecer a sus usuarios una información muy completa de todas las ayudas y subvenciones casi en tiempo real.
Inicialmente el cliente definió como deberían ser clasificadas cada una de las ayudas localizadas, esta clasificación jerárquica permite posteriormente filtrar y crear alertas. Además para cada una de las convocatorias de ayudas se crea una plantilla con diversos campos (ej. plazo, objeto de la convocatoria, …), que permite disponer de una información homogenizada.
Para este proyecto se desarrolló un «pipeline» muy complejo que a continuación se describe: