Tag: Dark Data

Desde la llegada de Internet las compañías además de poseer datos internos estructurados y almacenados en Bases de Datos, manejan nuevos datos externos de diversas fuentes procedentes de Internet (redes sociales, noticias, open data, etc) y en formatos poco estructurados (PDF, html, imágenes, vídeos, etc). Estos últimos suponen casi un 80% del total de datos que puede manejar una compañía. A este tipo de datos desestructurados, se le conoce bajo el nombre de dark data (datos oscuros) y su análisis supone todo un reto.

Qué es Dark Data

En muchas ocasiones, para explicar qué es Dark Data (datos oscuros) utilizamos la imagen de un icerberg porque resulta más fácil de explicar y de entender. Observando el iceberg, podríamos decir que aquellos datos que posee una compañía de forma interna y estructura en sus base de datos es aquella información que se conoce y resulta «sencilla» de manejar -la parte del iceberg que se ve fuera del agua-. Por otro lado, toda la información externa de una compañía -datos desestructurados- es la que se desconoce y cuyo manejo es más complicado -la parte del iceberg que está sumergida en el agua-.  Este último tipo de datos es lo que se le llama Dark Data (el dato que no se ve) y que, muchas veces, las compañías ni siquiera se dan cuenta del poderoso conocimiento inherente que hay en estos datos.

¿Cómo sacar partido al Dark Data? 

El problema inherente al dark data es la inaccesibilidad de los datos y la dificultad para registrarlos y tratarlos. El objetivo de cualquier empresa es identificar oportunidades y en este caso, el Dark Data puede proporcionar información valiosa sobre nuevos clientes y/o negocios, descubrir nuevo conocimiento y tener una ventaja competitiva. Sin embargo, ¿cómo solucionar la desestructuración de datos para tener una ventaja competitiva? ¿cómo sacar partido al Dark Data? Lo podemos conseguir a través del siguiente procedimiento:

  • Extracción de datos con analítica avanzada (Business Analytics). Extraer  datos de diversas fuentes (redes sociales, sensores, open data, noticias, etc) y, a través de analítica avanzada, extraer la información importante y cruzar los datos para mejorar así la información obtenida. Existen varios tipos de analítica avanzada que os lo contamos en un post anterior: qué es business analytics
  • Homogenización de los datos. Sirve para llevar a cabo la limpieza de datos y consiste en separar la información en diferentes campo y unificar criterios para un mejor manejo y análisis de los datos. Como resultado obtendrás una estandarización o clasificación de la información extraída.
  • Enriquecimiento de los datos. Incorporar nuevos datos o datos internos ya existentes a los datos extraídos del Dark Data para así «enriquecerlos» (por ejemplo, incluir información geográfica, datos de clientes, etc)