En muchas ocasiones, cuando hablamos de reputación online, aparece el concepto de “análisis de sentimiento” pero, ¿sabemos realmente qué significa? El análisis de sentimiento se refiere a los diferentes métodos de lingüística computacional que ayudan a identificar y extraer información subjetiva del contenido existente en el mundo digital (redes sociales, foros, webs, etc.). Gracias al análisis del sentimiento, podemos ser capaces de extraer un valor tangible y directo, como puede ser determinar si un texto extraído de la red Internet contiene connotaciones positivas o negativas.
El análisis de sentimientos, también conocido como minería de opinión, se trata de una tarea de clasificación masiva de documentos de manera automática, que se centra en catalogar los documentos en función de la connotación positiva o negativa del lenguaje ocupado en el mismo.
Con las redes sociales, los usuarios tienen hoy en día todo tipo de facilidades para mostrar sus opiniones sobre cualquier tema que deseen. Tener constancia sobre las opiniones referentes a una marca o producto y medir su impacto es actualmente de vital importancia para todas las empresas, ya que es tu imagen lo que está en juego.
A toda la información que se recopila de esta forma se le denomina minería de opinión (opinión mining) y gracias a ella, las empresas tienen una inmediata disponibilidad de la información deseada. Además, la minería de opinión no solo permite responder “qué opinan los internautas sobre su propia marca o producto” sino que facilita, mediante los medios adecuados, obtener ventajas competitivas en diferentes ámbitos.
Gracias al análisis de sentimiento o minería de opinión podemos recopilar información suficiente para conocer qué piensa o qué opinan los usuarios (o target) en la red Internet.
En las redes sociales y en la red en general se encuentran multitud de textos, en los cuales deben aplicarse subjetividad y no únicamente clasificarlos según su naturaleza o procedencia. Existen dos formas de enfrentarse al análisis de sentimientos: aplicando un enfoque semántica o aplicando un aprendizaje automático (Eugenio Martínez Cámara, Mª Teresa Martín Valdivia, L. Alfonso Ureña).
Cómo funciona el análisis de sentimiento
Qué limitaciones posee el análisis de sentimiento automatizado
Exactamente no hay ningún método de combinar correctamente las diferentes palabras a utilizar para que el anáisis de sentimiento sea 100% fiable.
Los sistemas que se limitan a la configuración y extracción de contenido con palabras clave son incapaces de generar resultados satisfactorios de análisis de sentimiento en su totalidad. Esto viene dado por la complejidad del idioma humano. Por ejemplo, ¿cómo le inculcas a un robot la capacidad de definir si una frase es realizada con sarcasmo o no?
Anteriormente hemos mencionado el término “perfecto” cómo un adjetivo positivo pero, dependiendo del contexto, este podría cambiar todo el significado de la frase. De esta manera, podría surgir un mensaje que dijera lo siguiente: “Perfecto mensaje a favor del machismo, os habéis lucido”. Este mensaje debería ir entonces clasificado como negativo.
Por este motivo, muchos algoritmos cometen errores, encontrándose con la imposibilidad de fijar una longitud exacta del comentario o la intención real que lleva una determinada palabra. Es decir, no son capaces de inferir de una valoración exacta de las diferentes relaciones semánticas, y se puede afirmar que actualmente es imposible conseguir un 100% de éxito en este campo.
Sin embargo, los sistemas de análisis del sentimiento más avanzados son capaces de luchar con estos posibles errores y ofrecer resultados más ajustados.
Cómo son las plataformas para análisis del sentimiento
Es aquí donde entra en juego el aprendizaje automático (machine learning). Este término hace referencia a la creación de sistemas a través de la Inteligencia Artificial, donde lo que realmente aprende es un algoritmo, el cual supervisa los datos con la intención anteriormente mencionada: poder predecir comportamientos futuros.
Esa cantidad ingente de datos son imposibles de analizar por una persona para sacar conclusiones y menos todavía para hacer predicciones. Los algoritmos, correctamente utilizados, en cambio, sí pueden detectar patrones de comportamiento.
Existen herramientas de monitorización de las redes sociales como NetOpinion que hacen de esta tarea sea sumamente fácil y rápida, por su capacidad de monitorizar en tiempo real y su gestión y procedimientos en la supervisión de los datos.
Normalmente, la estructura utilizada para la organización adecuada de los datos son los árboles binarios, a través de los cuales se pueden establecer los tres patrones de comportamiento ya comentados (positivo, neutro y negativo). Con esta estructura se van observando comportamientos, y cuando ya se han recopilado una cantidad de datos importante, el algoritmo ofrecerá un tanto por ciento de posibilidad de predecir un comportamiento u otro.
La cantidad de datos que se generan actualmente en las empresas está creciendo a un ritmo impresionante, y obtener información útil y valiosa de ellos supone una ventaja competitiva muy importante respecto a los competidores. Pero, ¿cómo es realmente el proceso?
Se realizan los siguientes pasos:
Para qué sirve el análisis de sentimiento
La minería web tiene como objeto descubrir información útil o el conocimiento (KNOWLEDGE) procedente de la estructura de hipervínculo web, contenido de la página y datos de usuario. Aunque la minería web utiliza muchas técnicas de minería de datos, no es meramente una aplicación de técnicas de minería de datos tradicionales, debido a la heterogeneidad y la naturaleza semi-estructurada o no estructurada de los datos de la web.
Muchas de las nuevas tareas de minería y algoritmos actuales fueron inventados en la pasada década. Basados en los principales tipos de información utilizados en el proceso de minería. Las tareas de minería web se pueden clasificar en tres tipos: estructura web de minería o web structure mining, extracción de contenido web o web content mining y la minería de uso web o web usage mining.
Web Usage Mining o Minería de Uso Web
En este post, nos centramos en la minería de uso web o web usage mining, para dar respuesta a qué es y en qué consiste este proceso. En primer lugar, debemos tener en cuenta que la Web Usage Mining tiene como objeto de estudio al usuario que navega en una página, a diferencia de web content mining y web strutcture mining que están enfocadas al estudio de la estructura y contenido de la website en sí misma. Este tipo de minería -web usage mining- tiene como objetivo: captar, modelar y analizar los patrones de comportamiento y los perfiles de los usuarios que interactúan con una web site. Estos patrones aportan datos de gran interés ya que se pueden utilizar para tener una mejor comprensión del comportamiento de grupos de usuarios con necesidades o intereses comunes dentro de una Web.
De esta forma, gracias a esta información dada con este tipo de minería web, se pueden tomar decisiones en el entorno de la Web, tales como:
Web Usage Mining se refiere a la detección y análisis automático de patrones en clickstreams, transacciones de usuario y otros datos asociados, recopilados o generados como resultado de las interacciones del usuario con los recursos web sobre uno o más sitios web.
Por tanto, el análisis de estos datos -información recopilada en torno a las conductas en la web de los usuarios-, puede ayudar al sector e-commerce (comercio electrónico) e inteligencia empresarial para:
Fuentes y tipos de datos en web usage mining
Ya tenemos una breve idea de qué consiste la minería web usage pero, si nos adentramos en términos técnicos, ¿qué fuentes y tipos de datos podemos obtener de esta minería web?
La principal fuente de datos usados en la web usage mining son los ficheros de logs de los servidores, access log, application logs, etc. Otras fuentes de datos adicionales, también esenciales para la preparación de datos y descubrir patrones, son: los archivos del sitio y meta-datos, bases de datos plantilla de aplicaciones y dominios inteligentes.
Los datos obtenidos a través de diversas fuentes se pueden clasificar en cuatro grupos principales.
Otras publicaciones en nuestro blog que pueden interesarte sobre Minería Web:
Bibligrafía recomendada:
LIU, BING (2007): WEB DATA MINING Exploring Hyperlinks, contents and usage data. Berlín: Ed. Springer Science & Business Media.
Knowledge Discovery in Database
Data Mining (minería de datos) es también conocida como Knowledge Discovery in database (KDD). Es comúnmente definida como el proceso para descubrir patrones útiles o conocimientos a partir de fuentes de datos tales como Bases de Datos, textos, imágenes, la web, etc. Los patrones deben ser válidos, potencialmente útiles y entendibles. La minería de datos es un campo multidisciplinar que incluye: aprendizaje automático, estadísticas, sistemas de base de datos, inteligencia artificial, Information Retrieval, visualización de la información, … El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Existen muchas técnica dentro de data mining. Existen muchas tareas de data mining. Algunos de los más comunes consisten en el aprendizaje supervisado, aprendizaje no supervisado, minería de asociación de reglas y minería de secuencia (1).
En resumen, la minería de datos es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
10 VENTAJAS DEL USO DE MINERÍA DE DATOS
Sin embargo, también existen pequeños inconvenientes en el uso de técnicas de minería de datos, tales como:
¿Quieres saber más sobre Data Mining o Minería Web?
Te recomendamos que eches un vistazo a estas dos publicaciones en nuestro blog:
O también, puedes leer este libro, como parte de la bibliografía consultada para este post: (1) LIU, BING (2007): WEB DATA MINING Exploring Hyperlinks, contents and usage data. Berlín: Ed. Springer Science & Business Media.