Tag: minería de datos

0

En muchas ocasiones, cuando hablamos de reputación online, aparece el concepto de “análisis de sentimiento” pero, ¿sabemos realmente qué significa? El análisis de sentimiento se refiere a los diferentes métodos de lingüística computacional que ayudan a identificar y extraer información subjetiva del contenido existente en el mundo digital (redes sociales, foros, webs, etc.). Gracias al análisis del sentimiento, podemos ser capaces de extraer un valor tangible y directo, como puede ser determinar si un texto extraído de la red Internet contiene connotaciones positivas o negativas.

El análisis de sentimientos, también conocido como minería de opinión, se trata de una tarea de clasificación masiva de documentos de manera automática, que se centra en catalogar los documentos en función de la connotación positiva o negativa del lenguaje ocupado en el mismo.

Con las redes sociales, los usuarios tienen hoy en día todo tipo de facilidades para mostrar sus opiniones sobre cualquier tema que deseen. Tener constancia sobre las opiniones referentes a una marca o producto y medir su impacto es actualmente de vital importancia para todas las empresas, ya que es tu imagen lo que está en juego.

A toda la información que se recopila de esta forma se le denomina minería de opinión (opinión mining) y gracias a ella, las empresas  tienen una inmediata disponibilidad de la información deseada. Además, la minería de opinión no solo permite responder “qué opinan los internautas sobre su propia marca o producto” sino que facilita,  mediante los medios adecuados, obtener ventajas competitivas en diferentes ámbitos.

Gracias al análisis de sentimiento o minería de opinión podemos recopilar información suficiente para conocer qué piensa o qué opinan los usuarios (o target) en la red Internet.

En las redes sociales y en la red en general se encuentran multitud de textos, en los cuales deben aplicarse subjetividad y no únicamente clasificarlos según su naturaleza o procedencia. Existen dos formas de enfrentarse al análisis de sentimientos: aplicando un enfoque semántica o aplicando un aprendizaje automático (Eugenio Martínez Cámara, Mª Teresa Martín Valdivia, L. Alfonso Ureña).

Análisis del sentimiento_itelligent

Cómo funciona el análisis de sentimiento

  1. Mediante el análisis del sentimiento, queremos lograr entender cuál es la intención exacta de una frase. Saber si se refiere a una marca, a un producto en concreto o a cualquier otro aspecto.
  2. Posteriormente queremos conocer que valoración tiene dicha frase, y para ello se le aplica la denominada polaridad, a través de la cual se clasifica el mensaje en función de la intención que tenga el autor al realizarlo, pudiendo ser este positivo, neutro o negativo. Esto permite controlar el sentimiento de los usuarios respecto a una marca o producto, con lo que obtendremos los puntos fuertes y débiles sobre ello fácilmente.
  3. Para aplicar esta polaridad y posteriormente poder obtener datos concluyentes y predecir comportamientos futuros.
  4. Existen básicamente dos formas de procesar la información obtenida tal como mencionábamos en el punto anterior:
  • El análisis manual suele darse en casos en los que las palabras claves sobre las que se quiere obtener información pueden representar diferentes significados en diferentes ámbitos, por lo que habrá que estar atento e ir clasificando cada texto en su lugar correspondiente. Un buen ejemplo sería una marca o el nombre de una empresa que se llama igual que una ciudad, de este modo se recopilarían multitud de datos que no tienen nada que ver con lo que de verdad se pretende obtener.
  • El análisis de sentimiento automático. Este comienza con el establecimiento de una serie de palabras clave para que cualquier texto que contenga esa palabra o combinación de ellas, quede automáticamente encuadrado en una categoría de una forma previamente definida o descartado directamente. Por ejemplo, mensajes que contengan “No me gusta”, “odio” o “no recomiendo” se clasificarán automáticamente cómo datos negativos. Mientras que, aquellos mensajes que incluyan un “excelente”, “genial” o “perfecto”, quedarán clasificados cómo positivos.

Qué limitaciones posee el análisis de sentimiento automatizado

Exactamente no hay ningún método de combinar correctamente las diferentes palabras a utilizar para que el anáisis de sentimiento sea 100% fiable.

Los sistemas que se limitan a la configuración y extracción de contenido con palabras clave son incapaces de generar resultados satisfactorios de análisis de sentimiento en su totalidad. Esto viene dado por la complejidad del idioma humano. Por ejemplo, ¿cómo le inculcas a un robot la capacidad de definir si una frase es realizada con sarcasmo o no?

Anteriormente hemos mencionado el término “perfecto” cómo un adjetivo positivo pero, dependiendo del contexto, este podría cambiar todo el significado de la frase. De esta manera, podría surgir un mensaje que dijera lo siguiente: “Perfecto mensaje a favor del machismo, os habéis lucido”. Este mensaje debería ir entonces clasificado como negativo.

Por este motivo, muchos algoritmos cometen errores, encontrándose con la imposibilidad de fijar una longitud exacta del comentario o la intención real que lleva una determinada palabra. Es decir, no son capaces de inferir de una valoración exacta de las diferentes relaciones semánticas, y se puede afirmar que actualmente es imposible conseguir un 100% de éxito en este campo.

Sin embargo,  los sistemas de análisis del sentimiento más avanzados son capaces de luchar con estos posibles errores y ofrecer resultados más ajustados.

Cómo son las plataformas para análisis del sentimiento

Es aquí donde entra en juego el aprendizaje automático (machine learning). Este término hace referencia a la creación de sistemas a través de la Inteligencia Artificial,  donde lo que realmente aprende es un algoritmo, el cual supervisa los datos con la intención anteriormente mencionada: poder predecir comportamientos futuros.

Esa cantidad ingente de datos son imposibles de analizar por una persona para sacar conclusiones y menos todavía para hacer predicciones. Los algoritmos, correctamente utilizados, en cambio, sí pueden detectar patrones de comportamiento.

Existen herramientas de monitorización de las redes sociales como NetOpinion que hacen de esta tarea sea sumamente fácil y rápida, por su capacidad de monitorizar en tiempo real y su gestión y procedimientos en la supervisión de los datos.

Análisis de sentimiento con NetOpinion

Normalmente, la estructura utilizada para la organización adecuada de los datos son los árboles binarios, a través de los cuales se pueden establecer los tres patrones de comportamiento ya comentados (positivo, neutro y negativo).  Con esta estructura se van observando comportamientos, y cuando ya se han recopilado una cantidad de datos importante, el algoritmo ofrecerá un tanto por ciento de posibilidad de predecir un comportamiento u otro.

La cantidad de datos que se generan actualmente en las empresas está creciendo a un ritmo impresionante, y obtener información útil y valiosa de ellos supone una ventaja competitiva muy importante respecto a los competidores. Pero, ¿cómo es realmente el proceso?

Se realizan los siguientes pasos:

  1. Filtración de datos. En primer lugar se utilizan las palabras claves para descartar contenido no deseado, y posteriormente se establecen palabras para obtener categorías según su polaridad o su procedencia.
  2. Extracción del contenido. Una vez que pasen el filtro, se elimina el contenido no deseado y se comenzará a trabajar con el contenido de calidad.
  3. Análisis de contenido. Este proceso lo puede realizar el algoritmo o una persona física en sí. Aquí el contenido útil y de calidad quedará encuadrado en la categoría que le corresponda.
  4. Limpieza del contenido. Quizás se haya colado contenido erróneamente, y este es el momento de enviarlo a su categoría correcta o descartarlo directamente.
  5. Revisión. Se gestionaran en este apartado todos los posibles aspectos a mejorar. Tal vez encontremos una nueva palabra a incluir para descartar contenido, o nos demos cuenta que una palabra considerada positiva se utiliza a modo negativo en determinados momentos.

Para qué sirve el análisis de sentimiento

  • Gracias a este proceso se consigue obtener datos de calidad,
  • Se evita tener multitud de datos que carecen de valor para la toma de decisiones
  • Hacer también, tomar decisiones en tiempo real, como por ejemplo: para apaciguar una crisis de reputación online.
  • Gracias al análisis de sentimiento, se consigue desarrollar mejores estrategias empresariales.
  • Facilita la gestión de la reputación online y ayuda a saber qué acciones llevar a cabo en el plan estratégico de marketing online.
0

Knowledge Discovery in Database

Data Mining (minería de datos) es también conocida como Knowledge Discovery in database (KDD). Es comúnmente definida como el proceso para descubrir patrones útiles o conocimientos a partir de fuentes de datos tales como Bases de Datos, textos, imágenes, la web, etc.  Los patrones deben ser válidos, potencialmente útiles y entendibles. La minería de datos es un campo multidisciplinar que incluye: aprendizaje automático, estadísticas, sistemas de base de datos, inteligencia artificial, Information Retrieval, visualización de la información, … El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Existen muchas técnica dentro de data mining. Existen muchas tareas de data mining. Algunos de los más comunes consisten en el aprendizaje supervisado, aprendizaje no supervisado, minería de asociación de reglas y minería de secuencia (1).

En resumen, la minería de datos es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

10 VENTAJAS  DEL USO DE MINERÍA DE DATOS

  1. La minería de datos descubre información que no se esperaba obtener. Como muchos modelos diferentes son usados, algunos resultados inesperados tienden a aparecer. Las combinaciones de distintas técnicas otorgan efectos inesperados que se transforma en un valor añadido a la empresa.
  2. Enormes bases de datos pueden ser analizadas mediante la tecnología de data mining.
  3. Los resultados son fáciles de entender: personas sin un conocimiento previo en ingeniería informática pueden interpretar los resultados con sus propias ideas
  4. Contribuye a la toma de decisiones tácticas y estratégicas para detectar la información clave
  5. Te permite encontrar, atraer y retener a los clientes. Reduce el riesgo de perder clientes: ofrecer promociones especificas o productos especiales para retenerlos.
  6. Mejora la relación con el cliente: la empresa puede mejorar la atención al cliente a partir de la información obtenida.
  7. Permite ofrecer a tus clientes los productos o servicios que necesitan.
  8. Los modelos son confiables. Los modelos son probados y comprobados usando técnicas estadísticas antes de ser usado, para que las predicciones que se obtienen sean confiables y válidas.
  9. En su mayoría, los modelos se generan y construyen de manera rápida. El modelado a veces se torna más fácil puesto que muchos algoritmos han sido probados previamente.
  10. Abre nuevas oportunidades de negocios y ahorra costes a la empresa.

Sin embargo, también existen pequeños inconvenientes en el uso de técnicas de minería de datos, tales como:

  • La dificultad de recopilación de los datos. Dependiendo del tipo de datos que se quieran recopilar puede conllevar mucho trabajo.
  • Aunque cada vez menos, el requerimiento de una gran inversión también puede considerarse un inconveniente. En ocasiones, las tecnologías necesarias para llevar a cabo la recopilación de datos, no es tarea sencilla y consume muchos recursos que podrían suponer un coste elevado.

¿Quieres saber más sobre Data Mining o Minería Web?

Te recomendamos que eches un vistazo a estas dos publicaciones en nuestro blog:

O también, puedes leer este libro, como parte de la bibliografía consultada para este post: (1) LIU, BING (2007): WEB DATA MINING Exploring Hyperlinks, contents and usage data. Berlín: Ed. Springer Science & Business Media.

¿Qué es la Minería Web?

La minería web o web mining comprende una serie de técnicas encaminadas a obtener inteligencia a partir de datos procedentes de la web. Aunque las técnicas utilizadas tienen su raíz en las técnicas de data mining o minería de datos, presentan características propias debido a las particularidades que presentan las páginas webs. Algunas de estas particularidades son:

  • La mayor parte de los datos de la web tienen poca estructura (por ejemplo, tablas htmls) o casi ninguna (como pueden ser textos planos oPDFs).
  • Los volúmenes de datos son muy altos y en algunos casos crecen de forma exponencial, con la problemática asociada (big data).
  • Los datos (a nivel de páginas) están relacionados mediante links.
  • Los datos tienen formatos muy variados como htmls, PDFs, imágenes, video, etc.
  • Se mezclan datos fiables con otros de menor fiabilidad, dando lugar a inconsistencias.

Todo lo anterior ha provocado la adaptación y/o desarrollo de nuevas técnicas que permitan aprovechar el gran volumen de datos presente en internet.

¿Cómo clasificar la minería web en función de los datos que utiliza?

  • Minería de Contenidos: su objetivo es obtener “valor” de los datos que contienen las páginas web.  Esta minería presenta la mayor dificultad, debido entre otros: a la falta de estructura de los datos, a su diversidad (ej. imagenes, pdfs, etc.), a la dificultad de interpretar (ej. opiniones). El uso que se le da a los contenidos, una vez estructurados, pueden ser muy diversa: desde la detección de patrones de interés hasta la inteligencia comercial. Hasta el momento este tipo de minería se ha centrado principalmente en textos (algunas veces se habla de text mining), siendo muy utilizadas las técnicas de Procesamiento del Lenguaje Natural, aunque actualmente existe un gran interés en ampliar de una forma efectiva la minería de contenidos a otros formatos (principalmente videos e imágenes).
  • Minería de Estructuras: Internet, de forma implícita, presenta ciertas estructuras que pueden ser de interés para obtener información o inteligencia. Así, dentro de una web, las páginas se organizan de determinada forma -normalmente en una estructura jerárquica-, mientras que distintas web se relacionan entre ellas mediante links -normalmente formando grafos-. Además, las redes sociales han introducido nuevos elementos estructurales como por ejemplo los seguidores. Esta información “estructural” puede ser utilizada de diversas formas, desde ayudar a determinar la relevancia de una página en un buscador a la detección de líderes de opinión en redes sociales.
  • Minería de Uso: La forma en que un usuario interactúa con una página web, aporta datos de gran interés. Tradicionalmente se han utilizado los logs recopilados por los servidores para este tipo de minería (en estos casos se habla de log mining). Es posible, a partir de los datos de interacción, detectar patrones que puedan ser aprovechados con distinta finalidad, desde mejorar la compra en una web modificando la navegación, hasta la personalización de la publicidad.