Tag: Knowledge Discovery

0

La minería web tiene como objeto descubrir información útil o el conocimiento (KNOWLEDGE) procedente de la estructura de hipervínculo web, contenido de la página y datos de usuario. Aunque la minería web utiliza muchas técnicas de minería de datos, no es meramente una aplicación de técnicas de minería de datos tradicionales, debido a la heterogeneidad y la naturaleza semi-estructurada o no estructurada de los datos de la web.

Muchas de las nuevas tareas de minería y algoritmos actuales  fueron  inventados en la pasada década.  Basados en los principales tipos de información utilizados en el proceso de minería. Las tareas de minería web se pueden clasificar en tres tipos: estructura web de minería o web structure mining, extracción de contenido web o web content mining y la minería de uso web o web usage mining.

Web Usage Mining o Minería de Uso Web

En este post, nos centramos en la minería de uso web o web usage mining, para dar respuesta a qué es y en qué consiste este proceso. En primer lugar, debemos tener en cuenta que la Web Usage Mining tiene como objeto de estudio al usuario que navega en una página, a diferencia de web content mining y web strutcture mining que están enfocadas al estudio de la estructura y contenido de la website en sí misma. Este tipo de minería -web usage mining- tiene como objetivo: captar, modelar y analizar  los patrones de comportamiento y los perfiles de los usuarios que interactúan con una web site.  Estos patrones aportan datos de gran interés ya que se pueden utilizar para tener una mejor comprensión del comportamiento de grupos de usuarios con necesidades o intereses comunes dentro de una Web.

De esta forma, gracias a esta información dada con este tipo de minería web, se pueden tomar decisiones en el entorno de la Web, tales como:

  • Mejorar la organización y estructura del sitio web
  • Crear experiencias personalizadas para los usuarios
  • Facilitar la navegación al usuario
  • Generar sugerencias dinámicas de productos o servicios (a través de un sistemas de recomendaciones)

webdatamining_itelligent

Web Usage Mining  se refiere a la detección y análisis automático de patrones en clickstreams, transacciones de usuario y otros datos asociados, recopilados o generados como resultado de las interacciones del usuario con los recursos web sobre uno o más sitios web.

Por tanto, el análisis de estos datos -información recopilada en torno a las conductas en la web de los usuarios-, puede ayudar al sector e-commerce (comercio electrónico) e inteligencia empresarial para:

  • Determinar el valor de la lifetime del cliente
  • Diseñar estrategias de cross-marketing para productos y servicios
  • Valorar la eficacia de las campañas promocionales
  • Optimizar la funcionalidad de las aplicaciones web-based
  • Ofrecer contenido más personalizado a los visitantes web
  • Y por último, encontrar la estructura lógica más eficaz para su espacio web

Fuentes y tipos de datos en web usage mining

Ya tenemos una breve idea de qué consiste la minería web usage pero,  si nos adentramos en términos técnicos, ¿qué fuentes y  tipos de datos podemos obtener de esta minería web?

La principal fuente de datos usados en la web usage mining son los ficheros de logs de los servidores, access log, application logs, etc. Otras fuentes de datos adicionales, también esenciales para la preparación de datos y descubrir patrones, son: los archivos del sitio y meta-datos, bases de datos  plantilla de aplicaciones y dominios inteligentes.

Los datos obtenidos a través de diversas fuentes se pueden clasificar en cuatro grupos principales.

  • USAGE DATA Es la principal fuente de datos de minería de uso web. Los datos recopilados de forma automática por la web y servidores representa el comportamiento de navegación de los visitantes. El  nivel más básico de la extracción de los datos la visita de una página (pageview) ya que se obtiene la información básica del visitante (user client) como puede ser la lectura de un artículo, la vista de un página de un producto o agregar un producto al carrito de la compra. A nivel de usuario, el nivel más básico de extracción de comportamiento es la sesión (session). Una sesión es una secuencia de páginas vistas por un único usuario durante una única visita.
  • CONTENT DATA Los datos de contenido en un sitio son la colección de objetos y las relaciones que se transmite al usuario. En su mayor parte, estos datos se componen de combinaciones de materiales de texto e imágenes.
  • STRUCTURE DATA La estructura de los datos representa el diseño de cómo se aprecia (view) la organización del contenido dentro de la web. En esta estructura de los datos también incluye la estructura del contenido dentro de una página.
  • USER DATA Las bases de datos para el sitio pueden incluir información adicional sobre el perfil de usuario. Estos datos pueden incluir información demográfica sobre los usuarios registrados , valoraciones de los usuarios sobre diversos objetos tales como productos o películas, compras anteriores o historias de estancia de los usuarios , así como otras representaciones explícitas o implícitas sobre los intereses del usuario.

Otras publicaciones en nuestro blog que pueden interesarte sobre Minería Web:

  • Minería web: de contenidos, de estructuras y de usos: donde se define qué es la minería web y se describen sus tres variantes: web content mining o minería del contenido de la web, web structure mining o mineria de la estructura de la web, y web usage mining o minería de uso web (registro de navegación de la web)
  • Aplicaciones prácticas de Minería Web: donde se incluyen algunos proyectos relacionados con la Minería Web en los que ITELLIGENT ha participado. Se tratan de ejemplo práctico en el sector automovilístico, Fotovolcaico y Termosolar, y Ayudas y Subvenciones.

Bibligrafía recomendada:

LIU, BING (2007): WEB DATA MINING Exploring Hyperlinks, contents and usage data. Berlín: Ed. Springer Science & Business Media.

0

Knowledge Discovery in Database

Data Mining (minería de datos) es también conocida como Knowledge Discovery in database (KDD). Es comúnmente definida como el proceso para descubrir patrones útiles o conocimientos a partir de fuentes de datos tales como Bases de Datos, textos, imágenes, la web, etc.  Los patrones deben ser válidos, potencialmente útiles y entendibles. La minería de datos es un campo multidisciplinar que incluye: aprendizaje automático, estadísticas, sistemas de base de datos, inteligencia artificial, Information Retrieval, visualización de la información, … El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Existen muchas técnica dentro de data mining. Existen muchas tareas de data mining. Algunos de los más comunes consisten en el aprendizaje supervisado, aprendizaje no supervisado, minería de asociación de reglas y minería de secuencia (1).

En resumen, la minería de datos es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

10 VENTAJAS  DEL USO DE MINERÍA DE DATOS

  1. La minería de datos descubre información que no se esperaba obtener. Como muchos modelos diferentes son usados, algunos resultados inesperados tienden a aparecer. Las combinaciones de distintas técnicas otorgan efectos inesperados que se transforma en un valor añadido a la empresa.
  2. Enormes bases de datos pueden ser analizadas mediante la tecnología de data mining.
  3. Los resultados son fáciles de entender: personas sin un conocimiento previo en ingeniería informática pueden interpretar los resultados con sus propias ideas
  4. Contribuye a la toma de decisiones tácticas y estratégicas para detectar la información clave
  5. Te permite encontrar, atraer y retener a los clientes. Reduce el riesgo de perder clientes: ofrecer promociones especificas o productos especiales para retenerlos.
  6. Mejora la relación con el cliente: la empresa puede mejorar la atención al cliente a partir de la información obtenida.
  7. Permite ofrecer a tus clientes los productos o servicios que necesitan.
  8. Los modelos son confiables. Los modelos son probados y comprobados usando técnicas estadísticas antes de ser usado, para que las predicciones que se obtienen sean confiables y válidas.
  9. En su mayoría, los modelos se generan y construyen de manera rápida. El modelado a veces se torna más fácil puesto que muchos algoritmos han sido probados previamente.
  10. Abre nuevas oportunidades de negocios y ahorra costes a la empresa.

Sin embargo, también existen pequeños inconvenientes en el uso de técnicas de minería de datos, tales como:

  • La dificultad de recopilación de los datos. Dependiendo del tipo de datos que se quieran recopilar puede conllevar mucho trabajo.
  • Aunque cada vez menos, el requerimiento de una gran inversión también puede considerarse un inconveniente. En ocasiones, las tecnologías necesarias para llevar a cabo la recopilación de datos, no es tarea sencilla y consume muchos recursos que podrían suponer un coste elevado.

¿Quieres saber más sobre Data Mining o Minería Web?

Te recomendamos que eches un vistazo a estas dos publicaciones en nuestro blog:

O también, puedes leer este libro, como parte de la bibliografía consultada para este post: (1) LIU, BING (2007): WEB DATA MINING Exploring Hyperlinks, contents and usage data. Berlín: Ed. Springer Science & Business Media.

El próximo día 12 de Noviembre a partir de las 10:00 am, nuestro Director Técnico de Itelligent, Jaime Martel, tendrá la oportunidad de participar en el IV Congreso Nacional de Conocimiento Abierto Bioinspirado e Inteligencia Colectiva, que se celebrará en el BBVA Innovation Center de Madrid.

Dicha jornada tendrá la finalidad de poner en conocimiento de las empresas las posibilidades de mejora de su competitividad mediante el desarrollo de herramientas que potencien su operatividad comercial y organizativa. Especialmente la capacidad de acelerador tecnológico del BIG DATA OPTIMIZER de Knowdle Foundation & Research Institute.

4ºcongreso-BigData-Itelligent

Jaime Martel, tratará el tema “Estado del arte de los robots semánticos”, durante la Mesa Redonda “Well are all Media Players: Big Data of Media Computing Challenges”, que tendrá lugar de 11:30 – 12:30 am. Según el Director Tecnico de Itelligent: “Una parte importante del potencial a realizar por el Big Data y la Analítica Empresarial proviene de la puesta en valor de los contenidos generados por los usuarios y otras informaciones textuales en lenguaje natural”.

Si estáis interesados en este evento se emitirá en Streaming a través del perfil de BBVA Innovation Center en YouTube

23-28 SEPTIEMBRE, Barcelona.

I Conferencia Internacional en Analítica de Datos.

DATA ANALYTICS 2012 is an inaugural event on fundamentals in supporting data analytics, special mechanisms and features of applying principles of data analytics, application-oriented analytics, and target-area analytics. Processing of terabytes to petabytes of data, or incorporating non-structural data and multi-structured data sources and types require advanced analytics and data science mechanisms for both raw and partially-processed information. Despite considerable advancements on high performance, large storage, and high computation power, there are challenges in identifying, clustering, classifying, and interpreting of a large spectrum of information.

4-7 OCTUBRE, Barcelona.

IV International Conference on Knowledge Discovery and Information Retrieval.

Knowledge Discovery is an interdisciplinary area focusing upon methodologies for identifying valid, novel, potentially useful and meaningful patterns from data, often based on underlying large data sets. A major aspect of Knowledge Discovery is data mining, i.e. applying data analysis and discovery algorithms that produce a particular enumeration of patterns (or models) over the data. Knowledge Discovery also includes the evaluation of patterns and identification of which add to knowledge. Information retrieval (IR) is concerned with gathering relevant information from unstructured and semantically fuzzy data in texts and other media, searching for information within documents and for metadata about documents, as well as searching relational databases and the Web. Automation of information retrieval enables the reduction of what has been called «information overload». Information retrieval can be combined with knowledge discovery to create software tools that empower users of decision support systems to better understand and use the knowledge underlying large data sets.

16-NOVIEMBRE, Madrid

I Conferencia Internacional Sobre Big Data en España. Un reto tecnológico y una oportunidad de negocio. La humanidad y las máquinas crean diariamente 2,5 trillones de bytes de datos (es decir 2,5 x 1018 bytes). Esto es Big Data. Algunos de los expertos mundiales líderes en la industria nos proporcionarán una visión práctica de los retos de almacenamiento, gestión, análisis, modelado y visualización de datos en la primera conferencia internacional de Big Data en Madrid, España.