Tag: Machine Learniing

Gracias al Machine Learning es posible realizar tareas de clasificación sobre un conjunto de datos. En el caso de la clasificación automática de documentos se utilizan técnicas de Inteligencia Artificial sobre un conjunto de elementos para ordenarlos por clases o categorías. Sin embargo, también se pueden utilizar estas técnicas para asignar un documento a una determinada clase o categoría.

Para llevar a cabo la clasificación automática de documentos primero hay que realizar una extracción de features (características) destinadas a ser informativos y no redundantes. Esto facilitará los pasos posteriores de machine learning en la clasificación automática de documentos. La extracción de características (features) se trata de un proceso de reducción y codificación, donde un conjunto inicial de variables sin procesar (ej. texto en un documento) se reduce a características más manejables para su procesamiento (ej. números) y que se describa con precisión el conjunto de datos original.

Existen diversas técnicas de extracción de features.

Técnica clásicas:

  • Term frequency – Inverse document frequency (TF IDF). Se trata una técnica muy utilizada en Machine Learning. para otorgar la relevancia de una palabra en un documento de una colección a través de una medida numérica. Esta medida numérica se utiliza para calificar la relevancia de una palabra dentro de un documento a partir de la frecuencia que aparece en el mismo. La idea en la que se basa esta técnica es que si una palabra aparece frecuentemente en el documento, debe ser importante y se le debe dar una puntuación alta. Sin embargo, si una palabra aparece frecuentemente en otros documentos, probablemente no sea un identificador único, y por tanto, se le debe asignar una puntuación más baja. Aquí, puedes consultar la fórmula matemática.

Nuevas técnicas basadas en Deep Learning:

  • Doc2vec. El objetivo principal de Doc2Vec es asociar documentos arbitrarios con etiquetas. Doc2vec es una extensión de word2vec que aprende a correlacionar etiquetas y palabras, en lugar de palabras con otras palabras. El primer paso es crear un vector que represente el «significado» de un documento para que luego se pueda utilizar como entrada a un algoritmo de aprendizaje automático supervisado y así asociar documentos con etiquetas.

Tras la extracción de features y en base a la información previa que se posea de los documentos a clasificar o categorizar, se podrán realizar diversas técnicas para la clasificación automática de documentos:

  • Clasificación supervisada. Cuando tenemos conocimiento del conjunto de documentos previamente clasificados de forma manual, ésto nos servirán para entrenar al sistema inteligente en la clasificación automática.
  • Clasificación no supervisada o clustering de documentos. Cuando no tenemos información a priori del conjunto de documentos ni de las categorías en las que deben estar clasificados.

Cuáles son las técnicas de clasificación automática de documentos más usadas

Según el tipo de clasificación, existen:

  • Técnicas de aprendizaje supervisado para clasificaciones supervisadas. Estas técnicas intentan reducir una función que partiendo de la colección de documentos (clasificación manual), tomando un documento de entrada sea capaz de predecir la clase o categoría a la que corresponde ese documento. En otras palabras, estas técnicas de clasificación supervisadas parten de un conjunto de documentos ya clasificados de forma manual (conjunto de entrenamiento) y se intenta asignar una clasificación a un segundo conjunto de documentos. Dependiendo del tipo de colección de documento o tipo de documentos a clasificar, se utilizarán unas técnicas u otras, desde algoritmos de clasificación bayesianos, arboles de decisiones, redes neuronales, …
  • Algoritmos de clustering para clasificaciones no supervisadas. Cuando no se disponen de un conjunto de documentos previamente clasificados, se opta por, a partir de las propiedades de los documentos, agruparlos (clustering) según sus semejanzas entre sí.

¿Qué herramienta puedes utilizar para clasificar tus archivos de forma automática?

En ITELLIGENT, hemos desarrollado una plataforma basada en Inteligencia Artificial (IA) que permite automatizar tareas relacionadas con gestión y clasificación de documentos, contenidos multimedia y archivos con otros formatos poco estructurados. Gracias a técnicas de IA y Procesamiento de Lenguaje Natural, esta plataforma permite extraer e indexar datos además de descubrir conocimiento y detectar oportunidades.

Se trata de la plataforma netContent y dispone de un acceso para que el cliente pueda realizar diversas gestiones tales como gestionar las reglas a aplicar, habilitar accesosa otros usaurios, supervisar documentos o tener acceso a dashboards con métricas del sistema, según las necesidades de cada empresa.

NetContent-dashboard-2019

Además, permite volcar el resultado de la gestión documental en los sistemas de gestión que utilices, ya sa Sharepoint, Thinkproject, etc. En resumen, gracias a esta plataforma se puede hacer lo siguiente:

  • Clasificación automática de documentos
  • Indexación de audios  de vídeos y/o podcasts
  • Obtención de texto procedentes de documentos escaneados (OCR)
  • Obtención de tags de imágenes
  • Extracción de textos y metadatos de documentos en distintos formatos
  • Indexación avanzada de textos e imágenes
  • Descubridor de conocimiento
  • Detección de oportunidades

netContent se adapta a las necesidades de cada cliente y posee otras funcionales tales como:

  • Early Warning System, para la detección temprana de oportunidades a partir de bots de búsqueda de oportunidades potenciales y su evaluación  utilizando técnicas de Inteligencia Artificial
  • La gestión documental de estas oportunidades detectadas y su vuelco en el sistema de gestión documental del cliente, si hubiere
  • Asimismo, esta gestión documental servirá para re-alimentar los modelos de Inteligencia Artificial del Early Warning System

mlsev cartel

El objetivo principal de esta segunda edición de la Escuela de Machine Learning  en Sevilla #MLSEV es introducir los conceptos básicos y las técnicas más avanzadas del Aprendizaje Automático (o Machine Learning) para aumentar significativamente la productividad de nuestro negocio.

La amplia experiencia de Machine Learning School en dar la bienvenida a profesionales expertos y técnicos de diferentes áreas del aprendizaje automático, les ha enseñado que una talla única no sirve para todos: «one size doesn´t fit all».  Este evento destaca por ofrecer dos puntos de vista sobre «Lo mejor de ambos mundos» -de ahí, best of both worlds-, al combinar sesiones técnicas-prácticas con sesiones sobre los desafíos a los que nos enfrentamos en el sector y las lecciones aprendidas al implementar sistemas de machine learning en la vida real.

Echemos un vistazo rápido a los aspectos más destacados de lo que los asistentes de #MLSEV pueden esperar los días 26 y 27 de marzo de 2020 en EOI Andalucía:

mlsev speakers

PRIMER DÍA: 26 de Marzo

Después de los comentarios de apertura, el día 26 comienza con Ed Fernández (Arowana) seguido por el profesor Enrique Dans (IE University). En conjunto, brindarán a los asistentes una buena comprensión del impacto empresarial que se está desarrollando a partir del Machine Learning con modernas plataformas de software como BigML. A continuación, el científico jefe de BigML y uno de los padres de la disciplina del aprendizaje automático, el profesor Tom Dietterich, sube al escenario para hablar sobre las técnicas más modernas de Machine Learning, así como para ilustrarnos hacia dónde nos dirigiremos en los próximos años en esta disciplina.

Después de algunas sesiones técnicas-prácticas introductorias impartidas por expertos experimentados de BigML Machine Learning y el magnifico almuerzo, se profundizará en las interesantes presentaciones de Michael Skiba (también conocido como Dr. Fraud), Jan W Veldsink (Rabobank) y Roy Prayikulam / Kevin Nagel (INFORM). En estas sesiones se pretender abordar cómo podemos implementar Machine Learning en la vida real, concretamente, en áreas como la detección de fraudes financieros y el antilavado de dinero (AML).

El primer día termina con un mini ejercicio de Aprendizaje Automático, nombrado “Get your hands dirty” y utilizando el dashboard de BigML de forma que los participantes tengan la oportunidad de interactuar con algunos de los conceptos cubiertos durante la jornada de este primer día.

SEGUNDO DÍA: 27 de marzo

El segundo día comenzará con más sesiones técnicas sobre algunas de las técnicas de aprendizaje supervisado, no supervisado y AutoML más versátiles de la plataforma BigML. Los docentes no solo transmitirán los conceptos de alto nivel detrás de esos enfoques, sino también cómo funcionan en la práctica.

Para completar el programa, los socios de BigML representados por José Cárdenas (Indorama), Christina Rodríguez y Delio Tolivia (Talento Transformación Digital) y Andrés González (CleverData.io) toman el relevo para explicar cómo podemos implementar diferentes casos de uso operacionales para obtener beneficios tangibles como, por ejemplo, la optimización de la calidad y la minimización del tiempo de espera.

Esta jornada finaliza con la demostración de cómo impulsar la producción de los modelos de Machine Learning construidos durante la sesión de práctica realizada al final del Día 1. Esto brindará a los asistentes una comprensión profunda del proceso de aprendizaje automático de extremo a extremo: desde su origen hasta su aplicación.

banner_mlsev20_728

¡Apúntate aquí!