Gracias al Machine Learning es posible realizar tareas de clasificación sobre un conjunto de datos. En el caso de la clasificación automática de documentos se utilizan técnicas de Inteligencia Artificial sobre un conjunto de elementos para ordenarlos por clases o categorías. Sin embargo, también se pueden utilizar estas técnicas para asignar un documento a una determinada clase o categoría.
Para llevar a cabo la clasificación automática de documentos primero hay que realizar una extracción de features (características) destinadas a ser informativos y no redundantes. Esto facilitará los pasos posteriores de machine learning en la clasificación automática de documentos. La extracción de características (features) se trata de un proceso de reducción y codificación, donde un conjunto inicial de variables sin procesar (ej. texto en un documento) se reduce a características más manejables para su procesamiento (ej. números) y que se describa con precisión el conjunto de datos original.
Existen diversas técnicas de extracción de features.
Técnica clásicas:
Nuevas técnicas basadas en Deep Learning:
Tras la extracción de features y en base a la información previa que se posea de los documentos a clasificar o categorizar, se podrán realizar diversas técnicas para la clasificación automática de documentos:
Cuáles son las técnicas de clasificación automática de documentos más usadas
Según el tipo de clasificación, existen:
¿Qué herramienta puedes utilizar para clasificar tus archivos de forma automática?
En ITELLIGENT, hemos desarrollado una plataforma basada en Inteligencia Artificial (IA) que permite automatizar tareas relacionadas con gestión y clasificación de documentos, contenidos multimedia y archivos con otros formatos poco estructurados. Gracias a técnicas de IA y Procesamiento de Lenguaje Natural, esta plataforma permite extraer e indexar datos además de descubrir conocimiento y detectar oportunidades.
Se trata de la plataforma netContent y dispone de un acceso para que el cliente pueda realizar diversas gestiones tales como gestionar las reglas a aplicar, habilitar accesosa otros usaurios, supervisar documentos o tener acceso a dashboards con métricas del sistema, según las necesidades de cada empresa.
Además, permite volcar el resultado de la gestión documental en los sistemas de gestión que utilices, ya sa Sharepoint, Thinkproject, etc. En resumen, gracias a esta plataforma se puede hacer lo siguiente:
netContent se adapta a las necesidades de cada cliente y posee otras funcionales tales como:
El objetivo principal de esta segunda edición de la Escuela de Machine Learning en Sevilla #MLSEV es introducir los conceptos básicos y las técnicas más avanzadas del Aprendizaje Automático (o Machine Learning) para aumentar significativamente la productividad de nuestro negocio.
La amplia experiencia de Machine Learning School en dar la bienvenida a profesionales expertos y técnicos de diferentes áreas del aprendizaje automático, les ha enseñado que una talla única no sirve para todos: «one size doesn´t fit all». Este evento destaca por ofrecer dos puntos de vista sobre «Lo mejor de ambos mundos» -de ahí, best of both worlds-, al combinar sesiones técnicas-prácticas con sesiones sobre los desafíos a los que nos enfrentamos en el sector y las lecciones aprendidas al implementar sistemas de machine learning en la vida real.
Echemos un vistazo rápido a los aspectos más destacados de lo que los asistentes de #MLSEV pueden esperar los días 26 y 27 de marzo de 2020 en EOI Andalucía:
PRIMER DÍA: 26 de Marzo
Después de los comentarios de apertura, el día 26 comienza con Ed Fernández (Arowana) seguido por el profesor Enrique Dans (IE University). En conjunto, brindarán a los asistentes una buena comprensión del impacto empresarial que se está desarrollando a partir del Machine Learning con modernas plataformas de software como BigML. A continuación, el científico jefe de BigML y uno de los padres de la disciplina del aprendizaje automático, el profesor Tom Dietterich, sube al escenario para hablar sobre las técnicas más modernas de Machine Learning, así como para ilustrarnos hacia dónde nos dirigiremos en los próximos años en esta disciplina.
Después de algunas sesiones técnicas-prácticas introductorias impartidas por expertos experimentados de BigML Machine Learning y el magnifico almuerzo, se profundizará en las interesantes presentaciones de Michael Skiba (también conocido como Dr. Fraud), Jan W Veldsink (Rabobank) y Roy Prayikulam / Kevin Nagel (INFORM). En estas sesiones se pretender abordar cómo podemos implementar Machine Learning en la vida real, concretamente, en áreas como la detección de fraudes financieros y el antilavado de dinero (AML).
El primer día termina con un mini ejercicio de Aprendizaje Automático, nombrado “Get your hands dirty” y utilizando el dashboard de BigML de forma que los participantes tengan la oportunidad de interactuar con algunos de los conceptos cubiertos durante la jornada de este primer día.
SEGUNDO DÍA: 27 de marzo
El segundo día comenzará con más sesiones técnicas sobre algunas de las técnicas de aprendizaje supervisado, no supervisado y AutoML más versátiles de la plataforma BigML. Los docentes no solo transmitirán los conceptos de alto nivel detrás de esos enfoques, sino también cómo funcionan en la práctica.
Para completar el programa, los socios de BigML representados por José Cárdenas (Indorama), Christina Rodríguez y Delio Tolivia (Talento Transformación Digital) y Andrés González (CleverData.io) toman el relevo para explicar cómo podemos implementar diferentes casos de uso operacionales para obtener beneficios tangibles como, por ejemplo, la optimización de la calidad y la minimización del tiempo de espera.
Esta jornada finaliza con la demostración de cómo impulsar la producción de los modelos de Machine Learning construidos durante la sesión de práctica realizada al final del Día 1. Esto brindará a los asistentes una comprensión profunda del proceso de aprendizaje automático de extremo a extremo: desde su origen hasta su aplicación.