Tag: aprendizaje supervisado

El Machine Learning o aprendizaje automático es una rama del campo de la Inteligencia artificial y se trata de una técnica de análisis de datos que enseña a las computadoras «aprender de la experiencia», aquello que es natural para los humanos. Los algoritmos de Machine Learning usan métodos computacionales para «aprender» (learning) la información extraída de los datos y mejorar su rendimiento de forma adaptada -conforme aumenta el número de muestras disponibles para el aprendizaje-.

Con el auge del Big Data, el Machine Learning se ha convertido en una técnica clave para resolver problemas en diversas áreas como medicina, energía, aeroespacial, automoción, fabricación, etc. tanto para detectar tumores como para previsión de cargas energéticas o para el mantenimiento predictivo, entre otras opciones.

Los algoritmos de Aprendizaje Automático encuentran patrones naturales en los datos que generan información y lo ayudan a tomar mejores decisiones y predicciones. Por ejemplo, paginas webs de musica o vídeos utilizan Machine Learning para analizar millones de opciones y dar recomendaciones sobre canciones o películas a los usuarios. También, los retailers lo utilizan para obtener información sobre el comportamiento de compra de sus clientes.

Machine Learning: cómo funciona

El Machine Learning emplea dos tipos de técnicas:

  • Aprendizaje Supervisado, que entrena un modelo sobre datos de entrada y salida conocidos para que pueda predecir resultados futuros
  • Aprendizaje No Supervisado, que encuentra patrones ocultos o estructuras intrínsecas en los datos de entrada.

esquema machine learning

Fuente: https://es.mathworks.com/discovery/machine-learning.html

Machine Learning: aprendizaje supervisado

El aprendizaje automático supervisado crea un modelo que realiza predicciones basadas en evidencia en presencia de incertidumbre. Un algoritmo de aprendizaje supervisado toma un conjunto conocido de datos de entrada y respuestas conocidas a los datos (salida) y entrena un modelo para generar predicciones razonables para la respuesta a nuevos datos. El aprendizaje supervisado lo puedes usar si tienes datos conocidos para la salida que está intentando predecir.

El aprendizaje supervisado utiliza técnicas de clasificación y regresión para desarrollar modelos predictivos.

  • Técnicas de clasificación. Las técnicas de clasificación predicen respuestas discretas, por ejemplo, si un correo electrónico es genuino o spam, o si un tumor es canceroso o benigno. Los modelos de clasificación clasifican los datos de entrada en categorías. Las aplicaciones típicas incluyen imágenes médicas, reconocimiento de voz y calificación crediticia.Utilice la clasificación si sus datos se pueden etiquetar, categorizar o separar en grupos o clases específicos. Por ejemplo, las aplicaciones para el reconocimiento de escritura a mano utilizan la clasificación para reconocer letras y números. En el procesamiento de imágenes y la visión por computadora, se utilizan técnicas de reconocimiento de patrones sin supervisión para la detección de objetos y la segmentación de imágenes.
  • Regresión. Las técnicas de regresión predicen respuestas continuas, por ejemplo, cambios en la temperatura o fluctuaciones en la demanda de energía. Las aplicaciones típicas incluyen predicción de carga eléctrica y comercio algorítmico.Utilice las técnicas de regresión si está trabajando con un rango de datos o si la naturaleza de su respuesta es un número real, como la temperatura o el tiempo hasta el fallo de un equipo.

Machine Learning: aprendizaje NO supervisado

El aprendizaje no supervisado encuentra patrones ocultos o estructuras intrínsecas en los datos. Se utiliza para extraer inferencias de conjuntos de datos que consisten en datos de entrada sin respuestas etiquetadas.

El Clustering es la técnica de aprendizaje no supervisada más común. Se utiliza para el análisis exploratorio de datos para encontrar patrones ocultos o agrupaciones en los datos. Las aplicaciones para el análisis de conglomerados incluyen análisis de secuencia génica, investigación de mercado y reconocimiento de objetos.

Por ejemplo, si una compañía de telefonía celular quiere optimizar las ubicaciones donde construyen torres de telefonía celular, pueden usar el aprendizaje automático para estimar la cantidad de grupos de personas que confían en sus torres. Un teléfono solo puede hablar con una torre a la vez, por lo que el equipo utiliza algoritmos de agrupamiento para diseñar la mejor ubicación de las torres de telefonía móvil para optimizar la recepción de señal para grupos o grupos de sus clientes.

Aquí hay algunas pautas para elegir entre aprendizaje automático supervisado y no supervisado:

  • Elija el aprendizaje supervisado si necesita entrenar un modelo para hacer una predicción, por ejemplo, el valor futuro de una variable continua, como la temperatura o el precio de una acción, o una clasificación, por ejemplo, identificar marcas de automóviles a partir de imágenes de video de la cámara web .
  • Elija el aprendizaje no supervisado si necesita explorar sus datos y desea entrenar un modelo para encontrar una buena representación interna, como dividir los datos en grupos.

Fuente: https://www.mathworks.com/discovery/machine-learning.html

La clasificación automática de documentos consiste en utilizar técnicas de Inteligencia Artificial sobre un conjunto de elementos para ordenarlos por clases o categorías. Sin embargo, también se pueden utilizar estas técnicas para asignar un documento a una determinada clase o categoría.

Par llevar a cabo la clasificación automática de documentos primero hay que realizar una extracción de features (características) destinadas a ser informativos y no redundantes. Esto facilitará los pasos posteriores de machine learning en la clasificación automática de documentos. La extracción de características (features) se trata de un proceso de reducción y codificación, donde un conjunto inicial de variables sin procesar (ej. texto en un documento) se reduce a características más manejables para su procesamiento (ej. números) y que se describa con precisión el conjunto de datos original.

Existen diversas técnicas de extracción de features:

Técnica clásicas

  • Term frequency – Inverse document frequency (TF IDF). Se trata una técnica muy utilizada en Machine Learning. para otorgar la relevancia de una palabra en un documento de una colección a través de una medida numérica. Esta medida numérica se utiliza para calificar la relevancia de una palabra dentro de un documento a partir de la frecuencia que aparece en el mismo. La idea en la que se basa esta técnica es que si una palabra aparece frecuentemente en el documento, debe ser importante y se le debe dar una puntuación alta. Sin embargo, si una palabra aparece frecuentemente en otros documentos, probablemente no sea un identificador único, y por tanto, se le debe asignar una puntuación más baja. Aquí, puedes consultar la fórmula matemática.

Nuevas técnicas basadas en Deep Learning:

  • Doc2vec. El objetivo principal de Doc2Vec es asociar documentos arbitrarios con etiquetas. Doc2vec es una extensión de word2vec que aprende a correlacionar etiquetas y palabras, en lugar de palabras con otras palabras. El primer paso es crear un vector que represente el «significado» de un documento para que luego se pueda utilizar como entrada a un algoritmo de aprendizaje automático supervisado y así asociar documentos con etiquetas.

Tras la extracción de features y en base a la información previa que se posea de los documentos a clasificar o categorizar, se podrán realizar diversas técnicas para la clasificación automática de documentos:

  • Clasificación supervisada. Cuando tenemos conocimiento del conjunto de documentos previamente clasificados de forma manual, ésto nos servirán para entrenar al sistema inteligente en la clasificación automática.
  • Clasificación no supervisada o clustering de documentos. Cuando no tenemos información a priori del conjunto de documentos ni de las categorías en las que deben estar clasificados.

Cuáles son las técnicas de clasificación automática de documentos más usadas

Según el tipo de clasificación, existen:

  • Técnicas de aprendizaje supervisado para clasificaciones supervisadas. Estas técnicas intentan reducir una función que partiendo de la colección de documentos (clasificación manual), tomando un documento de entrada sea capaz de predecir la clase o categoría a la que corresponde ese documento. En otras palabras, estas técnicas de clasificación supervisadas parten de un conjunto de documentos ya clasificados de forma manual (conjunto de entrenamiento) y se intenta asignar una clasificación a un segundo conjunto de documentos. Dependiendo del tipo de colección de documento o tipo de documentos a clasificar, se utilizarán unas técnicas u otras, desde algoritmos de clasificación bayesianos, arboles de decisiones, redes neuronales, …
  • Algoritmos de clustering para clasificaciones no supervisadas. Cuando no se disponen de un conjunto de documentos previamente clasificados, se opta por, a partir de las propiedades de los documentos, agruparlos (clustering) según sus semejanzas entre sí.