Facebook AI Research trabaja en las limitaciones de los modelos de deep learning para la interpretación de objetos en imágenes

Post sobre:

Escrito por:

Martel, Jaime

04/05/2021

Cuando estamos ante una imagen, los seres humanos reconocemos de forma innata cada uno de los elementos que componen dicha imagen y sus elementos diferenciadores en base al conocimiento que tenemos del mundo que nos rodea. Es por tanto, que podemos reconocer cuando aparece en una imagen un gato o un perro lo reconocemos, así como podemos identificar su raza, color o que posea algo que nunca antes habíamos encontrado, por ejemplo, un perro sin cola y cojo. Así mismo, podemos identificar a un Jack Russel, ya aparezca en la imagen de perfil, de frente, boca abajo, saltando o incluso bañándose en la playa.

Gracias a los modelos de Deep Learning, los sistemas de Inteligencia Artificial pueden interpretar patrones estadísticos entre píxeles y tags, aunque poseen alguna limitaciones para identificar correctamente los objetos en sus muchas variaciones naturales. ¿Es una quitanieves que viene por la carretera? ¿O un autobús escolar volcado de lado?

Fuente: ai.facebook.com Créditos: Figura basada en “Strike (with) a pose: Neural networks are easily fooled by strange poses of familiar objects” de M.A. Alcorn et al. muestra una red neuronal clasificando erróneamente un autobús como quitanieves.

Un humano lo sabría al instante, sin embargo para los modelos de Inteligencia Artificial factores como el color, el tamaño y la perspectiva complican una predicción con éxito. En este sentido, Facebook IA se centra en este desafío para capturar la variación natural e identificar las limitaciones de la solución tradicional, conocida como «desenredo». Asimismo, Facebook IA ha desarrollado recientemente la idea de un operador de cambio «equivariante». Se trata de una prueba de concepto para una solución alternativa que podría ayudar a los modelos de deep learning a comprender cómo un objeto puede variar al imitar las transformaciones más comunes.

El trabajo que está desarrollando Facebook IA actualmente es gran parte teórico, por el momento, aunque tiene un amplio potencial para los modelos de deep learning, en particular, en la «visión de una computadora»: a mayor interpretabilidad y precisión, mejor rendimiento, incluso cuando se entrena en pequeños conjuntos de datos, y mayor capacidad para generalizar. Tal como señalan en blog de Facebook IA: «We hope these contributions bring the computer vision community one step closer to developing AI systems that can better understand the visual world in all its complexity».

El «desenredo y sus limitaciones en el enfoque actual

El «desenredo» se trata de una solución para identificar las variaciones naturales que tiene un objeto. Su objetivo es identificar y distinguir entre los factores de variación dentro de los datos. Los enfoques actuales para solucionar el «desenredo» intentan aprender la transformación subyacente de los datos/objetos en un modelo codificando cada uno de sus factores en un subespacio separado de la representación interna del modelo. Y que su funcionamiento interno resulte más comprensible.

Aplicar el «desenredo» en el ejemplo anterior para identificar a un perro en una imagen, se podría codificar un conjunto de datos de imágenes de perros en subespacios de pose, color y raza. Un modelo desenredado intentaría separar los dos factores de variación, la forma y la orientación del objeto, en dos espacios de representación. Actualmente, el «desenredo» tradicional no logra aislar la rotación en un conjunto de datos de múltiples formas. Es de esperar que la forma resaltada gire, pero debido a que el desenredo puede fallar, la forma permanece fija. Por lo que este enfoque es bueno para identificar los factores de variación en conjuntos de datos rígidos.

[Tweet «Sabias que gracias a los modelos de Deep Learning, los sistemas de IA pueden interpretar patrones estadísticos entre píxeles y tags»]

Descubrir factores de variación a través de operadores «equivariantes»

Sin embargo, lo que aporta Facebook a esta solución es que, en lugar de restringir cada transformación a un componente de una representación, ¿qué pasaría si las transformaciones pudieran modificar toda la representación? El objetivo de este enfoque es descubrir operadores capaces de manipular la imagen y su representación, un solo operador para cada factor de variación. Estos se conocen como equivariantes.

Estos son desarrollos interesantes porque los modelos equivariantes basados en la teoría de grupos amplían enormemente el alcance de la investigación del desenredo. Los modelos existentes se basan en una supervisión estricta, como comprender a priori las transformaciones de interés y hacerlas cumplir en el modelo. Pero, ¿cómo podemos descubrir las simetrías de un conjunto de datos utilizando una cantidad mínima de supervisión? Las investigaciones anteriores en esta área se han aplicado principalmente a datos sintéticos, por lo que el conocimiento de las simetrías subyacentes podría hacer que los modelos sean más robustos cuando se enfrentan a observaciones inusuales, como un autobús de costado o un perro con un juguete de gran tamaño en la boca.

Los humanos reconocen objetos desconocidos comparándolos intuitivamente con cosas que hemos visto antes. Los modelos se pueden entrenar para que sean equivalentes a las transformaciones de las subpartes de una imagen y, lo que es más importante, los modelos podrían recombinar las subpartes cuando se enfrenten a objetos desconocidos.

[Tweet «Procesamiento de imágenes con modelos IA en España, un claro ejemplo con modelos de deep learning de @ITelligent_IT»]

Procesamiento de imágenes con modelos IA en España

Actualmente, un claro ejemplo de sistemas basados en IA con modelos de deep learning para el procesamiento de imágenes y detección de objetos en imágenes es nuestro sistema de Visual Sensing dentro de nuestra plataforma netContent, basada en la gestión inteligente de contenidos. El sistema de Visual Sensing de ITELLIGENT permite de forma rápida, detectar tanto objetos como personas, y es capaz de establecer mediciones en base a las imágenes obtenidas por cámaras de vídeos. En otras palabras, el sistema Visual Sensing consiste en utilizar cámaras de vídeo como sensores para abordar diferentes casos de aplicación.

bg-intro-visual-sensoring-netcontent

Asimismo, netContent permite realizar mucho más. Se trata una plataforma de datos que bajo modelos de Inteligencia Artificial posee diversas funcionalidades para el procesamiento tanto de imágenes como vídeos. Desde buscar «aquello que se dice» en un vídeo hasta buscar y reconocer objetos en imágenes y generar tags. Además de las funcionalidad de búsqueda, permite crear alertas sobre los objetos reconocidos en las imágenes así como detectar similitud de imágenes o en caso contrario, detectar duplicaciones. netContent posee dashboards con visualizaciones de los datos para su análisis, medición y evaluación de los resultados de forma sencilla y rápida.

¿Quieres saber más? ¡Escríbenos!

Otras entradas de esta categoría

Espacios de datos: qué son y por qué son necesarios

Open Data

¿Por qué son necesarios los espacios de datos? Hoy en día, hay sectores donde es requisito...

Caso de uso ChatGPT: cómo contestar preguntas sobre un repositorio documental propio.

Big Data e Inteligencia Artificial

Nuestra plataforma netITELLIGENT dispone de un potente buscador sobre aquellos repositorios...

iPredice, un ejemplo de aplicación de Inteligencia Artificial para el mantenimiento predictivo de infraestructuras energéticas

Digitalización Ciclo del Agua

ITELLIGENT, en consorcio con Grupo Energético de Puerto Real, Wattabit y Universidad de Cádiz,...

« Entradas más antiguas

ITELLIGENT

Facebook AI Research trabaja en las limitaciones de los modelos de deep learning para la interpretación de objetos en imágenes

¿Quieres saber más? ¡Escríbenos!

Otras entradas de esta categoría

Espacios de datos: qué son y por qué son necesarios

Caso de uso ChatGPT: cómo contestar preguntas sobre un repositorio documental propio.

iPredice, un ejemplo de aplicación de Inteligencia Artificial para el mantenimiento predictivo de infraestructuras energéticas

¿Quieres aportar nueva información o hacernos un comentario?

0 comentarios

Enviar un comentario Cancelar la respuesta

Síguenos

Contacto

TELÉFONO	(+34) 910 783 660
EMAIL	info@itelligent.es
OFICINA CENTRAL	Parque Tecnológico CEEI Calle Manantial, 13, 11500 El Puerto de Santa María Cádiz – ESPAÑA