ITELLIGENT

Facebook AI Research trabaja en las limitaciones de los modelos de deep learning para la interpretación de objetos en imágenes

Post sobre:

Escrito por:

Martel, Jaime
04/05/2021

portada facebook ai

Cuando estamos ante una imagen, los seres humanos reconocemos de forma innata cada uno de los elementos que componen dicha imagen y sus elementos diferenciadores en base al conocimiento que tenemos del mundo que nos rodea. Es por tanto, que podemos reconocer cuando aparece en una imagen un gato o un perro lo reconocemos, así como podemos identificar su raza, color o que posea algo que nunca antes habíamos encontrado, por ejemplo, un perro sin cola y cojo. Así mismo, podemos identificar a un Jack Russel, ya aparezca en la imagen de perfil, de frente, boca abajo, saltando o incluso bañándose en la playa.

Gracias a los modelos de Deep Learning, los sistemas de Inteligencia Artificial pueden interpretar patrones estadísticos entre píxeles y tags, aunque poseen alguna limitaciones para identificar correctamente los objetos en sus muchas variaciones naturales. ¿Es una quitanieves que viene por la carretera? ¿O un autobús escolar volcado de lado?

facbook ia

Fuente: ai.facebook.com Créditos: Figura basada en “Strike (with) a pose: Neural networks are easily fooled by strange poses of familiar objects” de M.A. Alcorn et al. muestra una red neuronal clasificando erróneamente un autobús como quitanieves.

Un humano lo sabría al instante, sin embargo para los modelos de Inteligencia Artificial factores como el color, el tamaño y la perspectiva complican una predicción con éxito. En este sentido, Facebook IA se centra en este desafío para capturar la variación natural e identificar las limitaciones de la solución tradicional, conocida como «desenredo». Asimismo, Facebook IA ha desarrollado recientemente la idea de un operador de cambio «equivariante». Se trata de una prueba de concepto para una solución alternativa que podría ayudar a los modelos de deep learning a comprender cómo un objeto puede variar al imitar las transformaciones más comunes.

El trabajo que está desarrollando Facebook IA actualmente es gran parte teórico, por el momento, aunque tiene un amplio potencial para los modelos de deep learning, en particular, en la «visión de una computadora»: a mayor interpretabilidad y precisión, mejor rendimiento, incluso cuando se entrena en pequeños conjuntos de datos, y mayor capacidad para generalizar. Tal como señalan en blog de Facebook IA: «We hope these contributions bring the computer vision community one step closer to developing AI systems that can better understand the visual world in all its complexity».

El «desenredo y sus limitaciones en el enfoque actual

El «desenredo» se trata de una solución para identificar las variaciones naturales que tiene un objeto. Su objetivo es identificar y distinguir entre los factores de variación dentro de los datos. Los enfoques actuales para solucionar el «desenredo» intentan aprender la transformación subyacente de los datos/objetos en un modelo codificando cada uno de sus factores en un subespacio separado de la representación interna del modelo. Y que su funcionamiento interno resulte más comprensible.

Aplicar el «desenredo» en el ejemplo anterior para identificar a un perro en una imagen, se podría codificar un conjunto de datos de imágenes de perros en subespacios de pose, color y raza. Un modelo desenredado intentaría separar los dos factores de variación, la forma y la orientación del objeto, en dos espacios de representación. Actualmente, el «desenredo» tradicional no logra aislar la rotación en un conjunto de datos de múltiples formas. Es de esperar que la forma resaltada gire, pero debido a que el desenredo puede fallar, la forma permanece fija. Por lo que este enfoque es bueno para identificar los factores de variación en conjuntos de datos rígidos.

[Tweet «Sabias que gracias a los modelos de Deep Learning, los sistemas de IA pueden interpretar patrones estadísticos entre píxeles y tags»]

Descubrir factores de variación a través de operadores «equivariantes»

Sin embargo, lo que aporta Facebook a esta solución es que, en lugar de restringir cada transformación a un componente de una representación, ¿qué pasaría si las transformaciones pudieran modificar toda la representación? El objetivo de este enfoque es descubrir operadores capaces de manipular la imagen y su representación, un solo operador para cada factor de variación. Estos se conocen como equivariantes.

Estos son desarrollos interesantes porque los modelos equivariantes basados ​​en la teoría de grupos amplían enormemente el alcance de la investigación del desenredo. Los modelos existentes se basan en una supervisión estricta, como comprender a priori las transformaciones de interés y hacerlas cumplir en el modelo. Pero, ¿cómo podemos descubrir las simetrías de un conjunto de datos utilizando una cantidad mínima de supervisión? Las investigaciones anteriores en esta área se han aplicado principalmente a datos sintéticos, por lo que el conocimiento de las simetrías subyacentes podría hacer que los modelos sean más robustos cuando se enfrentan a observaciones inusuales, como un autobús de costado o un perro con un juguete de gran tamaño en la boca.

Los humanos reconocen objetos desconocidos comparándolos intuitivamente con cosas que hemos visto antes. Los modelos se pueden entrenar para que sean equivalentes a las transformaciones de las subpartes de una imagen y, lo que es más importante, los modelos podrían recombinar las subpartes cuando se enfrenten a objetos desconocidos.

[Tweet «Procesamiento de imágenes con modelos IA en España, un claro ejemplo con modelos de deep learning de @ITelligent_IT»]

Procesamiento de imágenes con modelos IA en España 

Actualmente, un claro ejemplo de sistemas basados en IA con modelos de deep learning para el procesamiento de imágenes y detección de objetos en imágenes es nuestro sistema de Visual Sensing dentro de nuestra plataforma netContent, basada en la gestión inteligente de contenidos. El sistema de Visual Sensing de ITELLIGENT permite de forma rápida, detectar tanto objetos como personas, y es capaz de establecer mediciones en base a las imágenes obtenidas por cámaras de vídeos. En otras palabras, el sistema Visual Sensing consiste en utilizar cámaras de vídeo como sensores para abordar diferentes casos de aplicación.

bg-intro-visual-sensoring-netcontent

Asimismo, netContent permite realizar mucho más. Se trata una plataforma de datos que bajo modelos de Inteligencia Artificial posee diversas funcionalidades para el procesamiento tanto de imágenes como vídeos. Desde buscar «aquello que se dice» en un vídeo hasta buscar y reconocer objetos en imágenes y generar tags. Además de las funcionalidad de búsqueda, permite crear alertas sobre los objetos reconocidos en las imágenes así como detectar similitud de imágenes o en caso contrario, detectar duplicaciones. netContent posee dashboards con visualizaciones de los datos para su análisis, medición y evaluación de los resultados de forma sencilla y rápida.

  ¿Quieres saber más? ¡Escríbenos!

 

 

 

Otras entradas de esta categoría

¿Quieres aportar nueva información o hacernos un comentario?

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *