Tag: Deep Learning

En un post anterior, nos adentrábamos en la historia del Procesamiento del Lenguaje Natural y su evolución a lo largo de las décadas de los 50 hasta el 2010. Ésta última, con la llegada del Deep Learning supuso un cambio extraordinario, ya que estas nuevas técnicas de redes neuronales profundas revolucionan el procesamiento de imágenes que influyen en las técnicas del Procesamiento del Lenguaje Natural (PLN).

Uno de los elementos  fundamentales  fue la aparición de Word2Vec (Mikolov et al., 2013). La intuición básica de Word2Vec, está basada en una idea introducida por Firth en 1957:

“el significado de las palabras esta asociado a las palabras que le acompañan (contexto)”

Word2Vec se trata de una técnica de “word embedding” que permite representar las palabras de un texto como vectores, con unas propiedades muy interesantes. Word2vec representó la introducción de un nuevo paradigma en el Procesamiento del Lenguaje Natural, que comienza a abordar con éxito tareas hasta entonces consideradas extremadamente complicadas. Word2Vec se basa en entrenar una red neuronal, para que dada una palabra (ej. turismo) devuelva palabras de su contexto (ej. viajes). Para ello se le pasa un gran número de textos (ej. la wikipedia entera) y a partir de ellos Word2Vec se entrena.

Para entenderlo mejor, supongamos que tenemos un conjunto de textos (corpus) con 10.000 palabras diferentes (vocabulario). Iremos tomando cada palabra del cada texto y viendo las palabras que la rodean (ej. a todas las palabras en una ventana de 4 palabras de la elegida).

turismo pln

En esta frase, la palabra «turismo» estaría rodeada de: sector, de, viajes, y, a, nivel, mundial, se. El objetivo es que el sistema aprenda, mediante ejemplos, el contexto de una palabra. Los ejemplos serán, por tanto: (turismo, sector), (turismo, de), (turismo, viajes), … como esto lo podemos hacer con cada palabra del corpus tendremos millones de ejemplos para entrenar al modelo.  Si a la red neuronal le introducimos la palabra “turismo” esperamos que nos devuelva una probabilidad alta de que “sector” esté en su contexto:

red neuronal turismo

Referencia: MC CORMICK

Una vez entrenado Word2Vec, es posible obtener una representación vectorial de cada palabra. Lo interesante es que dicha representación vectorial tiene “embebida” el significado (semántica) de la palabra además de características sintácticas.

Otro ejemplo. si buscamos aquellas palabras con vectores mas cercanos a la palabra “frog” vemos que nos salen palabras muy relacionadas con “frog”, esto son traducciones de la palabra (rana) o palabra en plural (frogs), nombres científicos de ranas (litoria), etc.

frog w2v

Referencia: GLOVE STANFORD

Uno de los resultados más sorprendentes de Word2Vec es su capacidad de generar analogías, así por ejemplo podemos hacer:

Vector(Madrid) – Vector(España) + Vector(Senegal) nos devuelve la palabra Dakar.

Básicamente:  “Madrid es a España como Dakar es a Senegal”.

La representación que consigue Word2Vec mantiene las relaciones semánticas y sintácticas de las palabras, lo que permite operar con ellos (sumas y resta) y obtener resultados como los de la analogía anterior. La aplicación directa de los word embedding obtenidos por Word2Vec a distintas tareas de Procesamiento del Lenguaje Natural (ej. clasificación de documentos, análisis del sentimiento,…) hizo que automáticamente se mejorasen los resultados alcanzados hasta ese momento. Esto ha despertado un extraordinario interés de la comunidad científica por estas técnicas que actualmente son preponderantes en el PLN, con una gran multitud de nuevos modelos (ej. Google Bert) y mejoras en los resultados.

En cierta forma, estos resultados nos acercan un poco al objetivo final del Procesamiento del Lenguaje Natural, que no es otro que:

«las máquinas entiendan realmente el lenguaje»

 

 

En la carrera por construir tecnologías subyacentes que puedan impulsar la próxima ola de revolución de la Inteligencia Artificial, un laboratorio chino acaba de derrocar a OpenAI y a Google,  al presentar un modelo de Deep Learning con una inmensa cantidad de parámetros de entrenamiento. La Academia de Inteligencia Artificial de Beijing, denominada BAAI, ha lanzado este mes de junio la última versión de Wu Dao, un modelo de Deep learning previamente entrenado que el laboratorio denominó «el primero de China» y » el más grande del mundo ”, con la friolera de 1,75 billones de parámetros.

Teniendo en cuenta que, Wu Dao 2.0 es 10 veces mayor que el modelo GPT-3 de OpenAI, el venerado laboratorio de investigación con sede en EEUU, el cual ya era ampliamente considerado como el mejor modelo en términos de la generación del lenguaje (Natural Language Generation), podemos afirmar que este nuevo modelo chino desafía a todos los anteriores logrando un nuevo avance en Inteligencia Artificial.

Google presentó el pasado mes de mayo  en su evento para desarrolladores Google IO, dos Inteligencias Artificials, LaMDA y MUM, que revolucionarán los chatbots y el motor de búsqueda, respectivamente. En el caso de MUM, modelo unificado multitarea que es capaz de responder preguntas complejas y extraer información tanto de texto como de imágenes, es un ejemplo reciente de modelos multimodales. Sin embargo, los submodelos de Wu Dao 2.0 lograron un mejor rendimiento que los modelos anteriores, superando OpenAI y Google en la indexación de imágenes y texto.

¿Qué es Wu Dao?

Wu Dao es principalmente un sistema de inteligencia artificial multimodelo, lo que significa que está repleto de energía para realizar una gran cantidad de tareas como generación de texto, reconocimiento de imágenes, generación de imágenes, etc.

Poema generado por Wu Dao 2.0

A diferencia de los modelos de aprendizaje profundo convencionales que suelen ser específicos de una tarea, Wu Dao 2.0 es un modelo multimodal entrenado para abordar tanto el texto como la imagen. Pero el componente más extraordinario de este modelo de IA que lo diferencia de todos los demás es, sin duda, su tamaño. Para hacer una comparación, este modelo de IA se entrenó utilizando 1,75 billones de parámetros; por el contrario, el modelo más destacado de OpenAI, GPT-3, que ha sido entrenado utilizando solo 175 mil millones de parámetros. Además, el modelo desarrolla tanto en chino como en inglés las habilidades adquiridas a medida que ha «estudiado» 4,9 terabytes de imágenes y textos, incluidos 1,2 terabytes de texto en esos dos idiomas. WuDao 2.0 ya tiene 22 socios, como el fabricante de teléfonos inteligentes Xiaomi o el gigante de videos cortos Kuaishou.

Este modelo es capaz de simular conversaciones, comprender imágenes, escribir poemas originales, responder preguntas, escribir ensayos, generar texto alternativo para imágenes y generar imágenes correspondientes a partir de la descripción del lenguaje natural con un nivel decente de fotorrealismo.

Asimismo, estamos ante el primer estudiante virtual con inteligencia artificial de China, Hua Zhibing, hija de Wu Dao 2.0, es la primera estudiante virtual china. Ella puede aprender continuamente, componer poesía, hacer dibujos y aprenderá a codificar en el futuro. A diferencia de GPT-3, Wu Dao 2.0 puede aprender diferentes tareas a lo largo del tiempo, sin olvidar lo aprendido anteriormente. Esta característica parece acercar aún más la IA a la memoria humana y los mecanismos de aprendizaje.

Wu Dao 2.0 es ahora la red neuronal más grande jamás creada y probablemente la más poderosa. Su potencial y sus límites aún no se han revelado por completo, pero las expectativas son altas y con razón.

Fuentes: gpt3demo.com towardsdatascience.com pingwest.com marktechpost.com

portada facebook ai

Cuando estamos ante una imagen, los seres humanos reconocemos de forma innata cada uno de los elementos que componen dicha imagen y sus elementos diferenciadores en base al conocimiento que tenemos del mundo que nos rodea. Es por tanto, que podemos reconocer cuando aparece en una imagen un gato o un perro lo reconocemos, así como podemos identificar su raza, color o que posea algo que nunca antes habíamos encontrado, por ejemplo, un perro sin cola y cojo. Así mismo, podemos identificar a un Jack Russel, ya aparezca en la imagen de perfil, de frente, boca abajo, saltando o incluso bañándose en la playa.

Gracias a los modelos de Deep Learning, los sistemas de Inteligencia Artificial pueden interpretar patrones estadísticos entre píxeles y tags, aunque poseen alguna limitaciones para identificar correctamente los objetos en sus muchas variaciones naturales. ¿Es una quitanieves que viene por la carretera? ¿O un autobús escolar volcado de lado?

facbook ia

Fuente: ai.facebook.com Créditos: Figura basada en “Strike (with) a pose: Neural networks are easily fooled by strange poses of familiar objects” de M.A. Alcorn et al. muestra una red neuronal clasificando erróneamente un autobús como quitanieves.

Un humano lo sabría al instante, sin embargo para los modelos de Inteligencia Artificial factores como el color, el tamaño y la perspectiva complican una predicción con éxito. En este sentido, Facebook IA se centra en este desafío para capturar la variación natural e identificar las limitaciones de la solución tradicional, conocida como «desenredo». Asimismo, Facebook IA ha desarrollado recientemente la idea de un operador de cambio «equivariante». Se trata de una prueba de concepto para una solución alternativa que podría ayudar a los modelos de deep learning a comprender cómo un objeto puede variar al imitar las transformaciones más comunes.

El trabajo que está desarrollando Facebook IA actualmente es gran parte teórico, por el momento, aunque tiene un amplio potencial para los modelos de deep learning, en particular, en la «visión de una computadora»: a mayor interpretabilidad y precisión, mejor rendimiento, incluso cuando se entrena en pequeños conjuntos de datos, y mayor capacidad para generalizar. Tal como señalan en blog de Facebook IA: «We hope these contributions bring the computer vision community one step closer to developing AI systems that can better understand the visual world in all its complexity».

El «desenredo y sus limitaciones en el enfoque actual

El «desenredo» se trata de una solución para identificar las variaciones naturales que tiene un objeto. Su objetivo es identificar y distinguir entre los factores de variación dentro de los datos. Los enfoques actuales para solucionar el «desenredo» intentan aprender la transformación subyacente de los datos/objetos en un modelo codificando cada uno de sus factores en un subespacio separado de la representación interna del modelo. Y que su funcionamiento interno resulte más comprensible.

Aplicar el «desenredo» en el ejemplo anterior para identificar a un perro en una imagen, se podría codificar un conjunto de datos de imágenes de perros en subespacios de pose, color y raza. Un modelo desenredado intentaría separar los dos factores de variación, la forma y la orientación del objeto, en dos espacios de representación. Actualmente, el «desenredo» tradicional no logra aislar la rotación en un conjunto de datos de múltiples formas. Es de esperar que la forma resaltada gire, pero debido a que el desenredo puede fallar, la forma permanece fija. Por lo que este enfoque es bueno para identificar los factores de variación en conjuntos de datos rígidos.

Descubrir factores de variación a través de operadores «equivariantes»

Sin embargo, lo que aporta Facebook a esta solución es que, en lugar de restringir cada transformación a un componente de una representación, ¿qué pasaría si las transformaciones pudieran modificar toda la representación? El objetivo de este enfoque es descubrir operadores capaces de manipular la imagen y su representación, un solo operador para cada factor de variación. Estos se conocen como equivariantes.

Estos son desarrollos interesantes porque los modelos equivariantes basados ​​en la teoría de grupos amplían enormemente el alcance de la investigación del desenredo. Los modelos existentes se basan en una supervisión estricta, como comprender a priori las transformaciones de interés y hacerlas cumplir en el modelo. Pero, ¿cómo podemos descubrir las simetrías de un conjunto de datos utilizando una cantidad mínima de supervisión? Las investigaciones anteriores en esta área se han aplicado principalmente a datos sintéticos, por lo que el conocimiento de las simetrías subyacentes podría hacer que los modelos sean más robustos cuando se enfrentan a observaciones inusuales, como un autobús de costado o un perro con un juguete de gran tamaño en la boca.

Los humanos reconocen objetos desconocidos comparándolos intuitivamente con cosas que hemos visto antes. Los modelos se pueden entrenar para que sean equivalentes a las transformaciones de las subpartes de una imagen y, lo que es más importante, los modelos podrían recombinar las subpartes cuando se enfrenten a objetos desconocidos.

Procesamiento de imágenes con modelos IA en España 

Actualmente, un claro ejemplo de sistemas basados en IA con modelos de deep learning para el procesamiento de imágenes y detección de objetos en imágenes es nuestro sistema de Visual Sensing dentro de nuestra plataforma netContent, basada en la gestión inteligente de contenidos. El sistema de Visual Sensing de ITELLIGENT permite de forma rápida, detectar tanto objetos como personas, y es capaz de establecer mediciones en base a las imágenes obtenidas por cámaras de vídeos. En otras palabras, el sistema Visual Sensing consiste en utilizar cámaras de vídeo como sensores para abordar diferentes casos de aplicación.

bg-intro-visual-sensoring-netcontent

Asimismo, netContent permite realizar mucho más. Se trata una plataforma de datos que bajo modelos de Inteligencia Artificial posee diversas funcionalidades para el procesamiento tanto de imágenes como vídeos. Desde buscar «aquello que se dice» en un vídeo hasta buscar y reconocer objetos en imágenes y generar tags. Además de las funcionalidad de búsqueda, permite crear alertas sobre los objetos reconocidos en las imágenes así como detectar similitud de imágenes o en caso contrario, detectar duplicaciones. netContent posee dashboards con visualizaciones de los datos para su análisis, medición y evaluación de los resultados de forma sencilla y rápida.

  ¿Quieres saber más? ¡Escríbenos!