Tag: Deep Learning

Este sistema desarrollado por ITELLIGENT permite de forma rápida, detectar tanto objetos como personas, y es capaz de establecer mediciones en base a las imágenes obtenidas por cámaras de vídeos. En otras palabras, el sistema Visual Sensing consiste en utilizar cámaras  de vídeo como sensores.

A continuación, os mostramos dos casos de aplicación:

Detectar si una persona lleva el Equipo de Protección Individual (EPI)

Este caso de uso se trata de la creación rápida de un sistema que permite utilizar las cámaras como sensores para averiguar si un persona lleva o no el EPI.

Reconocimiento de persona y medición del tiempo en escena.

En este ejemplo, se muestra cómo el sistema Visual Sensing detecta a diferentes personas y mide el tiempo que permanece en una habitación.

En definitiva, el objetivo del sistema es conseguir que estos «sensores visuales» sean muy flexibles para que puedan abordar diferentes casos de aplicación. Todo ello, bajo modelos de deep learning y a través de una plataforma de datos, es posible llevar a cabo su configuración de forma rápida así como tener diferentes dashboards con visualizaciones de los datos de forma sencilla para su análisis, medición y evaluación de los resultados.

 ¿Quieres saber más? ¡Escríbenos!

Década de los 50

Se considera 1950 como el año del nacimiento del PLN, cuando Alan Turing publica un artículo denominado “Machine and Intelligence”. Poniendo de relieve que una forma de medir la inteligencia seria a través de la capacidad de una máquina de responder preguntas de forma que un operador humano no distinguiera sus respuestas de las de un humano (Test de Turing).

Un énfasis inicial en la década de los 50s fue la traducción automática, en particular entre inglés y ruso, con objetivos militares. Una época de fuerte optimismo en las posibilidades del PLN.

En esa época uno de los sistemas desarrollados, al traducir un versículo del testamento (Mateos, 26:41) que dice: ‘the spirit is willing, but the flesh is weak’ (el espíritu es voluntarioso, pero la carne es débil) lo tradujo por ‘the vodka is agreeable, but the meat is spoiled’ (el vodka es agradable pero la carne esta podrida), estos tipos de errores fueron los que hicieron

Década de los 60 y 70

A principio de los 60s los sistemas desarrollados de Traducción Automática son evaluados con resultados muy limitados lo que paralizó su desarrollo futuro y en general supuso un baño de realidad para el sector del PLN.

Durante esta década Noam Chomsky (lingüista estadounidense) introduce la teoría formal del lenguaje y la sintaxis generativa. Esto dio un nuevo impulso al PLN, con la creación de nuevas aproximaciones basadas principalmente en reglas cuyo objetivo era generar lenguaje o parsear textos.

Desgraciadamente estos sistemas basados en reglas, se vieron pronto superados por la complejidad del lenguaje natural, así los sistemas requerían más y más reglas llegando a convertirse en inmanejables.

Se comenta que en esa época Fred Jelinek de IBM que trabajaba en los sistemas de PLN decía: “cada vez que un lingüista abandona el equipo el sistema mejora”, en referencia a las limitaciones de los modelos basados en reglas lingüísticas frente a los modelos basados en probabilidad y aprendizaje automático.

Década de los 80 y 90

Las limitaciones de los sistemas basados en reglas hacen que en esta década comiencen a tener cada vez más protagonismo los sistemas basados en probabilidad y aprendizaje automático (machine learning). Estos sistemas van reduciendo su dependencia de modelos lingüísticos y se basan cada vez más en datos (ej. conjuntos de textos denominados “corpus”).

Durante los 90s la aparición de internet, introduce la disponibilidad de un gran número de textos (html, pdfs,…) y audios, además de la necesidad de nuevas herramientas que sean capaces de poner en valor estos grandes repositorios de datos. Durante esta década se desarrollan los sistemas de búsqueda (ej. AltaVista y Yahoo) y a finales de los 90s aparece Google que supone un cambio de paradigma en los sistemas de búsqueda.

yahoo

Década de los 2000

Las técnicas de Aprendizaje Automático (Machine Learning) van tomando cada vez más protagonismo. El éxito de empresas como Google, hacen que la Inteligencia Artificial y el PLN comiencen a popularizarse.

Durante la década del 2000s IBM desarrolla Watson, que en el 2011 derrota al juego del Jeopardy a dos expertos en dicho juego. Watson es un sistema diseñado para una tarea de PLN denominada Q&A (preguntas y respuestas), adaptado a las particularidades de Jeopardy y con capacidad de interactuar por voz con el presentador.

Década de los 2010

Las nuevas técnicas de Deep Learning (redes neuronales profundas) que a principios de la década están revolucionando el procesamiento de imágenes llegan al PLN. Apareciendo en el 2012 Word2Vec una técnica de “Word embedding” que permite representar las palabras de un texto como vectores, con unas propiedades muy interesantes. Word2vec representó la introducción de un nuevo paradigma en el PLN, que comienza a abordar con éxito tareas hasta entonces consideradas extremadamente complicadas.

En el 2018 Google presenta BERT, que es un modelo de Word embedding, que presenta mejoras sobre Word2vec, entre otras, su capacidad de representar mediante diferentes vectores palabras polisémicas.

La Redes Neuronales Generativas Adversarias conocidas a nivel mundial como GAN -del inglés, Generative Adversarial Networks- se tratan de modelos de deep learning para generar y/o manipular imágenes, fotos, videos y edición de audios. Gracias a la maravillosa mente de Ian Goodfellow, quién junto a otros siete compañeros de la Universidad de Montreal en 2014, escribieron el primer paper sobre Generative Adversal Networks, hoy en día conocemos estas redes neuronales basadas en deep lerning.

Las GANs funcionan con dos redes neuronales: una “generadora” y otra “discriminadora”. Ambas compiten en un constante juego de suma cero donde lo que una red gana, la otra pierde. En otras palabras,  la ganancia o pérdida de una de las redes se compensa con la ganancia o pérdida de la opuesta. Desarrollamos un poco más esta idea.

La red neuronal «generadora» produce muestras de aquello que queremos crear (ej. imágenes, textos, sonidos…) con el objetivo de engañar a la red «discriminadora» para que crea que son reales. A su vez, el objetivo de la red «discriminadora» es detectar las falsificaciones analizando el material producido por la red «generadora» y determinando si se ajusta a lo que está buscando.  Es decir, identifica si cada instancia de datos que revisa pertenece o no al conjunto de datos de entrenamiento. En palabras de Ian Goodfellow, «es un proceso donde cada una de las redes va mejorando y aprende de su oponente».

Las GAN han logrado grandes avances y ahora pueden producir imágenes falsas muy convincentes de animales, paisajes, rostros humanos, etc. hasta tal punto que han surgido apps que permiten, a cualquier persona con un smartphone, experimentar con esta tecnología. Un ejemplo de esto son las apps que generan imágenes «deep fakes».

Generación de imágenes «deep fakes»

Deep Fake es un concepto relativamente nuevo y que está compuesto por los términos: deep learning y fake. Esto es «aprendizaje profundo», una de las ramas de la Inteligencia Artificial, y la palabra, «falso». Este concepto es bastante acertado ya que la tecnología que genera estos rostros hiperrealistas (o casi hiperrealistas) que no se corresponden con una persona real ya que falsifica (fake) su voz y sus gestos, son modelos de deep learning basados en Redes Neuronales Generativas Adversarias (GAN).

Actualmente existen apps centradas en el «Deep fake» que permiten jugar con imágenes y/o audiovisuales de tal forma que cualquier persona, con tan solo descargarla, pueda tener a su disposición esta manipulación de imágenes. Uno de los primeros ejemplos más famosos de «deep fake» es un vídeo de con imágenes que «falseaba» ser Obama:

Otro ejemplo más reciente ocurrió el verano pasado (2019), con el auge de #FaceAppChallenge: una app que permitía simular qué aspecto podría tener una persona en el futuro en la vejez. Esta app se hizo viral pese a muchas advertencias en diferentes medios off/online sobre el posible «peligro» existente en la privacidad del usuario al aceptar las condiciones en la descarga de la aplicación. Sin embargo, pese a ello, hemos podido ver como se ha hecho de nuevo viral este verano. En esta ocasión, con simulaciones de cómo sería un persona cambiando de sexo, es decir, ver cómo se vería una mujer si fuese hombre o un hombre si fuese mujer.

.