Interés GeneralTecnología

El etiquetado automático de imágenes ya está aquí

El etiquetado automatico de imagenes ya esta aqui-FlickrPor Pablo Augusto Negri   –   

El etiquetado automático de imágenes es un nuevo servicio ofrecido por páginas web de almacenamiento y distribución de fotografías, como por ejemplo Flickr. Usualmente, el usuario puede incluir una etiqueta (tag en inglés) al cargar cada foto a la página, como por ejemplo “Vacaciones con Javier”, “Casino de Mar del Plata”, “Zambullida en Banco Pelay”, “Zapatos nuevos”,  etc. En general estas etiquetas pueden referirse a lugares, personas, objetos y representan una breve descripción del contenido de la imagen.  Esta tarea manual puede demandar mucho tiempo, y en general no se realiza.

Así como las páginas de redes sociales proponen a los usuarios etiquetar a sus amigos cuando alguna foto es cargada, estos nuevos sistemas automáticos son capaces de reconocer objetos, lugares, situaciones, y agregar estos datos a la foto. Luego, el usuario puede corregirlos o agregar nuevas descripciones, beneficiándose de una mejor organización de sus álbumes, al encontrar o clasificar más fácilmente sus fotografías.

Para realizar esta tarea que parecería trivial para un ser humano, es necesario aplicar recientes descubrimientos en procesamiento de imágenes, sustentados por los trabajos de investigaciones de los últimos 40 años en la historia de esta disciplina llamada Visión Artificial.

El funcionamiento de estos sistemas se basa en extraer toda la información posible de la imagen. Su menor (y única) unidad de información son los píxeles, que son aquellos cuadraditos que es posible descubrir haciendo varias veces zoom en una foto. El dato que aporta el pixel es una medida del color que el sensor de la cámara identificó en ese lugar de la escena. Por supuesto que esto no representa mucha información. Sin embargo, lo importante no es analizar un pixel solito, sino las relaciones que podemos hacer entre él y los otros píxeles de la imagen. Ahí está el secreto de los sistemas de reconocimiento.

Para entender esta idea, supongamos que nos dan una caja de pequeños mosaicos de colores y nos piden que armemos una imagen de un paisaje de montaña. Podríamos comenzar por separar los mosaicos marrones, y blancos, y reunirlos en una forma triangular, en su base ponemos los marrones y en el pico los blancos (por la nieve). Luego, para completar la imagen, separamos todos los mosaicos azules o celestes para hacer el cielo que rodearía la montaña. Los mosaicos, nuestros píxeles, de un mismo color azul generan un grupo compacto (todos se tocan) que corresponde a la región del cielo.  Otro concepto que podemos extraer es el de frontera, que sería la línea que delimita los mosaicos de la montaña con los del cielo, y que nosotros mismos le dimos una forma triangular. El etiquetado automático podría identificar la gran región de cielo en la parte superior de la imagen y proponer una etiqueta de “Paisaje”. Luego analizar la forma triangular, con su base formada por un grupo de píxeles marrones y una parte superior de píxeles blancos. El sistema conoce de antemano, que ante una configuración así, es posible que se trate de una “Montaña”, y puede agregar también esta etiqueta.

Para los sistemas computacionales, este conocimiento a priori sobre la forma de un objeto se adquiere mediante un aprendizaje de cuáles son las características que tienen en común las montañas, en nuestro caso. Se dice que necesitamos entrenarlo para que reconozca este objeto, con lo cual se debe mostrar una gran cantidad de imágenes con la mayor diversidad posible: montañas con nieve, sin nieve, con árboles, etc. Luego, automáticamente, cuando se encuentre una configuración de píxeles de ciertos colores y que tengan tal o cual forma, el sistema responde que su apariencia se asemeja a una montaña. Estamos ahora interpretando las relaciones entre los píxeles de la imagen para sacar conclusiones.

En la actualidad, se realizan enormes esfuerzos de la comunidad científica para resolver este tema, proponiéndose continuamente desafíos que hasta hace algunos años parecerían imposibles de lograr. Por ejemplo, en la página web ImageNet (http://www.image-net.org/), se ha lanzado un concurso para proponer sistemas que sean capaces de reconocer más de 1000 clases de objetos. Para ello se proveen 14 millones de imágenes manualmente etiquetadas que sirven para entrenar los sistemas. Sistemas de reconocimiento complejos que son ejecutados en computadoras especiales obtienen excelentes resultados sobre estas bases.

Estos resultados permiten realimentar al propio sistema, generando más  imágenes etiquetadas que mejorarían aún más los algoritmos. Dados los avances tecnológicos constantes, podemos esperar que en un futuro no muy lejano, estas aplicaciones funcionen en dispositivos hogareños. De esta manera, no se estaría muy lejos de sistemas robóticos de visión que hoy en día solo vemos en películas  de ciencia ficción.

Pablo Augusto NEGRI

Curso sus estudios primarios en la Escuela Normal Mariano Moreno de Concepción del Uruguay y los secundarios en el Colegio Superior del Uruguay Justo José de Urquiza, obteniendo el título de Técnico en Computación.

Es Ingeniero en Electrónica, Facultad de Ingeniería (Universidad Nacional de La Plata), 1998. Ingeniero en Calidad (UTN).
Maestría en Robótica, Universidad Pierre et Marie Curie-Paris VI, 2003. Doctor en Informática, Universidad Pierre et Marie Curie-Paris VI, 2008.

Actualmente es Investigador (CONICET) y Profesor Adjunto, Señales y Sistemas (UADE).

Related Articles

CulturaEducaciónHistoriaInterés General

Cuando Hernandarias prohibía el mate

El 20 de mayo de 1616 el gobernador de Buenos Aires y...

CulturaEducaciónHistoriaInterés General

La vigencia de Maquiavelo a más de 490 años de su muerte

Publicamos este ensayo de uno de los grandes escritores de este siglo,...