Modelos de Machine Learning que razonen sobre tareas cotidianas

24/09/2020

machine-learning-tarragona-200923
No te resultará difícil encontrar ejemplos de soluciones y/o aplicaciones que utilicen diferentes modelos o conjunto de ellos para aprender y pensar como seres humanos.

Si bien son avances en diferentes campos específicos, por medio del uso de Deep Learning o Redes Neuronales Profundas, se ha logrado un avance significativo en el reconocimiento de objetos, en los videojuegos y hasta en los juegos de mesa, como es el caso de ajedrez o go, más recientemente, llegando a competir o superar a las personas en ciertos aspectos.

A pesar de su inspiración biológica y los logros de desempeño, los marcos de trabajo de Inteligencia Artificial desarrollados son diferentes de la inteligencia humana en formas esenciales. La ciencia cognitiva está creciendo y propone que las máquinas con capacidad de pensar y aprender como un humano deberían alcanzar las tendencias actuales de la ingeniería tanto en lo que aprenden como en cómo lo aprenden.

Habrás notado un cambio de tendencia en cómo se utilizan los modelos de Machine Learning, que han pasado de resolver una tarea que se puede ahora suponer como más básica, como lo es la detección de patrones, a tareas más complejas, como lo es el de ajustarse de forma independiente a nuevos datos. Es decir que estos modelos o conjunto de modelos aprenden de cálculos anteriores para crear decisiones y resultados sólidos y repetibles. Es una ciencia que no es nueva, sino que ha ganado un nuevo impulso.

Estas habilidades de la Inteligencia Artificial pueden utilizarse para resolver o ayudar en problemas muy complejos, o para resolver o trabajar en tareas más cotidianas, como lo ha demostrado un estudio sobre visión por ordenador, donde los científicos revelaron un modelo híbrido lenguaje-visión que puede contrastar y comparar una gran cantidad de escenas captadas en video para identificar las ideas de alto nivel que las conectan.

Su modelo mostró una mejora con respecto a las personas en dos tipos de tareas de razonamiento visual: elegir el video que mejor termina la serie con destreza y elegir el video que no encaja.

Durante el estudio, si se le mostraba un vídeo de un perro ladrando y un hombre gritando cerca de su perro, por ejemplo, el modelo terminó el set eligiendo al niño llorando de un set de cinco posibles vídeos. Los investigadores imitaron sus resultados en dos conjuntos de datos para entrenar marcos de Inteligencia Artificial en el reconocimiento de acciones: MIT's Multi-Moments in Time y DeepMind's Kinetics.

De acuerdo a Mathew Monfort, co-creador del estudio y científico investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, "las representaciones de lenguaje nos permiten incorporar información contextual aprendida de bases de datos de texto, en nuestros modelos visuales".

Palabras como "correr", "levantar peso" y "boxear" comparten algunas características comunes que las hacen más relacionadas con la idea de "hacer ejercicio", por ejemplo, que "conducir".

Utilizando WordNet, una base de datos de implicaciones de palabras, los investigadores planearon la conexión de cada etiqueta de clase de acción en "Momentos y cinética" con diferentes nombres en ambos conjuntos de datos. Palabras como "esculpir", "tallar" y "cortar", por ejemplo, se asociaron con ideas de nivel más significativas como "hacer manualidades" y "cocinar". Ahora, cuando el modelo percibe una acción como "esculpir", puede elegir ejercicios razonablemente comparativos en la base de datos.

Para finalizar, se comparó el modelo con las personas, donde los investigadores solicitaron que los voluntarios humanos realizaran arreglos similares de tareas de razonamiento visual en forma online. Sorprendentemente, el modelo funcionó tan bien como las personas en numerosas situaciones, a veces con resultados sorprendentes. En una pequeña desviación de la tarea de finalización del set, luego de ver un video de alguien envolviendo un regalo y cubriendo un artículo con cinta, el modelo recomendó un video de alguien en la orilla del mar cubriendo a otra persona en la arena.

Dentro de algunos puntos débiles del modelo se puede mencionar una inclinación a enfatizar demasiado algunos aspectos destacados. En un caso, recomendó terminar muchos videos deportivos con un video de un niño y una pelota, obviamente conectando las pelotas con el ejercicio y la competencia.

Un modelo de Deep Learning que pueda ser entrenado para "pensar" de manera más abstracta podría ser adecuado para aprender con menos información, afirman los analistas. La abstracción abre el camino a un nivel más significativo, a un pensamiento más parecido el de un ser humano.

Tu próximo proyecto quizás pueda incorporar soluciones donde el modelo busca resolver una tarea o dificultad cotidiana, aplicando un nuevo enfoque y creatividad.

   

Artículos relacionados

0 comentarios