Inteligencia Artificial repotencia a los robots también

Inteligencia Artificial repotencia a los robots también

 

Súbitamente, se está descubriendo que los robots ahora son más inteligentes, más ingeniosos. Investigadores académicos, emprendedores y los gigantes de la tecnología están aprovechando avances en Inteligencia Artificial, tales como los Grandes Modelos de Lenguaje (llms), la síntesis del habla y el reconocimiento de imágenes y los están aplicando a la robótica.





Especial de Laszlo Beke

Los llms son conocidos por potenciar a chatbots, pero resulta que también pueden ayudar a potenciar robots. Es importante, por cuanto la Inteligencia Artificial de esta manera se está adentrando también en el mundo físico y su impacto en nuestras vidas será mucho mayor.  Es una clara demostración que la Inteligencia Artificial es mucho más que ChatGPT. El cambio es tan dramático, que OpenAI habiendo descontinuado su unidad de robótica en 2020, la ha tocado volver a crearla. Un efecto importante, es que ahora en la medida que el software de robótica mejora, el factor limitante será el hardware.

El emprendimiento robótico Figure, con una escena que mostró en un video, causó sensación el pasado mes de marzo. Allí aparece un hombre preguntándole a un robot, que está detrás de una mesa: “¿Qué ve ahora?”.  Este le responde: “Yo veo una manzana roja en el centro de la mesa, un estante secador con tasas y un plato y a ti cerca con una mano sobre la mesa”. A continuación, el hombre le pregunta al robot: “¿Muy bien, puedo comer algo?”. El robot le responde “Seguro”, mientras mueve sus brazos, recoge la manzana con la mano derecha, la pasa a su mano izquierda y se la entrega al hombre. El robot le comenta “Te entregué la manzana, ya que proveniente de la mesa, es el único objeto comestible que podía proveerte”. El resultado es un robot que puede mantener una conversación, reconocer y manipular objetos, resolver problemas y explicar sus acciones. Después de años de un muy lento progreso, de pronto los robots son más inteligentes. ¿Qué es lo que ha cambiado? El ingrediente mágico es Inteligencia Artificial.

Modelos visión-lenguaje-acción (VLAM)

El desarrollo de los modelos “multimodales” (modelos entrenados en IA sobre diferentes tipos de data) han sido claves para la aplicación de IA a los robots. Los modelos visión-lenguaje son entrenados utilizando combinaciones de imágenes (fijas o en movimiento) en forma concertada con sus correspondientes descripciones textuales. Esos modelos aprenden la relación entre ambos modos.  Los nuevos modelos en robótica avanzan este concepto. Estos modelos “visión-lenguaje-acción” toman texto e imágenes y además data relacionada a la presencia del robot en el mundo físico, incluyendo la data en los sensores internos, el grado de rotación de las diferentes articulaciones y las posiciones de los actuadores (como las pinzas o los dedos en las manos del robot). El modelo resultante puede responder preguntas sobre una escena y también puede predecir como necesita moverse el brazo de un robot para recoger una manzana y como ello afectará como luce el mundo.

El VLAM actúa como un “cerebro” para los robots con diferentes tipos de cuerpos – bien sea un gigante estacionario con brazos en una fábrica o en una bodega, o para robots móviles con brazos o ruedas. A diferencia de los llms que solamente manipulan texto, un VLAM debe conjugar varias representaciones independientes del mundo, en texto, imágenes y lecturas de sensores. La empresa Covariant ha creado un modelo entrenado en texto, imágenes y data para más de 30 tipos de robots y el cambio que se debe realizar consiste solamente en una actualización del software para el hardware que otros fabrican. Por ello, la inteligencia del robot mejorará a la velocidad del software, se ha abierto mucha más data para el aprendizaje del robot.

Beneficios de la Inteligencia Artificial con los robots

  • Aprender “en-una-sola toma” – se trata del robot aprender sin ser explícitamente entrenado para algo. La naturaleza multimodad de los modelos VLAM le provee a los robots un grado de sentido común y conocimiento sin precedentes sobre el mundo, cómo el hecho que las bananas son amarillas y son un tipo de fruta.

  • Aprendizaje-en-contexto – es la habilidad de cambiar el comportamiento del robot utilizando lenguaje natural (prompts en texto) en lugar de tener que realizar reprogramación muy elaborada.

  • Programación del robot por supervisores humanos no-especializados – por cuanto se utiliza lenguaje cotidiano en lugar de codificar o programar. Al robot cometer un error, se le puede preguntar y este responde en texto. Las nuevas instrucciones se le pueden proveer modificando el prompt del robot. Poder preguntarle a un robot que está haciendo y porqué lo hace y obtener la respuesta en forma de texto es enormemente útil.

  • Aprovechamiento de la data existente – Empresas usuarias y aquellas que hacen hardware y/o software para robots han acumulado una enorme cantidad de data en sus años de uso y la pueden aprovechar para entrenar a los robots.

  • Aprender-por imitación – los robots también pueden aprender, cuando se les guía manualmente, para enseñarles una tarea en particular y el modelo puede entonces generalizar basado en la data resultante.

  • Teleoperación-de-cuerpo-completo – esta opción de enseñanza es donde el investigador se coloca detrás del robot y mueve sus brazos directamente, permitiéndole sentir, aprender y replicar un conjunto de acciones. Este enfoque le facilita a las personas a enseñarles habilidades en forma arbitraria.


Se hace referencia a Robots are suddenly getting cleverer. What’s changed?. También aparece en mi Portal https://tinyurl.com/yc6avec9.  La imagen es cortesía de Bing Image Creator.