
Si bien los grandes modelos de lenguaje (LLM) han dominado el arte de procesar texto e imágenes, siguen estando confinados en gran medida al ámbito digital. Pasar de generar código a doblar la ropa requiere un cambio fundamental en la forma en que la IA percibe el mundo. Microsoft está intentando cerrar esta brecha con Rho alfa (⍴ɑ), un nuevo modelo basado en robot diseñado para aportar adaptabilidad a tareas físicas.
Rho-alpha pertenece a la categoría de modelos Vision-Language-Action (VLA). Estos sistemas ingieren datos visuales y comandos en lenguaje natural para generar acciones del brazo robótico. Sin embargo, los VLA estándar suelen tener dificultades con tareas de precisión en las que la visión está obstruida o es inadecuada, como manipular un objeto liso o insertar un enchufe detrás de un escritorio. Rho-alpha resuelve esto integrando la detección táctil directamente en su proceso de toma de decisiones, una característica a la que Microsoft se refiere como «VLA+».
La principal innovación de Rho-alpha radica en cómo procesa los datos sensoriales. La mayoría de los modelos multimodales intentan tokenizar cada entrada convirtiendo imágenes y texto en unidades discretas que un transformador puede procesar. Pero la retroalimentación táctil es una señal continua de alta frecuencia que representa fuerza y resistencia y no puede representarse como tokens discretos.
Para solucionar esto, Microsoft desarrolló una arquitectura particionada. El modelo utiliza un modelo estándar de visión y lenguaje (VLM), derivado de la familia Phi de Microsoft, para manejar el razonamiento de alto nivel y la comprensión semántica. Pero el control del motor en sí está controlado por un módulo especializado llamado «experto en acción» que está vinculado al VLM. Los datos táctiles se fusionan con incrustaciones de imágenes, textos y propiocepción en la acción experta. Pero los datos táctiles pasan por alto el componente VLM y no se tokenizan.
En comentarios a TechTalks, Andrey Kolobov, director principal de investigación de Microsoft Research, explicó que esta arquitectura permite que el sistema evite los componentes de razonamiento más lentos cuando se necesita una respuesta física inmediata.
«El modelo trata lo táctil como una fuente continua de datos que proporciona información sobre las fuerzas aplicadas actualmente en la punta de los dedos de la pinza», dijo Kolobov.
Este mecanismo de derivación es esencial para la latencia. Alimentar datos de energía de alta frecuencia a través de un transformador masivo introduciría retrasos que harían imposible el control en tiempo real. Al fusionar datos táctiles en el experto en acciones más pequeño y más rápido, el robot puede responder a la resistencia física al instante y al mismo tiempo aprovechar VLM para un contexto más amplio.
«Consideramos que el propósito de las modalidades de detección física es ayudar a que nuestro modelo sea más reactivo y adaptativo», añadió Kolobov. «Por lo tanto, estamos agregando estas modalidades al experto en acción, que es una pequeña fracción de la arquitectura general, sin pasar por el VLM».
El objetivo a largo plazo, dijo Kolobov, es que el experto en acción, o parte de él, opere con la propiocepción y las modalidades de detección física a un ritmo significativamente mayor que con los datos visuales y lingüísticos.
Entrenar un modelo para que interactúe con el mundo físico presenta el desafío de la escasez de datos. A diferencia del texto, que puede extraerse de la web en petabytes, los datos de interacción de los bots son costosos y lentos de recopilar. Microsoft soluciona este problema entrenando a Rho-alpha en un entorno simulado utilizando Nvidia Isaac Sim.
Un problema de la robótica es la diferencia entre el entorno simulado y el mundo real, un obstáculo conocido como «brecha entre simulación y realidad». Sin embargo, el enfoque de Microsoft evita la necesidad de cerrar perfectamente la brecha entre simulación y realidad. El objetivo de la simulación no es crear una réplica 1:1 del mundo físico, sino enseñar al modelo conceptos generales de física y fuerza.
«En realidad, no confiamos en que la brecha entre la simulación y la realidad sea pequeña, y sólo hacemos aumento de datos convencional», dijo Kolobov. «El propósito de utilizar datos simulados durante el entrenamiento es proporcionar una idea previa aproximada de cómo es la retroalimentación táctil y de fuerza y cómo podría ser útil».
Al aprender estas «suposiciones» en la simulación, el modelo ingresa al mundo real y ya comprende que un aumento en las lecturas de fuerza generalmente significa que ha chocado con un obstáculo. Esto le permite ajustar su política con muchos menos datos del mundo real.
Una vez instalado, Rho-alpha continúa aprendiendo a través de la interacción humana. Si el robot falla en una tarea, un operador humano puede intervenir mediante teleoperación (utilizando dispositivos como un ratón 3D) para corregir el movimiento. El modelo consume esta retroalimentación para actualizar su política.
Pero esta capacidad de aprendizaje en línea presenta el riesgo de «olvido catastrófico”, donde aprender una nueva tarea hace que el modelo pierda habilidades en las anteriores.
«A medida que el modelo aprende de la retroalimentación sobre una tarea determinada, su desempeño en tareas que no se realizan actualmente puede degradarse a menos que se tomen precauciones para combatir esto», señaló Kolobov.
Para mitigar esto, el sistema puede recopilar datos y realizar actualizaciones a intervalos regulares, «recordando» efectivamente al modelo experiencias pasadas para mantener un conjunto de habilidades equilibrado.
Actualmente, Rho-alpha está optimizado para manipulación bimanual (dos brazos). Si bien, en teoría, muchas tareas se pueden realizar con un solo brazo, la coordinación de dos efectores finales mejora enormemente la eficiencia en entornos industriales.
«En muchos escenarios más allá de recoger y colocar, desde doblar ropa hasta empaquetar alimentos y ensamblar, realizar tareas con dos efectores finales en lugar de uno aumenta la velocidad de ejecución y la solidez y, por lo tanto, el rendimiento», explicó Kolobov.
El modelo tiene limitaciones de hardware en su estado actual. Solo admite manipulación, lo que significa que no puede controlar la base móvil de un robot o el cuerpo de un humanoide. Además, los datos de entrenamiento están fuertemente dominados por agarres de dos dedos, por lo que el uso de manos complejas con múltiples dedos o ventosas requeriría datos adicionales después del entrenamiento.
A pesar de estas limitaciones, la arquitectura ofrece una visión del futuro de la IA física. Al separar el razonamiento semántico de alto nivel del control motor de alta frecuencia y bajo nivel, Microsoft está construyendo un sistema que puede pensar como un LLM pero actuar con los reflejos necesarios para el mundo real.

