Durante algunas semanas, nadie tomó un café en la oficina, no hubo almuerzos compartidos, no hubo charlas cara a cara, mucho menos festejos de cumpleaños ni momentos recreativos. Sin embargo, la empresa funcionó. O al menos lo intentó.
La escena pareciera salida de una novela de ciencia ficción: una compañía de software donde todos los empleados, desde los programadores hasta los responsables de recursos humanos, son agentes de inteligencia artificial. Una empresa sin personas. La idea no surgió en Silicon Valley, sino que nació como un experimento académico en la Carnegie Mellon University (CMU), una de las universidades más prestigiosas del mundo en ciencia y tecnología.
El equipo de investigadores creó The Agent Company, una empresa simulada con tareas inspiradas en el trabajo del mundo real: desarrollo de software, análisis de datos, gestión de proyectos, administración y finanzas. Cada rol fue ocupado por un agente de IA distinto. El objetivo era claro: evaluar si la IA, operando en conjunto, puede realizar el trabajo de una empresa real. Más bien, si los humanos ya somos reemplazables en su totalidad. Un informe de Goldman Sachs de 2023 ya había indicado que la IA podría sustituir el equivalente a 300 millones de empleos a tiempo completo. Quedaba demostrarlo.
Por eso, decidieron crear una empresa ficticia desde cero. Armaron equipos, asignaron proyectos, integraron herramientas reales —como navegadores web y software de documentación— y hasta simularon conversaciones entre compañeros.
Las tareas fueron diversas. Algunas, simples para un humano como completar un documento, buscar información en un sitio web, escribir un archivo en formato Word. Otras, más complejas: resolver bugs en Python, gestionar bases de datos, mantener coherencia en una cadena de decisiones. Para ejecutarlas, usaron un sistema llamado OpenHands, respaldado por modelos avanzados como Claude Sonnet 3.5, Gemini 2.0 y GPT-4o.
Los resultados fueron una mezcla de asombro y frustración. El mejor agente, impulsado por Claude 3.5 Sonnet, logró completar apenas el 24% de las tareas. Y no porque fuera perezoso o poco sofisticado. Simplemente, hay instrucciones que aún no entiende.
Por ejemplo, una de las tareas requería guardar un archivo como answer.docx. Cualquier persona sabe que eso implica abrir Word o usar una herramienta compatible. Pero la IA lo interpretó como texto plano. Pequeños detalles que revelan que la IA todavía no tiene sentido común, falla en cuestiones muy simples. En una tarea, un agente debía contactar a un empleado. Como no lo encontraba en el sitio interno, optó por cambiar el nombre de un compañero cualquiera por el del objetivo para que el sistema le permitiera avanzar.
También hubo fallas más técnicas. Los agentes tuvieron problemas para leer correctamente páginas web, una tarea que requiere interpretar estructuras visuales o acceder al contenido a través del “árbol de accesibilidad” que usan los navegadores. OpenHands solo admite este método, más económico pero limitado. El reconocimiento de imágenes —más parecido a cómo lo haría un humano— aún está fuera de su alcance.
No todo fue malo
Hubo momentos brillantes: el mismo sistema, con respaldo de Gemini 2.5 Pro, completó uno de los proyectos más complejos del curso de base de datos de la universidad: navegar por un sitio privado, configurar un entorno local, modificar múltiples archivos fuente, compilar y testear. Lo hizo en 8 minutos y por apenas 2,41 dólares.
La paradoja es evidente. Los agentes de IA pueden resolver tareas difíciles, pero fracasan en otras que un pasante resolvería en dos clics. Y aunque el 25% de efectividad pueda sonar bajo, marca un hito: nunca antes se había probado la IA en condiciones tan cercanas al trabajo real.
Una de las principales conclusiones fue que los agentes de IA aún tienen serias limitaciones en tareas con alta carga social, como colaborar, escalar problemas o simplemente esperar una respuesta. En una tarea específica, se indicaba que si un compañero no respondía en 10 minutos, había que escalar al director de tecnología (CTO). Ningún agente lo hizo bien. Uno de ellos “supuso” que habían pasado los 10 minutos y actuó en consecuencia sin motivo aparente.
Fuente: Infobae
