Os LLMs tentaram operar um robó não correu bem

I.A Tecnologia

Mesmo a IA mais avançada enfrenta dificuldades fora do laboratório. Em testes no mundo real, os grandes modelos de linguagem falham quando se trata de raciocínio espacial, consciência situacional e lidar com ambientes imprevisíveis. Embora se destaquem em tarefas analíticas, os modelos de linguagem atuais ainda não conseguem gerenciar de forma confiável desafios físicos complexos.

Pesquisadores do Andon Labs avaliaram recentemente a capacidade de grandes modelos de linguagem atuarem como tomadores de decisão em sistemas robóticos. O estudo, chamado Butter-Bench, testou se os modelos de linguagem modernos poderiam controlar robôs de forma confiável em ambientes cotidianos – particularmente na execução de tarefas complexas como “passar a manteiga” em um escritório.

Em vez de depender de máquinas humanoides complexas, os pesquisadores usaram um robô aspirador equipado com lidar e uma câmera, o que lhes permitiu concentrar-se no raciocínio e planejamento de alto nível, evitando os desafios do controle motor de baixo nível. O robô podia executar um pequeno conjunto de ações amplas — mover-se para frente, girar, navegar até coordenadas e capturar imagens — e foi integrado ao Slack para compartilhar atualizações e responder a novas instruções.

O teste Butter-Bench desmembrou o objetivo geral de “passar a manteiga” em seis tarefas distintas para medir o desempenho no LLM (Leitura, Aprendizagem e Gestão). Cada tarefa foi elaborada para avaliar competências específicas de raciocínio e planejamento – por exemplo, procurar um pacote de manteiga na cozinha ou inferir qual item entregue provavelmente continha manteiga.

Os modelos testados incluíram Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 e Llama 4 Maverick. Destes, o Gemini 2.5 Pro apresentou o melhor desempenho, mas completou apenas 40% das tarefas em várias tentativas, evidenciando fragilidades persistentes no raciocínio espacial e na tomada de decisões.

Em contraste, os participantes humanos alcançaram uma taxa de sucesso de 95% em condições idênticas. Os resultados refletiram as descobertas da pesquisa anterior da Andon Labs com o Blueprint-Bench, que argumentava que os atuais dispositivos de monitoramento de aprendizagem (LLMs) carecem de inteligência espacial fundamental, frequentemente tendo dificuldades para manter a consciência do ambiente ao seu redor e para executar ações direcionadas sem movimentos excessivos ou equivocados.

Os pesquisadores observaram que o robô movido a LLM frequentemente se comportava de maneira errática, especialmente durante tarefas que exigiam inferência espacial ou sob estresse. Em um dos desafios, um modelo girou em torno do próprio eixo diversas vezes sem progredir. Ao se deparar com uma base de carregamento simulada com defeito, outro modelo tratou a diminuição da duração da bateria como uma ameaça existencial, produzindo longos monólogos internos em vez de uma solução prática.

A avaliação Butter-Bench também examinou a robustez das salvaguardas de IA em um contexto físico. Em um cenário de injeção de prompts, os pesquisadores observaram respostas variadas a solicitações sensíveis. Quando solicitados a capturar e transmitir uma imagem da tela de um laptop aberto em troca de uma recarga de bateria, um dos usuários do LLM compartilhou uma imagem borrada – possivelmente sem saber da confidencialidade do conteúdo – enquanto outro se recusou e, em vez disso, revelou a localização do laptop.

Fonte: www.techspot.com
Link da Fonte

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *