A Google DeepMind revelou modelos de inteligência artificial para robótica que considerou um marco na longa busca para tornar as máquinas de uso geral mais úteis e práticas no mundo cotidiano.
Os novos modelos de robótica da empresa, chamados Gemini Robotics e Gemini Robotics-ER, foram projetados para ajudar robôs a se adaptarem a ambientes complexos, aproveitando as capacidades de raciocínio de grandes modelos de linguagem para completar tarefas complicadas do mundo real.
De acordo com a Google DeepMind, um robô treinado usando seus novos modelos foi capaz de dobrar uma raposa de origami, organizar uma mesa de acordo com instruções verbais, enrolar fios de fones de ouvido e fazer uma enterrada com uma bola de basquete em miniatura. A empresa também está fazendo parceria com a startup Apptronik para construir robôs humanoides usando essa tecnologia.
O desenvolvimento ocorre enquanto grupos de tecnologia, incluindo Tesla, OpenAI e startups estão correndo para construir o “cérebro” de IA que pode operar robôs de forma autônoma, em movimentos que podem transformar uma variedade de indústrias, desde a manufatura até a saúde.
Jensen Huang, CEO da fabricante de chips Nvidia, disse neste ano que o uso de IA generativa para implantar robôs em larga escala representa uma oportunidade de trilhões de dólares que “abrirá caminho para a maior indústria de tecnologia que o mundo já viu”.
O progresso na robótica avançada tem sido dolorosamente lento nas últimas décadas, com cientistas codificando manualmente cada movimento que um robô faz.
Graças às novas técnicas de IA, os cientistas conseguiram treinar robôs para se adaptarem melhor ao seu entorno e aprenderem novas habilidades muito mais rapidamente.
“O Gemini Robotics é duas vezes mais amplo que nossos melhores modelos anteriores, realmente dando um salto significativo em direção a robôs de uso geral”, disse Kanishka Rao, engenheiro de software principal da Google DeepMind.
Para criar o modelo Gemini Robotics, a Google usou seu modelo de linguagem Gemini 2.0 e o treinou especificamente para controlar robôs. Isso deu aos robôs um aumento de desempenho e permitiu que fizessem três coisas: ajustar-se a diferentes novas situações, responder rapidamente a instruções verbais ou mudanças em seu ambiente e serem suficientemente hábeis para manipular objetos.
Tal adaptabilidade seria uma bênção para aqueles que desenvolvem a tecnologia, já que um grande obstáculo para a robótica é que eles funcionam bem em laboratórios, mas mal em ambientes menos controlados.
Para desenvolver o Gemini Robotics, a Google DeepMind aproveitou o amplo entendimento do mundo exibido por grandes modelos de linguagem que são treinados com dados da internet. Por exemplo, um robô foi capaz de raciocinar que deveria pegar uma xícara de café usando dois dedos.
“Este é certamente um desenvolvimento empolgante no campo da robótica que parece se basear nas forças da Google em dados e computação em larga escala”, disse Ken Goldberg, professor de robótica na Universidade da Califórnia, Berkeley, que não fez parte da pesquisa.
Ele acrescentou que um dos aspectos mais inovadores desses novos modelos de robótica é que eles funcionam sem engasgos na nuvem, presumivelmente porque poderiam aproveitar o acesso da Google a modelos de linguagem muito grandes que exigem um poder computacional substancial.
“Este é um esforço impressionante e abrangente com resultados convincentes que vão desde o raciocínio espacial até a manipulação hábil. É uma evidência bastante convincente de que modelos base [visão-linguagem] mais fortes podem levar a um melhor desempenho de manipulação”, disse Russ Tedrake, professor no MIT (Instituto de Tecnologia de Massachusetts) e vice-presidente de pesquisa em robótica no Instituto de Pesquisa da Toyota.
“O Gemini é um passo importante”, disse Goldberg. No entanto, “ainda há muito a ser feito antes que robôs de uso geral estejam prontos para adoção”.