Arte conceitual do labirinto robótico

Engenheiros da Northwestern University criaram o algoritmo MaxDiff RL, aprimorando a IA na robótica ao permitir que os robôs explorem aleatoriamente e aprendam com eficiência. Este método aumenta significativamente o desempenho e a confiabilidade dos robôs em diversas aplicações, demonstrando habilidades superiores em tarefas na primeira tentativa. (Conceito do artista.) Crédito: SciTechDaily.com

O novo algoritmo de IA para robôs supera consistentemente os sistemas de última geração.

Universidade do Noroeste engenheiros desenvolveram um novo algoritmo de inteligência artificial (IA) projetado especificamente para robótica inteligente. Ao ajudar os robôs a aprender habilidades complexas de forma rápida e confiável, o novo método poderia melhorar significativamente a praticidade – e a segurança – dos robôs para uma variedade de aplicações, incluindo carros autônomos, drones de entrega, assistentes domésticos e automação.

Chamado de Aprendizado por Reforço de Difusão Máxima (MaxDiff RL), o sucesso do algoritmo reside em sua capacidade de incentivar os robôs a explorar seus ambientes da forma mais aleatória possível, a fim de obter um conjunto diversificado de experiências. Esta “aleatoriedade projetada” melhora a qualidade dos dados que os robôs coletam sobre o seu próprio ambiente. E, ao utilizar dados de maior qualidade, os robôs simulados demonstraram uma aprendizagem mais rápida e eficiente, melhorando a sua fiabilidade e desempenho globais.

NoodleBot

Embora o estudo atual tenha testado o algoritmo de IA apenas em robôs simulados, os pesquisadores desenvolveram o NoodleBot para testes futuros do algoritmo no mundo real. Crédito: Universidade Northwestern

Desempenho superior do MaxDiff RL

Quando testados em outras plataformas de IA, os robôs simulados usando o novo algoritmo da Northwestern superaram consistentemente os modelos de última geração. Na verdade, o novo algoritmo funciona tão bem que os robôs aprenderam novas tarefas e depois as executaram com sucesso em uma única tentativa – acertando na primeira vez. Isto contrasta fortemente com os modelos atuais de IA, que permitem uma aprendizagem mais lenta através de tentativa e erro.

A pesquisa será publicada hoje (2 de maio) na revista Inteligência da Máquina da Natureza.


Os pesquisadores testaram o desempenho do novo algoritmo de IA com robôs simulados, como o NoodleBot. Crédito: Universidade Northwestern

“Outras estruturas de IA podem não ser confiáveis”, disse Thomas Berrueta, da Northwestern, que liderou o estudo. “Às vezes eles acertam totalmente uma tarefa, mas, outras vezes, falham completamente. Com nossa estrutura, desde que o robô seja capaz de resolver a tarefa, toda vez que você ligar o robô, você poderá esperar que ele faça exatamente o que foi solicitado. Isto torna mais fácil interpretar os sucessos e fracassos dos robôs, o que é crucial num mundo cada vez mais dependente da IA.”

Berrueta é Presidential Fellow na Northwestern e Ph.D. candidato em engenharia mecânica na McCormick School of Engineering. O especialista em robótica Todd Murphey, professor de engenharia mecânica na McCormick e conselheiro de Berrueta, é o autor sênior do artigo. Berrueta e Murphey foram coautores do artigo com Allison Pinosky, também Ph.D. candidato no laboratório de Murphy.

A desconexão desencarnada

Para treinar algoritmos de aprendizado de máquina, pesquisadores e desenvolvedores usam grandes quantidades de big data, que os humanos filtram e selecionam cuidadosamente. A IA aprende com esses dados de treinamento, usando tentativa e erro até atingir os resultados ideais. Embora esse processo funcione bem para sistemas desencarnados, como ChatGPT e Google Gemini (anteriormente Bard), não funciona para sistemas de IA incorporados, como robôs. Os robôs, em vez disso, coletam dados por conta própria – sem o luxo de curadores humanos.

“Os algoritmos tradicionais não são compatíveis com a robótica de duas maneiras distintas”, disse Murphey. “Primeiro, os sistemas desencarnados podem tirar vantagem de um mundo onde as leis físicas não se aplicam. Em segundo lugar, as falhas individuais não têm consequências. Para aplicações de ciência da computação, a única coisa que importa é que seja bem-sucedido na maioria das vezes. Na robótica, uma falha pode ser catastrófica.”

Para resolver esta desconexão, Berrueta, Murphey e Pinosky pretendiam desenvolver um novo algoritmo que garantisse que os robôs recolheriam dados de alta qualidade em movimento. Basicamente, o MaxDiff RL comanda os robôs para se moverem de forma mais aleatória, a fim de coletar dados completos e diversos sobre seus ambientes. Ao aprender por meio de experiências aleatórias autocuradas, os robôs adquirem as habilidades necessárias para realizar tarefas úteis.


Este vídeo ilustra os recursos de aprendizado único do MaxDiff RL. Crédito: Universidade Northwestern

Acertar na primeira vez

Para testar o novo algoritmo, os pesquisadores o compararam com os modelos atuais de última geração. Usando simulações de computador, os pesquisadores pediram aos robôs simulados que executassem uma série de tarefas padrão. Em geral, os robôs que usam MaxDiff RL aprenderam mais rápido do que os outros modelos. Eles também executaram tarefas corretamente de maneira muito mais consistente e confiável do que outros.

Talvez ainda mais impressionante: os robôs que usam o método MaxDiff RL muitas vezes conseguem executar corretamente uma tarefa em uma única tentativa. E isso foi mesmo quando eles começaram sem nenhum conhecimento.

“Nossos robôs eram mais rápidos e ágeis – capazes de generalizar com eficácia o que aprenderam e aplicá-lo a novas situações”, disse Berrueta. “Para aplicações do mundo real onde os robôs não podem permitir-se um tempo interminável de tentativa e erro, este é um enorme benefício.”


O estudo publicado inclui testes realizados com robôs simulados. A seguir, eles testarão o algoritmo em robôs no mundo real. Eles desenvolveram este robô parecido com uma cobra, chamado “NoodleBot”, para testes futuros. Crédito: Universidade Northwestern

Como MaxDiff RL é um algoritmo geral, ele pode ser usado para diversas aplicações. Os pesquisadores esperam que ele resolva questões fundamentais que atrasam o campo, abrindo caminho para uma tomada de decisão confiável em robótica inteligente.

“Isso não precisa ser usado apenas para veículos robóticos que se movimentam”, disse Pinosky. “Também poderia ser usado para robôs estacionários – como um braço robótico em uma cozinha que aprende a carregar a máquina de lavar louça. À medida que as tarefas e os ambientes físicos se tornam mais complicados, o papel da incorporação torna-se ainda mais crucial a considerar durante o processo de aprendizagem. Este é um passo importante em direção a sistemas reais que realizam tarefas mais complicadas e mais interessantes.”

Referência: “Aprendizagem por reforço de difusão máxima” 2 de maio de 2024, Inteligência da Máquina da Natureza.
DOI: 10.1038/s42256-024-00829-3

O estudo foi apoiado pelo Escritório de Pesquisa do Exército dos EUA (número de concessão W911NF-19-1-0233) e pelo Escritório de Pesquisa Naval dos EUA (número de concessão N00014-21-1-2706).



Share. Facebook Twitter Pinterest LinkedIn Tumblr Email

Formado em Educação Física, apaixonado por tecnologia, decidi criar o site news space em 2022 para divulgar meu trabalho, tenho como objetivo fornecer informações relevantes e descomplicadas sobre diversos assuntos, incluindo jogos, tecnologia, esportes, educação e muito mais.