Helix: O Novo Modelo de Controlo para Robôs Humanóides

A introdução do Helix, um modelo inovador de Visão-Linguagem-Ação (VLA), promete revolucionar a robótica humanóide ao unificar perceção, compreensão de linguagem e controlo aprendido. Este avanço visa superar desafios persistentes no setor, tornando os robôs mais versáteis e adaptáveis a ambientes complexos, como as casas.

Os principais marcos do Helix

Helix estabelece vários precedentes na robótica:

  • Controlo completo da parte superior do corpo: É o primeiro modelo VLA capaz de realizar controlo contínuo de alta frequência do tronco, cabeça, pulsos e dedos de um robô humanóide.
  • Colaboração entre múltiplos robôs: Pela primeira vez, um único modelo VLA permite que dois robôs operem simultaneamente numa tarefa colaborativa, lidando com objetos nunca antes vistos.
  • Capacidade de agarrar qualquer objeto: Robôs equipados com Helix podem segurar praticamente qualquer pequeno objeto doméstico apenas seguindo comandos em linguagem natural.
  • Uma única rede neuronal: Diferente de abordagens anteriores, Helix utiliza um único conjunto de pesos para aprender múltiplos comportamentos sem necessidade de ajustes específicos para cada tarefa.
  • Preparado para comercialização: O modelo funciona totalmente em GPUs incorporadas de baixo consumo energético, tornando-o pronto para implementação comercial.

Desafios e inovação na robótica doméstica

Os lares representam um dos maiores desafios para a robótica, devido à enorme variedade de objetos com formas, tamanhos e texturas imprevisíveis. Ensinar um robô a realizar novas tarefas tradicionalmente exige um esforço humano significativo, seja através de programação manual especializada ou milhares de demonstrações.

Helix propõe uma nova abordagem: traduzir diretamente o conhecimento semântico de Modelos de Visão e Linguagem (VLMs) em ações robóticas. Assim, os robôs podem adquirir novas habilidades instantaneamente apenas por meio de comandos em linguagem natural, eliminando a necessidade de programação manual extensiva.

Arquitetura e funcionamento do Helix

O modelo Helix combina dois sistemas complementares para equilibrar rapidez e generalização:

  • Sistema 2 (S2): Um VLM pré-treinado na internet que opera a 7-9 Hz, permitindo compreensão da cena e da linguagem.
  • Sistema 1 (S1): Uma política visuomotora reativa que traduz representações semânticas em ações contínuas precisas a 200 Hz.

Esta separação permite que o S2 "pense devagar" para definir objetivos de alto nível, enquanto o S1 "pensa rápido" para executar as ações em tempo real, garantindo um controlo eficiente e adaptável.

Treino e implementação eficiente

Helix foi treinado com apenas 500 horas de dados supervisionados, um volume significativamente menor que datasets anteriores de VLA, demonstrando alta eficiência na generalização de objetos e tarefas.

O modelo opera através de inferência paralela em GPUs incorporadas de baixo consumo, permitindo que os robôs executem tarefas de alta complexidade sem necessidade de hardware especializado adicional.

Impacto e futuro da robótica humanóide

O desempenho do Helix destaca-se na sua capacidade de manipular milhares de objetos nunca antes vistos, realizar tarefas colaborativas entre robôs e adaptar-se a ambientes dinâmicos sem necessidade de treino específico.

Esta inovação marca um avanço significativo na robótica humanóide, abrindo caminho para robôs mais autónomos e eficazes em ambientes domésticos. O potencial do Helix está apenas a ser explorado, e o seu desenvolvimento contínuo promete revolucionar a forma como os robôs interagem com o mundo real.

A equipa Helix está à procura de talentos para expandir os limites da Inteligência Artificial incorporada e tornar estes avanços acessíveis a milhões de robôs no futuro.

Para mais informações e detalhes, clica aqui.