Os robôs recebem treinamento para passar de assistir a vídeos
Ferramenta como interface, um método de duas câmeras e apenas em vídeo que ensina o uso da ferramenta de robôs, com uma alta taxa de sucesso médio e reduz o tempo de coleta de dados.
Uma equipe de pesquisa da Universidade de Illinois em colaboração com a Columbia University e a UT Austin apresentou uma estrutura que treina robôs para usar ferramentas aprendendo diretamente com vídeos humanos comuns.O método relata uma maior taxa de sucesso para realizar tarefas específicas e coleta de dados mais rápida do que as linhas de base baseadas em teleooperação, apontando para uma rota de menor custo para o ensino de habilidades dinâmicas.
A abordagem, chamada de ferramenta como interface, o robô aprende com dados, coletado por duas visualizações de câmera RGB de uma pessoa que executa uma tarefa.Um modelo de reconstrução 3D (mast3r) cria geometria de cena;Síntese de divisão gaussiana em 3D, vistas extras para melhorar a robustez.
A verdadeira mágica acontece, com a remoção de humanos do vídeo.Com SAM de aterramento, um detector de objetos de segmento aberto para combinar com o segmento Anything Model (SAM).O sistema rastreia apenas a ferramenta e sua interação com a cena, ignorando o humano.
O sistema estima o 6-DOF, 6 graus de liberdade da ferramenta para imitar e aprende uma política centrada na ferramenta, que se conecta à transferência de robôs cruzados.
A equipe validou a estrutura em cinco tarefas que requerem velocidade ou precisão: martelar um prego, pegar uma almôndega, virar comida em uma panela, equilibrar uma garrafa de vinho e chutar uma bola de futebol em um gol.Nessas tarefas, o método alcançou uma taxa média de sucesso 71% mais alta do que as políticas de difusão treinadas nos dados de teleoperação e reduziu o tempo de coleta de dados em 77%.Algumas tarefas foram resolvidas apenas por essa estrutura nos testes relatados.
O Data Pipeline usa câmeras de commodities e não requer operadores do lado do robô ou plataformas de captura de movimento.Isso reduz a complexidade da configuração e pode escalar para demonstrações registradas fora do laboratório.
Limitações permanecem.O sistema atual assume uma ferramenta rígida fixada à garra e pode sofrer de erros de estimativa de pose;A síntese de visão de romance pode degradar-se sob grandes alterações no ponto de vista.Essas restrições orientam o próximo conjunto de metas de engenharia.