A Bite Dance lançou recentemente o Utar's 1.5, um agente de linguagem visual inovador que transforma sua tela em uma imagem abrangente. Este modelo inovador pode ler, raciocinar e manipular a tela diretamente, eliminando a necessidade de árvores DOM complexas ou ferramentas externas. Ao ingerir uma captura de tela, o Utar's 1.5 entende o layout e as tarefas através de linguagem simples, permitindo que atue como se um usuário real estivesse no controle.
O Utar's 1.5 representa um upgrade significativo em relação ao seu predecessor, apresentando um modelo leve de 2 bilhões de parâmetros, um modelo intermediário de 7 bilhões e uma variante robusta de 72 bilhões. Esta versão passou por um treinamento extensivo com 50 bilhões de tokens, incluindo capturas de tela, metadados de elementos e tutoriais de GUI, permitindo que veja, raciocine e clique em uma única passagem. A capacidade do modelo de se adaptar a mudanças na interface do usuário o torna mais rápido e resiliente.
As capacidades de percepção do Utar's 1.5 foram significativamente aprimoradas. O modelo agora pode analisar várias interfaces, incluindo websites, aplicativos do Windows e UIs do Android, extraindo informações essenciais como caixas delimitadoras, rótulos e cores. Isso permite que sintetize múltiplos tipos de dados de percepção, proporcionando uma compreensão abrangente do layout e contexto da tela.
O Utar's 1.5 apresenta um espaço de ação unificado que inclui primitivas compartilhadas como clicar, arrastar, rolar e digitar. Além disso, incorpora ações específicas de desktop, como teclas de atalho e cliques com o botão direito, bem como ações móveis, como toques longos. Essa abordagem estruturada permite que o modelo execute tarefas complexas de forma eficiente, com a capacidade de aprender a partir de rastros de múltiplas etapas e adaptar suas ações de acordo.
Uma das características marcantes do Utar's 1.5 são suas capacidades de raciocínio. O modelo distingue entre dois tipos de pensamento: Sistema Um, que é rápido e intuitivo, e Sistema Dois, que envolve processos de pensamento deliberados. Ao utilizar um vasto conjunto de dados de tutoriais de GUI e rastros de ações, o modelo pode decompor tarefas, reconhecer marcos e aprender com tentativas e erros, aprimorando seu desempenho geral.
O Utar's 1.5 foi projetado para aprender com seus erros. Ao simular vários cenários em PCs virtuais, o modelo captura rastros confusos e filtra erros. Anotadores humanos rotulam etapas críticas, permitindo que o modelo refine suas ações por meio de otimização direta de preferências. Esse processo de aprendizado iterativo resultou em melhorias significativas nas métricas de desempenho.
Em testes de benchmark, o Utar's 1.5 demonstrou taxas de sucesso impressionantes em várias tarefas. Por exemplo, alcançou uma taxa de sucesso de 42,5% no desafio OS World, superando concorrentes como o operador da OpenAI e Claude. O modelo também se destacou em tarefas do Android, mostrando sua versatilidade e eficácia em diferentes ambientes.
A Bite Dance tornou a implantação do Utar's 1.5 acessível à comunidade mais ampla. O checkpoint de 7 bilhões de parâmetros está disponível no Hugging Face sob uma licença Apache 2.0, permitindo que desenvolvedores o integrem em produtos comerciais sem preocupações com royalties. Essa abordagem aberta incentiva a inovação e a colaboração dentro da comunidade de IA.
O Utar's 1.5 representa um avanço significativo na automação de GUI e gerenciamento de fluxo de trabalho. Com sua capacidade de perceber, agir, raciocinar e aprender, oferece uma ferramenta poderosa para desenvolvedores e usuários. À medida que o cenário da IA continua a evoluir, o Utar's 1.5 se destaca como uma solução versátil e eficaz para uma ampla gama de aplicações.
Q: O que é o Utar's 1.5?
A: O Utar's 1.5 é um agente de linguagem visual inovador desenvolvido pela Bite Dance que transforma sua tela em uma imagem abrangente, permitindo que leia, raciocine e manipule a tela diretamente.
Q: Quais são as melhorias de desempenho no Utar's 1.5 em comparação com seu predecessor?
A: O Utar's 1.5 apresenta um modelo leve de 2 bilhões de parâmetros, um modelo intermediário de 7 bilhões e uma variante robusta de 72 bilhões, todos treinados com 50 bilhões de tokens, tornando-o mais rápido e resiliente.
Q: Que tipos de interfaces o Utar's 1.5 pode analisar?
A: O Utar's 1.5 pode analisar várias interfaces, incluindo websites, aplicativos do Windows e UIs do Android, extraindo informações essenciais como caixas delimitadoras, rótulos e cores.
Q: O que é o espaço de ação unificado no Utar's 1.5?
A: O espaço de ação unificado no Utar's 1.5 inclui primitivas compartilhadas como clicar, arrastar, rolar e digitar, bem como ações específicas de desktop como teclas de atalho e ações móveis como toques longos.
Q: Como o Utar's 1.5 lida com raciocínio e decomposição de tarefas?
A: O Utar's 1.5 distingue entre pensamento rápido e intuitivo (Sistema Um) e processos de pensamento deliberados (Sistema Dois), permitindo que decomponha tarefas e aprenda com tentativas e erros.
Q: Como o Utar's 1.5 aprende com seus erros?
A: O Utar's 1.5 aprende com seus erros simulando cenários em PCs virtuais, capturando rastros confusos e refinando suas ações por meio de otimização direta de preferências com etapas críticas anotadas por humanos.
Q: Quais são os resultados de desempenho em benchmark do Utar's 1.5?
A: Em testes de benchmark, o Utar's 1.5 alcançou uma taxa de sucesso de 42,5% no desafio OS World e se destacou em tarefas do Android, superando concorrentes como o operador da OpenAI e Claude.
Q: O Utar's 1.5 está disponível para uso público?
A: Sim, o checkpoint de 7 bilhões de parâmetros do Utar's 1.5 está disponível no Hugging Face sob uma licença Apache 2.0, permitindo que desenvolvedores o integrem em produtos comerciais sem preocupações com royalties.
Q: Qual é a importância do Utar's 1.5 no desenvolvimento de IA?
A: O Utar's 1.5 representa um avanço significativo na automação de GUI e gerenciamento de fluxo de trabalho, oferecendo uma ferramenta poderosa para desenvolvedores e usuários com sua capacidade de perceber, agir, raciocinar e aprender.