HomeBlogOutrosA China acaba de lançar o agente de IA mais perigoso até agora.

A China acaba de lançar o agente de IA mais perigoso até agora.

cover_img
  1. Introdução ao Utar's 1.5
  2. Desempenho e Capacidades Aprimoradas
  3. Técnicas Avançadas de Percepção
  4. Espaço de Ação Unificado
  5. Raciocínio e Decomposição de Tarefas
  6. Aprendendo com Erros
  7. Desempenho em Benchmark
  8. Implantação Aberta e Engajamento da Comunidade
  9. Conclusão
  10. FAQ

Introdução ao Utar's 1.5

A Bite Dance lançou recentemente o Utar's 1.5, um agente de linguagem visual inovador que transforma sua tela em uma imagem abrangente. Este modelo inovador pode ler, raciocinar e manipular a tela diretamente, eliminando a necessidade de árvores DOM complexas ou ferramentas externas. Ao ingerir uma captura de tela, o Utar's 1.5 entende o layout e as tarefas através de linguagem simples, permitindo que atue como se um usuário real estivesse no controle.

Desempenho e Capacidades Aprimoradas

O Utar's 1.5 representa um upgrade significativo em relação ao seu predecessor, apresentando um modelo leve de 2 bilhões de parâmetros, um modelo intermediário de 7 bilhões e uma variante robusta de 72 bilhões. Esta versão passou por um treinamento extensivo com 50 bilhões de tokens, incluindo capturas de tela, metadados de elementos e tutoriais de GUI, permitindo que veja, raciocine e clique em uma única passagem. A capacidade do modelo de se adaptar a mudanças na interface do usuário o torna mais rápido e resiliente.

Técnicas Avançadas de Percepção

As capacidades de percepção do Utar's 1.5 foram significativamente aprimoradas. O modelo agora pode analisar várias interfaces, incluindo websites, aplicativos do Windows e UIs do Android, extraindo informações essenciais como caixas delimitadoras, rótulos e cores. Isso permite que sintetize múltiplos tipos de dados de percepção, proporcionando uma compreensão abrangente do layout e contexto da tela.

Espaço de Ação Unificado

O Utar's 1.5 apresenta um espaço de ação unificado que inclui primitivas compartilhadas como clicar, arrastar, rolar e digitar. Além disso, incorpora ações específicas de desktop, como teclas de atalho e cliques com o botão direito, bem como ações móveis, como toques longos. Essa abordagem estruturada permite que o modelo execute tarefas complexas de forma eficiente, com a capacidade de aprender a partir de rastros de múltiplas etapas e adaptar suas ações de acordo.

Raciocínio e Decomposição de Tarefas

Uma das características marcantes do Utar's 1.5 são suas capacidades de raciocínio. O modelo distingue entre dois tipos de pensamento: Sistema Um, que é rápido e intuitivo, e Sistema Dois, que envolve processos de pensamento deliberados. Ao utilizar um vasto conjunto de dados de tutoriais de GUI e rastros de ações, o modelo pode decompor tarefas, reconhecer marcos e aprender com tentativas e erros, aprimorando seu desempenho geral.

Aprendendo com Erros

O Utar's 1.5 foi projetado para aprender com seus erros. Ao simular vários cenários em PCs virtuais, o modelo captura rastros confusos e filtra erros. Anotadores humanos rotulam etapas críticas, permitindo que o modelo refine suas ações por meio de otimização direta de preferências. Esse processo de aprendizado iterativo resultou em melhorias significativas nas métricas de desempenho.

Desempenho em Benchmark

Em testes de benchmark, o Utar's 1.5 demonstrou taxas de sucesso impressionantes em várias tarefas. Por exemplo, alcançou uma taxa de sucesso de 42,5% no desafio OS World, superando concorrentes como o operador da OpenAI e Claude. O modelo também se destacou em tarefas do Android, mostrando sua versatilidade e eficácia em diferentes ambientes.

Implantação Aberta e Engajamento da Comunidade

A Bite Dance tornou a implantação do Utar's 1.5 acessível à comunidade mais ampla. O checkpoint de 7 bilhões de parâmetros está disponível no Hugging Face sob uma licença Apache 2.0, permitindo que desenvolvedores o integrem em produtos comerciais sem preocupações com royalties. Essa abordagem aberta incentiva a inovação e a colaboração dentro da comunidade de IA.

Conclusão

O Utar's 1.5 representa um avanço significativo na automação de GUI e gerenciamento de fluxo de trabalho. Com sua capacidade de perceber, agir, raciocinar e aprender, oferece uma ferramenta poderosa para desenvolvedores e usuários. À medida que o cenário da IA continua a evoluir, o Utar's 1.5 se destaca como uma solução versátil e eficaz para uma ampla gama de aplicações.

FAQ

Q: O que é o Utar's 1.5?
A: O Utar's 1.5 é um agente de linguagem visual inovador desenvolvido pela Bite Dance que transforma sua tela em uma imagem abrangente, permitindo que leia, raciocine e manipule a tela diretamente.
Q: Quais são as melhorias de desempenho no Utar's 1.5 em comparação com seu predecessor?
A: O Utar's 1.5 apresenta um modelo leve de 2 bilhões de parâmetros, um modelo intermediário de 7 bilhões e uma variante robusta de 72 bilhões, todos treinados com 50 bilhões de tokens, tornando-o mais rápido e resiliente.
Q: Que tipos de interfaces o Utar's 1.5 pode analisar?
A: O Utar's 1.5 pode analisar várias interfaces, incluindo websites, aplicativos do Windows e UIs do Android, extraindo informações essenciais como caixas delimitadoras, rótulos e cores.
Q: O que é o espaço de ação unificado no Utar's 1.5?
A: O espaço de ação unificado no Utar's 1.5 inclui primitivas compartilhadas como clicar, arrastar, rolar e digitar, bem como ações específicas de desktop como teclas de atalho e ações móveis como toques longos.
Q: Como o Utar's 1.5 lida com raciocínio e decomposição de tarefas?
A: O Utar's 1.5 distingue entre pensamento rápido e intuitivo (Sistema Um) e processos de pensamento deliberados (Sistema Dois), permitindo que decomponha tarefas e aprenda com tentativas e erros.
Q: Como o Utar's 1.5 aprende com seus erros?
A: O Utar's 1.5 aprende com seus erros simulando cenários em PCs virtuais, capturando rastros confusos e refinando suas ações por meio de otimização direta de preferências com etapas críticas anotadas por humanos.
Q: Quais são os resultados de desempenho em benchmark do Utar's 1.5?
A: Em testes de benchmark, o Utar's 1.5 alcançou uma taxa de sucesso de 42,5% no desafio OS World e se destacou em tarefas do Android, superando concorrentes como o operador da OpenAI e Claude.
Q: O Utar's 1.5 está disponível para uso público?
A: Sim, o checkpoint de 7 bilhões de parâmetros do Utar's 1.5 está disponível no Hugging Face sob uma licença Apache 2.0, permitindo que desenvolvedores o integrem em produtos comerciais sem preocupações com royalties.
Q: Qual é a importância do Utar's 1.5 no desenvolvimento de IA?
A: O Utar's 1.5 representa um avanço significativo na automação de GUI e gerenciamento de fluxo de trabalho, oferecendo uma ferramenta poderosa para desenvolvedores e usuários com sua capacidade de perceber, agir, raciocinar e aprender.

Compartilhar para

O Navegador Anti-detecção DICloak mantém sua gestão de múltiplas contas segura e livre de banimentos

Torne a operação de múltiplas contas mais simples e eficiente, alcançando crescimento nos negócios com baixo custo e alta velocidade.

Artigos relacionados