Bite Dance gần đây đã phát hành Utar's 1.5, một đại lý ngôn ngữ hình ảnh tiên tiến cách mạng hóa cách tương tác với giao diện người dùng đồ họa (GUI). Mô hình sáng tạo này coi toàn bộ màn hình như một hình ảnh duy nhất, cho phép nó đọc, lập luận và thao tác trực tiếp trên giao diện. Khác với các phương pháp truyền thống dựa vào cây DOM hoặc các công cụ bên ngoài, Utar's 1.5 có thể diễn giải một ảnh chụp màn hình, hiểu bố cục và thực hiện các tác vụ bằng ngôn ngữ đơn giản.
Phiên bản mới nhất, Utar's 1.5, xây dựng dựa trên người tiền nhiệm của nó với những cải tiến đáng kể. Nó có một mô hình nhẹ 2 tỷ tham số, một mô hình tầm trung 7 tỷ và một biến thể mạnh mẽ 72 tỷ. Cải tiến này bao gồm tối ưu hóa sở thích trực tiếp trên 50 tỷ token dữ liệu huấn luyện, bao gồm ảnh chụp màn hình, siêu dữ liệu của các phần tử, hướng dẫn GUI và dấu vết hành động. Mô hình được thiết kế để nhận thức, lập luận và hành động trong một lần duy nhất, tối ưu hóa tự động hóa GUI và cải thiện hiệu quả công việc.
Utar's 1.5 sử dụng các kỹ thuật nhận thức tinh vi, đã thu thập một loạt các giao diện, bao gồm các trang web, ứng dụng Windows, giao diện Android và nhiều hơn nữa. Nó trích xuất các yếu tố thiết yếu như hộp giới hạn, nhãn và biểu tượng, tổng hợp nhiều loại dữ liệu nhận thức. Điều này cho phép mô hình hiểu ngữ cảnh của bố cục và nhận ra những thay đổi tinh tế trong giao diện, nâng cao khả năng tương tác hiệu quả.
Một tính năng chính của Utar's 1.5 là không gian hành động thống nhất của nó, bao gồm các nguyên thủy chia sẻ như nhấp chuột, kéo, cuộn và gõ. Thiết kế này cho phép mô hình thực hiện các tác vụ phức tạp một cách liền mạch, bất kể trên nền tảng máy tính để bàn hay di động. Ngoài ra, nó còn tích hợp các hành động meta cho phép đại lý hoàn thành các tác vụ một cách hiệu quả và xử lý các tình huống mà nó gặp phải trở ngại, chẳng hạn như tường đăng nhập.
Phiên bản 1.5 xuất sắc trong việc lập luận bằng cách tích hợp các quy trình tư duy giống như con người. Nó phân biệt giữa các hành động trực giác và các quy trình suy nghĩ có chủ đích, cho phép nó phân tích các tác vụ và nhận ra các cột mốc. Mô hình đã được huấn luyện trên hàng triệu hướng dẫn GUI và dấu vết hành động, cho phép nó học hỏi từ sai lầm và cải thiện hiệu suất theo thời gian. Khả năng này rất quan trọng để thích ứng với các tình huống thực tế nơi có thể xảy ra lỗi.
Trong các tiêu chuẩn hiệu suất, Utar's 1.5 thể hiện kết quả ấn tượng, đạt tỷ lệ thành công 42,5% trong thử thách ngân sách 50 bước của OS World, vượt qua các đối thủ như nhà điều hành của OpenAI và Claude. Mô hình cũng xuất sắc trong nhiều tác vụ trò chơi, đạt tỷ lệ thành công 100% trong nhiều trò chơi mini. Những tiêu chuẩn này làm nổi bật hiệu quả của mô hình trong cả môi trường máy tính để bàn và di động.
Bite Dance đã làm cho việc triển khai Utar's 1.5 trở nên dễ tiếp cận với cộng đồng bằng cách phát hành điểm kiểm tra 7 tỷ tham số dưới giấy phép Apache 2.0. Sự cởi mở này cho phép các nhà phát triển tích hợp mô hình vào các sản phẩm thương mại và tùy chỉnh nó cho các ứng dụng cụ thể. Sơ đồ hành động thống nhất cho phép người dùng điều chỉnh mô hình cho nhiều giao diện khác nhau, biến nó thành một công cụ linh hoạt cho các ngành công nghiệp khác nhau.
Utar's 1.5 đại diện cho một bước tiến quan trọng trong tự động hóa và tương tác GUI. Với khả năng nhận thức, lập luận và hành động một cách thống nhất, nó cung cấp một giải pháp mạnh mẽ cho việc tự động hóa quy trình làm việc trong các giao diện đồ họa. Tính chất mã nguồn mở của mô hình khuyến khích đổi mới và hợp tác trong cộng đồng phát triển, mở đường cho các ứng dụng và cải tiến mới trong lĩnh vực tự động hóa dựa trên AI.
Q: Utar's 1.5 là gì?
A: Utar's 1.5 là một đại lý ngôn ngữ hình ảnh tiên tiến được phát triển bởi Bite Dance, cách mạng hóa việc tương tác với các giao diện người dùng đồ họa (GUI) bằng cách coi toàn bộ màn hình như một hình ảnh duy nhất.
Q: Những cải tiến chính trong Utar's 1.5 so với người tiền nhiệm là gì?
A: Utar's 1.5 có một mô hình nhẹ 2 tỷ tham số, một mô hình tầm trung 7 tỷ và một biến thể mạnh mẽ 72 tỷ, với tối ưu hóa sở thích trực tiếp trên 50 tỷ token dữ liệu huấn luyện.
Q: Utar's 1.5 nhận thức và tương tác với các giao diện khác nhau như thế nào?
A: Utar's 1.5 sử dụng các kỹ thuật nhận thức tinh vi để trích xuất các yếu tố thiết yếu từ nhiều giao diện khác nhau, bao gồm các trang web và ứng dụng, cho phép nó hiểu bố cục và nhận ra các thay đổi.
Q: Không gian hành động thống nhất trong Utar's 1.5 là gì?
A: Không gian hành động thống nhất bao gồm các nguyên thủy chia sẻ như nhấp chuột, kéo, cuộn và gõ, cho phép mô hình thực hiện các tác vụ phức tạp một cách liền mạch trên cả nền tảng máy tính để bàn và di động.
Q: Utar's 1.5 học hỏi từ sai lầm như thế nào?
A: Utar's 1.5 tích hợp các quy trình lập luận giống như con người, cho phép nó phân tích các tác vụ và học hỏi từ hàng triệu hướng dẫn GUI và dấu vết hành động, cải thiện hiệu suất theo thời gian.
Q: Các tiêu chuẩn hiệu suất của Utar's 1.5 là gì?
A: Utar's 1.5 đạt tỷ lệ thành công 42,5% trong thử thách ngân sách 50 bước của OS World và tỷ lệ thành công 100% trong nhiều trò chơi mini, chứng tỏ hiệu quả của nó trong cả môi trường máy tính để bàn và di động.
Q: Utar's 1.5 có sẵn cho cộng đồng sử dụng không?
A: Có, Bite Dance đã làm cho Utar's 1.5 dễ tiếp cận với cộng đồng bằng cách phát hành điểm kiểm tra 7 tỷ tham số dưới giấy phép Apache 2.0, cho phép các nhà phát triển tích hợp và tùy chỉnh nó.
Q: Ý nghĩa của Utar's 1.5 trong tự động hóa GUI là gì?
A: Utar's 1.5 đại diện cho một bước tiến quan trọng trong tự động hóa GUI, cung cấp một giải pháp mạnh mẽ cho việc tự động hóa quy trình làm việc và khuyến khích đổi mới trong cộng đồng phát triển.