HomeBlog其他中國剛剛推出了最危險的人工智慧代理。

中國剛剛推出了最危險的人工智慧代理。

cover_img
  1. Utars 1.5 介紹
  2. 增強模型架構
  3. 先進的感知技術
  4. 統一的行動空間
  5. 推理和從錯誤中學習
  6. 基準性能
  7. 開放部署和社區參與
  8. 結論
  9. 常見問題

Utars 1.5 介紹

字節跳動最近推出了 Utars 1.5,一個突破性的視覺語言代理,將您的屏幕轉變為一個可操作的單一圖像。與依賴 DOM 樹或外部工具的傳統方法不同,這個模型可以直接閱讀、推理和與圖形界面互動。通過攝取截圖,它能夠從普通語言中理解佈局和任務,表現得就像一個真實用戶在控制一樣。這一創新顯著提升了圖形界面中的 GUI 自動化和工作流程。

增強模型架構

Utar 1.5 基於幾個月前推出的原始版本,保持其核心為 Quen 2VL,同時擴展其能力。該模型有三種大小可供選擇:輕量級的 20 億參數版本、中等範圍的 70 億版本和強大的 720 億變體。這次升級包括對 500 億個訓練數據標記的直接偏好優化,這些數據包括截圖、元素元數據、GUI 教程和行動痕跡。該模型旨在在一次通過中無縫感知、推理和行動。

先進的感知技術

Utars 1.5 的一個重大進展是其感知能力。該模型已在各種界面上進行訓練,包括網站、Windows 應用程序、Android 用戶界面和 CAD 軟件。它提取邊界框、標籤、顏色和圖標,以創建對屏幕的全面理解。通過綜合各種感知數據,該模型能夠準確識別元素及其功能,增強其與用戶界面的互動能力。

統一的行動空間

Utar 1.5 引入了一個統一的行動空間,包括共享的基本操作,如點擊、拖動、滾動和輸入。它還容納桌面特定的操作,如熱鍵,以及移動操作,如長按。這種結構化的方法使模型能夠高效執行複雜任務。此外,它還具有元操作,使代理能夠在遇到障礙(如登錄牆)時完成任務或尋求用戶幫助。

推理和從錯誤中學習

Utars 1.5 的推理能力尤其值得注意。該模型區分兩種類型的思維:系統一,快速且直觀,和系統二,更加深思熟慮和分析。通過利用大量的 GUI 教程和行動痕跡數據集,該模型學會分解任務、識別里程碑,並根據以往經驗調整其方法。這種從錯誤中學習的能力對於提高其在現實應用中的性能至關重要。

基準性能

在基準測試中,Utars 1.5 展現了令人印象深刻的結果,在各種任務中超越了之前的模型,如 GPT-4 和 Claude。例如,它在 OS World 合成桌面環境中達到了 42.5% 的成功率,超過了 OpenAI 的操作員和 Claude。該模型在 Android World 任務中也表現出色,達到了 64.2% 的成功率。這些結果突顯了 Utars 1.5 在處理複雜用戶界面互動方面的有效性。

開放部署和社區參與

字節跳動通過在 Apache 2.0 許可下發布 70 億參數的檢查點,使 Utars 1.5 的部署對更廣泛的社區可及。這使得開發者可以將該模型集成到商業產品中,而無需擔心版稅問題。該項目的開源性質鼓勵了合作和創新,使得用戶能夠根據特定應用(如醫療界面或遊戲 UI)自定義模型。

結論

Utar 1.5 代表了 AI 驅動的 GUI 自動化領域的一次重大進步。憑藉其增強的感知、統一的行動空間和強大的推理能力,它為自動化圖形界面中的工作流程提供了一個強大的工具。開放部署模型進一步促進了社區參與,對於那些希望在實際應用中利用 AI 的人來說,這是一個令人興奮的發展。

常見問題

問:什麼是 Utars 1.5?
答:Utars 1.5 是字節跳動開發的一個視覺語言代理,將您的屏幕轉變為可操作的圖像,使其能夠直接閱讀、推理和與圖形界面互動。
問:Utars 1.5 模型的大小是多少?
答:Utars 1.5 模型有三種大小可供選擇:輕量級的 20 億參數版本、中等範圍的 70 億參數版本和強大的 720 億參數變體。
問:Utars 1.5 在感知方面有哪些進展?
答:Utars 1.5 具有增強的感知能力,能夠從各種界面(包括網站和應用程序)中提取邊界框、標籤、顏色和圖標。
問:Utars 1.5 中的統一行動空間是什麼?
答:Utars 1.5 中的統一行動空間包括共享的基本操作,如點擊、拖動、滾動和輸入,以及桌面特定的操作和移動操作,使得能夠高效執行複雜任務。
問:Utars 1.5 如何從錯誤中學習?
答:Utars 1.5 區分快速、直觀的思維和深思熟慮、分析的思維,通過大量的 GUI 教程和行動痕跡數據集學習,以隨著時間的推移提高其性能。
問:Utars 1.5 在基準測試中的表現如何?
答:在基準測試中,Utars 1.5 超越了之前的模型,如 GPT-4 和 Claude,在 OS World 合成桌面環境中達到了 42.5% 的成功率,在 Android World 任務中達到了 64.2% 的成功率。
問:Utars 1.5 是否開放供社區使用?
答:是的,字節跳動已經在 Apache 2.0 許可下發布了 Utars 1.5 的 70 億參數檢查點,使其對開發者可及,無需擔心版稅問題。
問:Utars 1.5 在 AI 驅動的 GUI 自動化中有何重要性?
答:Utars 1.5 代表了 AI 驅動的 GUI 自動化的一次重大進步,提供增強的感知、統一的行動空間和強大的推理能力,以自動化圖形界面中的工作流程。

分享至

DICloak防關聯指紋瀏覽器-防止賬號封禁,安全管理多帳號

讓多賬號運營更簡單高效,低成本高速度實現業務增長

相關文章