OpenAI 的 ChatGPT 操作員是一個創新的 AI 代理,旨在作為個人助理,能夠完成各種任務,例如訂購咖啡、購買房屋,甚至構建和部署應用程序。最近,OpenAI 發布了這個 AI 代理的公開預覽,該代理能夠積極與數字世界互動,使用戶能夠在網站上自動化任務,而無需特定的網絡 API。
ChatGPT 操作員,也稱為計算機使用代理 (CUA),是基於 ChatGPT-4 構建的,並利用其視覺能力。這個代理處理屏幕上的原始像素,並在虛擬機內使用虛擬鼠標和鍵盤進行導航。操作涉及三個主要步驟:感知,捕捉顯示器的截圖;推理,使用思維鏈來確定必要的行動;以及執行動作,包括點擊、滾動或輸入。
要訪問 ChatGPT 操作員,用戶必須滿足兩個要求:他們需要位於美國並擁有 ChatGPT 的專業訂閱,該訂閱費用為 200 美元。對於位於美國以外的人,使用 VPN 可以幫助繞過地理限制。用戶可以通過其專用網站訪問操作員,在那裡用戶可以輸入提示並查看其能力的示例。
可以測試 ChatGPT 操作員的一個任務是在像 Wix Studio 這樣的網站上發布草稿博客。該代理打開一個類似於 Google Chrome 的瀏覽器界面,並導航到 Wix Studio 登錄頁面。在輸入必要的憑據後,代理接著定位草稿博客,確認用戶的發布意圖後執行該操作。這展示了該代理有效與網頁元素互動的能力。
ChatGPT 操作員還可以處理更複雜的任務,例如更新網站的導航菜單。當被要求從菜單中刪除一個項目時,代理因修改實時網站的潛在風險而遇到安全提示。在確認該操作後,它成功導航到編輯器進行所需的更改,展示了其管理網站更新的能力。
雖然 ChatGPT 操作員在許多場景中表現良好,但它確實存在一些限制。例如,在嘗試更改菜單的字體粗細時,代理在樣式變更的細微差別上遇到了困難。此外,在被要求尋找適合的 GitHub 庫以將 markdown 文本轉換為 React 項目時,它經常選擇第一個相關項目,而沒有考慮可用的最佳選項。這突顯了用戶需要提供具體提示以獲得最佳結果的必要性。
ChatGPT 操作員的潛在應用非常廣泛,用戶報告成功的互動,例如尋找經濟實惠的保險、結構化研究論文,甚至進行在線購物。隨著更多測試的進行,揭示這個 AI 代理的全部能力和限制將會非常有趣,為更高效的數字任務管理鋪平道路。
問:OpenAI 的 ChatGPT 操作員是什麼?
答:OpenAI 的 ChatGPT 操作員是一個創新的 AI 代理,旨在作為個人助理,能夠完成各種任務,例如訂購咖啡、購買房屋或構建和部署應用程序。
問:ChatGPT 操作員是如何工作的?
答:ChatGPT 操作員,也稱為計算機使用代理 (CUA),處理屏幕上的原始像素,並在虛擬機內使用虛擬鼠標和鍵盤進行導航,涉及感知、推理和執行動作的步驟。
問:訪問 ChatGPT 操作員的要求是什麼?
答:用戶必須位於美國並擁有 ChatGPT 的專業訂閱,該訂閱費用為 200 美元。位於美國以外的用戶可以使用 VPN 繞過地理限制。
問:ChatGPT 操作員可以發布博客嗎?
答:是的,ChatGPT 操作員可以在像 Wix Studio 這樣的網站上發布草稿博客,通過瀏覽器界面導航、登錄並執行發布操作。
問:ChatGPT 操作員可以進行網站更新嗎?
答:是的,它可以處理更新網站導航菜單等任務,儘管在修改實時網站時可能會遇到安全提示。
問:ChatGPT 操作員的一些限制是什麼?
答:該操作員在處理細微任務(例如更改字體粗細)時會遇到困難,並且在尋找庫或資源時可能會選擇次優選項,這突顯了需要具體提示的必要性。
問:ChatGPT 操作員的一些潛在應用是什麼?
答:用戶報告成功的互動,例如尋找經濟實惠的保險、結構化研究論文和進行在線購物,展示了其廣泛的潛在應用。