Operator của OpenAI là một tác nhân AI sáng tạo được thiết kế để hoạt động như một trợ lý cá nhân, có khả năng hoàn thành nhiều nhiệm vụ khác nhau như đặt cà phê, mua nhà, hoặc thậm chí xây dựng và triển khai ứng dụng. Gần đây, OpenAI đã phát hành một bản xem trước mở cho Operator, cho phép người dùng tương tác với thế giới kỹ thuật số và tự động hóa các nhiệm vụ thông qua một máy tính sử dụng mô hình tác nhân (CUA) được xây dựng trên nền tảng ChatGPT-4.
Operator hoạt động bằng cách xử lý các pixel thô trên màn hình và điều hướng qua một chuột và bàn phím ảo trên một máy ảo. Nó hoạt động trong một vòng lặp bao gồm ba bước chính: nhận thức, nơi nó chụp ảnh màn hình của màn hình; lý luận, nơi nó sử dụng Chuỗi Tư duy để xác định các hành động cần thiết; và thực hiện hành động, bao gồm nhấp chuột, cuộn hoặc gõ.
Để truy cập vào Operator, người dùng phải đáp ứng hai yêu cầu: nằm ở Hoa Kỳ và có một đăng ký pro của ChatGPT, có giá 200 đô la. Đối với những người ở ngoài Hoa Kỳ, việc sử dụng VPN có thể giúp vượt qua các hạn chế địa lý. Người dùng có thể truy cập Operator thông qua trang web được chỉ định, nơi họ có thể nhập các lệnh và xem các ví dụ về khả năng của nó.
Một trong những nhiệm vụ được thử nghiệm với Operator là xuất bản một bản nháp blog trên một trang web Wix Studio. Tác nhân đã mở một giao diện trình duyệt giống như Google Chrome và điều hướng đến trang đăng nhập Wix. Sau khi nhập các thông tin cần thiết, nó đã truy cập vào trang và tìm thấy bản nháp blog. Operator đã xác nhận hành động với người dùng trước khi xuất bản thành công blog, cho thấy khả năng tương tác hiệu quả với các yếu tố web.
Một nhiệm vụ khác liên quan đến việc cập nhật menu điều hướng của trang web. Operator đã có thể điều hướng đến phần quản lý menu và yêu cầu người dùng xác nhận trước khi xóa một mục cụ thể. Mặc dù nó hoạt động tốt với các thay đổi cơ bản, nhưng nó đã gặp khó khăn khi cố gắng thực hiện các nhiệm vụ phức tạp hơn, chẳng hạn như thay đổi độ dày phông chữ, cho thấy một số hạn chế trong khả năng của nó.
Operator cũng đã được thử nghiệm với các nhiệm vụ liên quan đến lập trình, chẳng hạn như tìm một thư viện GitHub phù hợp để chuyển đổi văn bản markdown cho một dự án React. Trong khi nó có thể duyệt và truy cập các tài nguyên liên quan, nó thường chọn mục đầu tiên mà nó gặp phải, cần có các lệnh cụ thể hơn để đạt được kết quả tốt hơn. Điều này nhấn mạnh tầm quan trọng của việc cung cấp hướng dẫn rõ ràng để đạt hiệu suất tối ưu.
Tổng thể, Operator cho thấy tiềm năng đáng kể trong việc tự động hóa các nhiệm vụ và hỗ trợ người dùng trong nhiều lĩnh vực khác nhau. Các thử nghiệm trong tương lai sẽ tập trung vào khả năng của nó trong các tình huống phức tạp hơn, cũng như hiệu suất của nó trong các nhiệm vụ như tìm kiếm các tùy chọn bảo hiểm tốt nhất hoặc hỗ trợ với cấu trúc bài nghiên cứu. Việc khám phá tiếp tục sẽ giúp khám phá toàn bộ phạm vi chức năng mà Operator có thể cung cấp.
Q: Operator của OpenAI là gì?
A: Operator của OpenAI là một tác nhân AI sáng tạo được thiết kế để hoạt động như một trợ lý cá nhân, có khả năng hoàn thành nhiều nhiệm vụ khác nhau như đặt cà phê, mua nhà, hoặc xây dựng và triển khai ứng dụng.
Q: Operator hoạt động như thế nào?
A: Operator xử lý các pixel thô trên màn hình và điều hướng qua một chuột và bàn phím ảo trên một máy ảo, hoạt động trong một vòng lặp bao gồm nhận thức, lý luận và thực hiện các hành động.
Q: Các yêu cầu để truy cập vào Operator là gì?
A: Người dùng phải nằm ở Hoa Kỳ và có một đăng ký pro của ChatGPT, có giá 200 đô la. Những người ở ngoài Hoa Kỳ có thể sử dụng VPN để vượt qua các hạn chế địa lý.
Q: Operator có thể xuất bản một blog không?
A: Có, Operator có thể xuất bản một bản nháp blog trên một trang web Wix Studio bằng cách điều hướng qua giao diện trình duyệt, đăng nhập và xác nhận các hành động với người dùng.
Q: Operator có những hạn chế gì khi cập nhật website?
A: Trong khi Operator có thể thực hiện các thay đổi cơ bản như cập nhật menu điều hướng, nó gặp khó khăn với các nhiệm vụ phức tạp hơn, chẳng hạn như thay đổi độ dày phông chữ.
Q: Operator xử lý các nhiệm vụ lập trình như thế nào?
A: Operator có thể duyệt và truy cập các tài nguyên liên quan cho các nhiệm vụ lập trình, nhưng nó thường chọn mục đầu tiên mà nó gặp phải, nhấn mạnh sự cần thiết của các lệnh cụ thể để đạt được kết quả tốt hơn.
Q: Kế hoạch kiểm tra tương lai cho Operator là gì?
A: Các thử nghiệm trong tương lai sẽ tập trung vào khả năng của Operator trong các tình huống phức tạp hơn, chẳng hạn như tìm kiếm các tùy chọn bảo hiểm tốt nhất và hỗ trợ với cấu trúc bài nghiên cứu.