中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

鈦媒體 18分鐘前

OpenAI 發(fā)布 ChatGPT Agent：AI" 代理人 " 已至，人類準(zhǔn)備好交出操作權(quán)了嗎？

文 | 大模型之家

北京時間 7 月 18 日凌晨，OpenAI 如約發(fā)布了其最新力作—— ChatGPT Agent。

根據(jù) CEO Sam Altman 和四位 OpenAI 研究員介紹，ChatGPT Agent 是一個具備自主執(zhí)行復(fù)雜任務(wù)能力的 AI Agent，它不再僅僅 " 對話 "，而是可以打開虛擬機(jī)，完成搜索、篩選、判斷、執(zhí)行等一整套流程，最終輸出可交付的結(jié)果。

ChatGPT Agent 的定位非常 " 簡單直接 "：一個擁有終端、圖形瀏覽器、文本瀏覽器的多工具整合智能體系統(tǒng)。功能上，幾乎等于一個受控的遠(yuǎn)程虛擬操作系統(tǒng)。

值得注意的是，ChatGPT Agent 可以說是 OpenAI 自今年以來推出產(chǎn)品的一次階段性整合與釋放：Operator 和 Deep Research，一個偏執(zhí)行，一個偏思考，如今徹底融合。

AI 真正開始 " 動手 "：ChatGPT Agent 的能力邊界

與如今大火的 " 智能體 " 賽道的產(chǎn)品類似，ChatGPT Agent 的最大變化，是讓 AI 真正獲得了對數(shù)字世界的 " 動手 " 能力。Agent 模式下，用戶不再是通過提示詞一步步引導(dǎo) ChatGPT 生成答案，而是描述一個需求后，模型啟動虛擬機(jī)，自主規(guī)劃任務(wù)、調(diào)度工具、完成執(zhí)行。

在演示中，OpenAI 展現(xiàn)了其三大基礎(chǔ)能力組件：文本瀏覽器、可視化瀏覽器和終端。

文本瀏覽器的職責(zé)是爬梳大量信息，完成閱讀和篩選。它適合處理長文內(nèi)容、查找具體數(shù)據(jù)或者跟蹤文獻(xiàn)，是 Deep Research 的延續(xù)；可視化瀏覽器則具備界面識別與交互能力，比如可以點(diǎn)擊網(wǎng)頁按鈕、識別圖像、進(jìn)行鼠標(biāo)操作等；終端部分支持代碼執(zhí)行、API 調(diào)用和復(fù)雜文件生成——如 PPT、Excel、數(shù)據(jù)分析腳本等。

這些能力的協(xié)同，使 Agent 具備了完整的 " 感知 - 決策 - 執(zhí)行 " 鏈路。比如在一次旅行安排任務(wù)中，它先用文本瀏覽器分析網(wǎng)頁信息、提取天氣與禮儀信息，再切換至可視化瀏覽器挑選合適禮服，最后生成整合報告。整個任務(wù)歷時僅十分鐘，遠(yuǎn)遠(yuǎn)快于人類的處理效率。

更復(fù)雜的場景中，Agent 還能夠自動調(diào)用圖像生成 API 設(shè)計貼紙，然后在網(wǎng)站上上傳圖像、填寫參數(shù)、放入購物車，最后請用戶確認(rèn)是否付款。在另一個演示中，Agent 還連接了 Google Drive，提取文檔并自動生成 PPT；或?qū)⑷粘虜?shù)據(jù)匯總為帶地圖的電子表格行程表。

這些能力讓 Agent 不僅適用于內(nèi)容生成，更適用于事務(wù)型任務(wù)處理，意味著它從 " 信息輔助 " 跨越到 " 決策 + 執(zhí)行 "。在辦公場景中，Agent 可以完成會議安排、報告撰寫、差旅預(yù)訂等一系列中層管理事務(wù)。在生活場景中，它能規(guī)劃婚禮、生成資料、預(yù)約專家等個性化需求。用一個略顯理想主義但已逐步接近現(xiàn)實(shí)的說法：ChatGPT Agent，是人人都可以擁有的 " 高效執(zhí)行助理 "。

基準(zhǔn)測試成績：Agent 能力更接近人類水平

與以往 OpenAI 擅長的語言能力不同，Agent 的測試指標(biāo)更偏向執(zhí)行能力和任務(wù)完成度。在這方面，ChatGPT Agent 通過了多個廣受認(rèn)可的專業(yè)評測，其結(jié)果呈現(xiàn)出一次系統(tǒng)性的躍遷。

在 " 人類的最后一場大考 "（Humanities Last Exam）中，ChatGPT Agent 獲得了 41.6% 的成績，幾乎是不帶工具模型的兩倍。這項(xiàng)測試不僅包含復(fù)雜的推理與信息調(diào)度任務(wù)，還考察模型的工具調(diào)度能力。在使用終端、瀏覽器等資源的前提下，Agent 表現(xiàn)出對任務(wù)流程的高度掌控。

在 WebArena 這個網(wǎng)頁交互能力評測中，Agent 的得分已經(jīng)接近人類水平。而在 SpreadsheetBench，即電子表格操作能力的標(biāo)準(zhǔn)測評中，其分?jǐn)?shù)達(dá)到 45.5%，較 GPT-4o 提升一倍。

尤其值得一提的是 DSBench 測試，它用于衡量數(shù)據(jù)分析與建模任務(wù)的能力。Agent 在這一測試中超過了所有此前的 SOTA（state-of-the-art）模型，明確表明其在面對現(xiàn)實(shí)數(shù)據(jù)分析任務(wù)中，不僅可用，而且強(qiáng)大。

這些數(shù)字背后，是 OpenAI 在工具調(diào)度、任務(wù)分解、推理執(zhí)行上的系統(tǒng)性優(yōu)化?？梢哉f，ChatGPT Agent 已不再局限于 " 語言智能 "，而是進(jìn)入 " 操作智能 " 的新階段。

Operator 和 Deep Research 子產(chǎn)品的融合

在大模型之家看來，ChatGPT Agent 并不是從零起步的 " 創(chuàng)新 "：其核心其實(shí)是 Operator 和 Deep Research 兩個子產(chǎn)品的融合。

Operator 是今年初推出的圖形界面 Agent 工具，支持鼠標(biāo)模擬點(diǎn)擊、滾動等界面操作；Deep Research 則是一個偏內(nèi)容分析和信息整合的工具，擅長處理復(fù)雜文字材料并輸出結(jié)構(gòu)化結(jié)果。兩者原本分別服務(wù)不同需求，但用戶使用行為暴露出兩者之間的邊界并不清晰。

許多 Operator 用戶在提示詞中描述的任務(wù)，其實(shí)更像是深度調(diào)研；而 Deep Research 的高階用戶，又頻繁表達(dá)對圖形交互的訴求。

這使 OpenAI 做出順理成章的決策：合并兩個工具，并在一個統(tǒng)一的模型訓(xùn)練框架下，用強(qiáng)化學(xué)習(xí)方法教會模型如何調(diào)度工具。具體方法是模型從 " 笨拙地 " 亂用工具開始，通過獎勵高效行為逐漸掌握何時使用哪個工具、在哪一步執(zhí)行操作。

這個過程類似于 AI 界所熟知的 Curriculum Learning（課程學(xué)習(xí)）策略，從簡入繁，在逐步暴露復(fù)雜問題之前先引導(dǎo)其掌握基礎(chǔ)邏輯。強(qiáng)化學(xué)習(xí)在這里的作用不僅僅是讓模型 " 能用 " 工具，而是 " 用得巧 "，用得靈活。

這種組合式的工程化思維并不新鮮，但放在 OpenAI 此時此刻的體系中，它是一種極高效的資源整合，既降低開發(fā)風(fēng)險，又釋放實(shí)際能力，是對 "AI 工具生態(tài) " 合理性的回應(yīng)。

Agent 不是終點(diǎn)，而是通往應(yīng)用未來的橋梁

ChatGPT Agent 的誕生，不只是對工具融合的一次技術(shù)實(shí)現(xiàn)，更是對 " 大模型如何走進(jìn)現(xiàn)實(shí) " 的階段性回答。從 ChatGPT 的出現(xiàn)開始，逐漸理解語言模型的強(qiáng)大；從 GPT-4o 開始看見多模態(tài)推理的邊界；而現(xiàn)在，Agent 將 " 思考 " 與 " 動手 " 統(tǒng)一，標(biāo)志著 AI 真正有可能完成從 " 助手 " 向 " 代理人 " 角色的轉(zhuǎn)變。

從開放的任務(wù)執(zhí)行結(jié)構(gòu)來看，Agent 模式更像是未來操作系統(tǒng)的一種雛形：具備動態(tài)調(diào)度資源、主動規(guī)劃流程、與人類深度交互的能力。它并不重定義 AI 模型本身，而是重塑了人與 AI 協(xié)作的界面與方法。

OpenAI 將這套能力下放到 Plus、Team 乃至企業(yè)級服務(wù)中，也意味著 Agent 從不再是 " 高級用戶 " 的特權(quán)，同時借助 Agent 熱潮吸引更多用戶，擴(kuò)大自己在大模型賽道的話語權(quán)。

未來，ChatGPT Agent 是否能像操作系統(tǒng)那樣擁有開放插件生態(tài)？Agent 是否能承接 SaaS 級別復(fù)雜度的任務(wù)？企業(yè)的專屬工作流是否可以嵌入 Agent？這些問題都已開始具象化地浮出水面。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

中超

相關(guān)閱讀

華為人工智能領(lǐng)域新專利公布可降低擴(kuò)散模型訓(xùn)練成本

數(shù)碼測評 1小時前

華為MatePad Pro 12.2開啟預(yù)約：超窄四等邊+麒麟9020A

數(shù)碼測評 2小時前

迄今為止最大提升！FFmpeg手寫匯編代碼：性能100倍飛躍

快科技 49分鐘前

iPhone 17 Pro 或推「液態(tài)玻璃」配色/ChatGPT Agent 發(fā)布，可操控電腦/美團(tuán)回應(yīng) 0 元購：本來不想卷

愛范兒 2小時前

合作近十年推動國產(chǎn)屏！小米xTCL華星創(chuàng)新顯示聯(lián)合實(shí)驗(yàn)室二期揭幕

快科技 3小時前

最強(qiáng)工作站CPU！AMD線程撕裂者PRO 9000WX定價公布：最高84000元

快科技 3小時前

人力成本下降40%！中餐連鎖用炒菜機(jī)器人當(dāng)“大廚”

21世紀(jì)經(jīng)濟(jì)報道 4小時前

利民上架RK120 Digital風(fēng)冷：ARGB數(shù)顯屏幕266元起

快科技 5小時前

海淀：產(chǎn)業(yè)鏈上，長出更多“未來之樹”

北京 35分鐘前

牛！中國制造殺瘋了！歐美瘋搶的磁吸小音箱，只賣幾十塊！

旅游達(dá)人精選 2小時前

AI辦公大戰(zhàn)升溫！OpenAI也要加入飛書和WPS的戰(zhàn)場？

雷科技 4小時前

“鴻蒙大酒店”實(shí)錘余承東都去吃了：菜品很豐富！

快科技 12小時前

字節(jié)終于出手了

虎嗅APP 2小時前

“中國反超，而且優(yōu)勢巨大”

參考消息 6小時前

最新評論

沒有更多評論了

鈦媒體

訂閱

覺得文章不錯，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

Blockchain News