中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      鈦媒體 18分鐘前

      OpenAI 發(fā)布 ChatGPT Agent:AI" 代理人 " 已至,人類準(zhǔn)備好交出操作權(quán)了嗎?

      文 | 大模型之家

      北京時間 7 月 18 日凌晨,OpenAI 如約發(fā)布了其最新力作—— ChatGPT Agent。

      根據(jù) CEO Sam Altman 和四位 OpenAI 研究員介紹,ChatGPT Agent 是一個具備自主執(zhí)行復(fù)雜任務(wù)能力的 AI Agent,它不再僅僅 " 對話 ",而是可以打開虛擬機(jī),完成搜索、篩選、判斷、執(zhí)行等一整套流程,最終輸出可交付的結(jié)果。

      ChatGPT Agent 的定位非常 " 簡單直接 ":一個擁有終端、圖形瀏覽器、文本瀏覽器的多工具整合智能體系統(tǒng)。功能上,幾乎等于一個受控的遠(yuǎn)程虛擬操作系統(tǒng)。

      值得注意的是,ChatGPT Agent 可以說是 OpenAI 自今年以來推出產(chǎn)品的一次階段性整合與釋放:Operator 和 Deep Research,一個偏執(zhí)行,一個偏思考,如今徹底融合。

      AI 真正開始 " 動手 ":ChatGPT Agent 的能力邊界

      與如今大火的 " 智能體 " 賽道的產(chǎn)品類似,ChatGPT Agent 的最大變化,是讓 AI 真正獲得了對數(shù)字世界的 " 動手 " 能力。Agent 模式下,用戶不再是通過提示詞一步步引導(dǎo) ChatGPT 生成答案,而是描述一個需求后,模型啟動虛擬機(jī),自主規(guī)劃任務(wù)、調(diào)度工具、完成執(zhí)行。

      在演示中,OpenAI 展現(xiàn)了其三大基礎(chǔ)能力組件:文本瀏覽器、可視化瀏覽器和終端。

      文本瀏覽器的職責(zé)是爬梳大量信息,完成閱讀和篩選。它適合處理長文內(nèi)容、查找具體數(shù)據(jù)或者跟蹤文獻(xiàn),是 Deep Research 的延續(xù);可視化瀏覽器則具備界面識別與交互能力,比如可以點(diǎn)擊網(wǎng)頁按鈕、識別圖像、進(jìn)行鼠標(biāo)操作等;終端部分支持代碼執(zhí)行、API 調(diào)用和復(fù)雜文件生成——如 PPT、Excel、數(shù)據(jù)分析腳本等。

      這些能力的協(xié)同,使 Agent 具備了完整的 " 感知 - 決策 - 執(zhí)行 " 鏈路。比如在一次旅行安排任務(wù)中,它先用文本瀏覽器分析網(wǎng)頁信息、提取天氣與禮儀信息,再切換至可視化瀏覽器挑選合適禮服,最后生成整合報告。整個任務(wù)歷時僅十分鐘,遠(yuǎn)遠(yuǎn)快于人類的處理效率。

      更復(fù)雜的場景中,Agent 還能夠自動調(diào)用圖像生成 API 設(shè)計貼紙,然后在網(wǎng)站上上傳圖像、填寫參數(shù)、放入購物車,最后請用戶確認(rèn)是否付款。在另一個演示中,Agent 還連接了 Google Drive,提取文檔并自動生成 PPT;或?qū)⑷粘虜?shù)據(jù)匯總為帶地圖的電子表格行程表。

      這些能力讓 Agent 不僅適用于內(nèi)容生成,更適用于事務(wù)型任務(wù)處理,意味著它從 " 信息輔助 " 跨越到 " 決策 + 執(zhí)行 "。在辦公場景中,Agent 可以完成會議安排、報告撰寫、差旅預(yù)訂等一系列中層管理事務(wù)。在生活場景中,它能規(guī)劃婚禮、生成資料、預(yù)約專家等個性化需求。用一個略顯理想主義但已逐步接近現(xiàn)實(shí)的說法:ChatGPT Agent,是人人都可以擁有的 " 高效執(zhí)行助理 "。

      基準(zhǔn)測試成績:Agent 能力更接近人類水平

      與以往 OpenAI 擅長的語言能力不同,Agent 的測試指標(biāo)更偏向執(zhí)行能力和任務(wù)完成度。在這方面,ChatGPT Agent 通過了多個廣受認(rèn)可的專業(yè)評測,其結(jié)果呈現(xiàn)出一次系統(tǒng)性的躍遷。

      在 " 人類的最后一場大考 "(Humanities Last Exam)中,ChatGPT Agent 獲得了 41.6% 的成績,幾乎是不帶工具模型的兩倍。這項(xiàng)測試不僅包含復(fù)雜的推理與信息調(diào)度任務(wù),還考察模型的工具調(diào)度能力。在使用終端、瀏覽器等資源的前提下,Agent 表現(xiàn)出對任務(wù)流程的高度掌控。

      在 WebArena 這個網(wǎng)頁交互能力評測中,Agent 的得分已經(jīng)接近人類水平。而在 SpreadsheetBench,即電子表格操作能力的標(biāo)準(zhǔn)測評中,其分?jǐn)?shù)達(dá)到 45.5%,較 GPT-4o 提升一倍。

      尤其值得一提的是 DSBench 測試,它用于衡量數(shù)據(jù)分析與建模任務(wù)的能力。Agent 在這一測試中超過了所有此前的 SOTA(state-of-the-art)模型,明確表明其在面對現(xiàn)實(shí)數(shù)據(jù)分析任務(wù)中,不僅可用,而且強(qiáng)大。

      這些數(shù)字背后,是 OpenAI 在工具調(diào)度、任務(wù)分解、推理執(zhí)行上的系統(tǒng)性優(yōu)化??梢哉f,ChatGPT Agent 已不再局限于 " 語言智能 ",而是進(jìn)入 " 操作智能 " 的新階段。

      Operator 和 Deep Research 子產(chǎn)品的融合

      在大模型之家看來,ChatGPT Agent 并不是從零起步的 " 創(chuàng)新 ":其核心其實(shí)是 Operator 和 Deep Research 兩個子產(chǎn)品的融合。

      Operator 是今年初推出的圖形界面 Agent 工具,支持鼠標(biāo)模擬點(diǎn)擊、滾動等界面操作;Deep Research 則是一個偏內(nèi)容分析和信息整合的工具,擅長處理復(fù)雜文字材料并輸出結(jié)構(gòu)化結(jié)果。兩者原本分別服務(wù)不同需求,但用戶使用行為暴露出兩者之間的邊界并不清晰。

      許多 Operator 用戶在提示詞中描述的任務(wù),其實(shí)更像是深度調(diào)研;而 Deep Research 的高階用戶,又頻繁表達(dá)對圖形交互的訴求。

      這使 OpenAI 做出順理成章的決策:合并兩個工具,并在一個統(tǒng)一的模型訓(xùn)練框架下,用強(qiáng)化學(xué)習(xí)方法教會模型如何調(diào)度工具。具體方法是模型從 " 笨拙地 " 亂用工具開始,通過獎勵高效行為逐漸掌握何時使用哪個工具、在哪一步執(zhí)行操作。

      這個過程類似于 AI 界所熟知的 Curriculum Learning(課程學(xué)習(xí))策略,從簡入繁,在逐步暴露復(fù)雜問題之前先引導(dǎo)其掌握基礎(chǔ)邏輯。強(qiáng)化學(xué)習(xí)在這里的作用不僅僅是讓模型 " 能用 " 工具,而是 " 用得巧 ",用得靈活。

      這種組合式的工程化思維并不新鮮,但放在 OpenAI 此時此刻的體系中,它是一種極高效的資源整合,既降低開發(fā)風(fēng)險,又釋放實(shí)際能力,是對 "AI 工具生態(tài) " 合理性的回應(yīng)。

      Agent 不是終點(diǎn),而是通往應(yīng)用未來的橋梁

      ChatGPT Agent 的誕生,不只是對工具融合的一次技術(shù)實(shí)現(xiàn),更是對 " 大模型如何走進(jìn)現(xiàn)實(shí) " 的階段性回答。從 ChatGPT 的出現(xiàn)開始,逐漸理解語言模型的強(qiáng)大;從 GPT-4o 開始看見多模態(tài)推理的邊界;而現(xiàn)在,Agent 將 " 思考 " 與 " 動手 " 統(tǒng)一,標(biāo)志著 AI 真正有可能完成從 " 助手 " 向 " 代理人 " 角色的轉(zhuǎn)變。

      從開放的任務(wù)執(zhí)行結(jié)構(gòu)來看,Agent 模式更像是未來操作系統(tǒng)的一種雛形:具備動態(tài)調(diào)度資源、主動規(guī)劃流程、與人類深度交互的能力。它并不重定義 AI 模型本身,而是重塑了人與 AI 協(xié)作的界面與方法。

      OpenAI 將這套能力下放到 Plus、Team 乃至企業(yè)級服務(wù)中,也意味著 Agent 從不再是 " 高級用戶 " 的特權(quán),同時借助 Agent 熱潮吸引更多用戶,擴(kuò)大自己在大模型賽道的話語權(quán)。

      未來,ChatGPT Agent 是否能像操作系統(tǒng)那樣擁有開放插件生態(tài)?Agent 是否能承接 SaaS 級別復(fù)雜度的任務(wù)?企業(yè)的專屬工作流是否可以嵌入 Agent?這些問題都已開始具象化地浮出水面。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評論

      沒有更多評論了

      覺得文章不錯,微信掃描分享好友

      掃碼分享

      熱門推薦

      查看更多內(nèi)容