中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      極客公園 17小時前

      剛剛,OpenAI 發(fā)布了自己的 Agent 模式,Manus Style

      作者|Li Yuan

      一個共識是,AI 今年的大主題,是 Agent。

      如果說過去我們習(xí)慣了 AI 的「動嘴」,那么接下來,就是 AI「動手」的時代。畢竟,既然 AI 已經(jīng)能聽懂、又足夠聰明,那為什么不能直接把事兒干完?

      2025 年下半場剛開局,一直在定義 AI 的 OpenAI,突然端出了他們的 Agent 答卷。不過有趣的是,乍一看,它和幾個月前爆火的 Manus 模式,驚人地相似。

      7 月 18 日凌晨,Sam Altman 和四位 OpenAI 研究員在直播中介紹了 OpenAI 即將推出的 Agent 模式。

      簡單來說,在 Agent 模式下,你可以直接對 ChatGPT 提要求:婚禮缺雙鞋,去電商平臺幫我買了;或者,給我設(shè)計個寵物周邊,直接下單打?。徊檎倚畔?,直接生成 PPT。然后,ChatGPT 會自己打開虛擬機(jī),一步步操作。

      在演示中,一個復(fù)雜任務(wù)大概需要 10 分鐘完成。但從結(jié)果看,完成度很高。ChatGPT 可以在虛擬環(huán)境里可以調(diào)用文本瀏覽器、可視化瀏覽器和終端。而基于終端,還可以進(jìn)一步調(diào)用云服務(wù) API、圖片生成器,運行代碼等。

      更關(guān)鍵的,這次 OpenAI 不再 Pro 用戶優(yōu)先,Plus、Team 用戶也將能很快上手,每月可用 40 次。量大,管飽。

      Sam Altman 用他標(biāo)志性的真誠眼神,對著屏幕說:這是一個全新的范式。就像我們學(xué)會上網(wǎng),最后也學(xué)會了甄別詐騙信息一樣,現(xiàn)在,整個社會需要學(xué)習(xí)如何與 Agent 安全地交互和共存。

      01

      Agent 模式能干什么?

      直接觀看 OpenAI 的 Agent 模式演示,會發(fā)現(xiàn)其直觀體驗與幾個月前爆火的 Manus 高度相似。

      在用戶提出需求之后,都會自動開啟一個虛擬機(jī),開始自動執(zhí)行一些任務(wù),執(zhí)行過程中,Agent 會反復(fù)請求用戶確認(rèn),并允許隨時手動接管。同時,用戶也能在任務(wù)中途植入新需求,進(jìn)行實時交互。

      而在 OpenAI 的介紹中,Agent 模式可以調(diào)用三種工具:文本瀏覽器、可視化瀏覽器和終端。模型可以自主選擇切換各種工具。

      這種工具組合的設(shè)計頗為精巧:文本瀏覽器負(fù)責(zé)大量瀏覽文字,搜尋信息,而可視化瀏覽器則負(fù)責(zé)定位到信息之后直接模擬一些鍵鼠交互,或者用來讀取圖像信息。

      而終端,則可以運行代碼,生成包括 PPT、Excel 在內(nèi)的文件,和調(diào)用一些云端 API。

      在 OpenAI 提供的第一個演示里,研究員提出要規(guī)劃參加另一個朋友婚禮的事宜,要挑選一套符合著裝要求的禮服(考慮場地、天氣、中高檔價位)預(yù)訂酒店,同時提供禮物建議。

      研究員首先在 ChatGPT 里切換到 Agent 模式,把上述需求發(fā)過去。Agent 啟動虛擬電腦、加載環(huán)境(大約幾秒)。

      然后 ChatGPT 先試用文本瀏覽器打開了用戶給的網(wǎng)頁,搜索婚禮信息、著裝要求、天氣等。發(fā)現(xiàn)需要進(jìn)一步確認(rèn)婚禮日期時,模型也提出了澄清請求,但用戶選擇讓它自己繼續(xù)推理。

      在找到了天氣、場地信息后,AI 開始推薦合適的禮服,并切換到可視化瀏覽器檢查禮服效果。完成任務(wù)后,繼續(xù)搜索酒店和禮物。

      可以看到,最后給出的婚禮出行建議報告非常長而詳細(xì),涵蓋了服裝、酒店、禮物。甚至附上了非常多的鏈接,在酒店是否有空位的索引上,還附上了在線預(yù)訂網(wǎng)站的截圖。

      而完成這樣的一份報告,AI 只花了十分鐘。相比于我們熟悉的一問一答看起來時間是長了很多,但是相比于實際的工作量,AI 看起來還是要比人的效率高太多了。

      如果說這個演示還是更加體現(xiàn)其研究能力,另一個演示則直接展示了其動手能力。

      研究員要求給團(tuán)隊的吉祥物(是一只可愛的狗狗,昵稱 Bernie)做出一批筆記本貼紙,并下單 500 張。

      Agent 直接利用終端功能,調(diào)用了圖像生成工具(Image Gen API)來生成一張動漫風(fēng)格的狗狗插畫,作為貼紙的設(shè)計圖案。

      接著,Agent 打開瀏覽器訪問 Sticker Mule 網(wǎng)站,把設(shè)計好的圖上傳到網(wǎng)站,填寫了貼紙數(shù)量、尺寸等,并把商品加入購物車。

      最后它主動向用戶確認(rèn),是否要用這張插畫?是否繼續(xù)下單?是否需要用戶自己輸入信用卡付款,還是讓它繼續(xù)完成?

      任務(wù)停留在讓用戶接管輸入信用卡,花了 7 分鐘。

      同樣的能力,Agent 還自己連接 Google Drive API(類似于國內(nèi)的網(wǎng)盤),讀取文件之后生成了一份 PPT。

      查詢了賽季日程,生成了一個詳細(xì)的旅行電子表格 + 帶標(biāo)注地圖的旅行攻略。這個任務(wù)比較復(fù)雜,Agent 大約花了 25 分鐘完成。

      02

      輕描淡寫:AI 能力又進(jìn)步了

      OpenAI 此次推出的新 Agent 模式,實際上并不是一項全新的創(chuàng)新,而是由 OpenAI 上半年推出的兩樣工具組合而成:Operator 和 Deep Research。

      Operator 是原本只開放給了 Pro 用戶的瀏覽器 Agent 工具,能夠分析圖形操作界面,并做出一定的操作。

      而 Deep Research,則是一個深入研究的分析工具,可以閱讀大量的網(wǎng)頁,直接生成一份調(diào)研報告。

      OpenAI 表示,在兩樣工具分別推出的過程中,發(fā)現(xiàn)很多用戶用 Operator 寫的提示詞其實更像 Deep Research 的任務(wù),比如「計劃一次旅行并預(yù)訂」。而 Deep Research 用戶高度呼吁增加「登錄網(wǎng)站、訪問受保護(hù)資源」的能力,其實是 Operator 早就能做的。于是團(tuán)隊決定將兩個產(chǎn)品融合起來。

      這和剛剛離職的 OpenAI 的工程師爆料的 OpenAI 的團(tuán)隊文化其實很接近:OpenAI 內(nèi)部很看重工程師的自驅(qū)力,常常有多個類似的項目同時在推進(jìn),誰想做誰就能往前推進(jìn)。

      此次 Operator 和 Deep Research 的融合看起來還是很成功的。兩個從不同角度推動的 Agent 項目,最后融合起來,有了一些奇妙的化學(xué)反應(yīng),也避開了只使用瀏覽器的圖形界面去閱讀文字材料的低效,讓最后能形成深度報告的時長變得并不高。

      OpenAI 也提到了在為模型提供多種工具之后,怎樣訓(xùn)練模型。

      仍然是使用強(qiáng)化學(xué)習(xí)。一開始模型會「笨拙」地嘗試用所有工具解決一個相對簡單的問題。也就是說,它剛開始不會判斷哪個工具更合適。

      通過獎勵它那些解決問題更高效、更合理的行為,模型能逐漸學(xué)會如何用這些工具。在什么情況下用哪個工具最合適。

      比如如果是做創(chuàng)意作品,它會先搜索公開資源;然后用終端寫代碼、編譯作品;最后用可視化瀏覽器驗證結(jié)果。

      而在一堆 Demo 中,OpenAI 也輕描淡寫地又拋出了一個新的基準(zhǔn)測試成績。

      在 Humanities Last Exam(人類的最后一場大考)中,能夠使用瀏覽器、電腦和終端的 Agent 模式模型,已經(jīng)能夠達(dá)到 42% 的高分,相比于完全不使用工具的 o3,有一倍的提升。

      而在世界范圍內(nèi)也是領(lǐng)先的—— Grok 宣布帶工具的 Grok 4 Heavy 在測試中取得 45% 的成績。

      使用工具后的高級數(shù)學(xué)推理能力,也有了進(jìn)一步的提升。

      公布的基準(zhǔn)中,有兩個是和人類的對比。

      一個是在網(wǎng)頁中操作的能力(WebArena),一個是操作電子表格的能力(SpreadsheetBench)??梢钥吹?,兩項基準(zhǔn)中,Agent 模式仍然不如人類,但是網(wǎng)頁操作,已經(jīng)追近了人類水平。

      這意味著,即便只是整合這些本身尚不如人類的工具,大模型也能獲得顯著的能力提升。Agent 時代,大模型能力的提升顯然還有更高的天花板。

      03

      和 Agent 共處的時代,確實來了

      毫無疑問,Agent 是 2025 年 AI 領(lǐng)域的絕對風(fēng)口。

      但風(fēng)口之下,用戶的真實體感往往并不完美:任務(wù)運行時間過長;稍復(fù)雜的任務(wù)就頻頻出錯。一位早期 Operator 用戶評論道「每次點擊和滾動,都像在炎熱夏日中游泳?!?/p>

      此次 OpenAI 將 Operator 與 Deep Research 融合,或許正是為了緩解這種「粘滯感」,讓 Agent 真正跑起來。

      當(dāng) OpenAI 自己下場,一個更直接的問題擺在了所有類似 Manus 的第三方開發(fā)者面前:這究竟是會催生一個繁榮的 Agent 應(yīng)用生態(tài),還是會直接碾壓所有創(chuàng)業(yè)公司?答案尚不明朗。

      而對于用戶而言,一個更切身的挑戰(zhàn)隨之而來:隱私和安全。

      當(dāng) AI 在我們看不見的虛擬機(jī)里,點開一個網(wǎng)頁、輸入我們的個人信息時,誰來保證安全?

      如果它被釣魚網(wǎng)站騙走了我們的信用卡號,責(zé)任誰負(fù)?

      OpenAI 對此的回應(yīng)是,他們會采取極其嚴(yán)格的審查和安全措施,但它也希望整個社會都能花時間去適應(yīng)和建立規(guī)范。

      Agent 時代,確實是繼 Chat 時代之后,一個截然不同的新階段。

      在 Chat 時代,我們學(xué)會了適應(yīng) AI 的 " 嘴 " ——我們慢慢習(xí)慣了它的幻覺,并學(xué)會在它的花言巧語中甄別真?zhèn)?。這是一個關(guān)于 " 信息可信度 " 的挑戰(zhàn)。

      而在 Agent 時代,挑戰(zhàn)則完全轉(zhuǎn)向了 AI 的 " 手 "。我們需要回答一系列全新的問題:我們究竟愿意多信任 AI?我們又愿意把多大的權(quán)限交出去,讓它代替我們完成多少現(xiàn)實世界的事情?

      而我們與 AI 的關(guān)系,也將因此被重新定義。

      從更宏觀的視角看,Agent 的爆發(fā)也將再次將一個老問題以更尖銳的方式推到我們面前:當(dāng) AI 能真正「干活」時,我們的工作會怎樣?

      當(dāng) AI 能獨立完成一份包含數(shù)據(jù)檢索、圖像查證的復(fù)雜報告,并直接完成在線預(yù)訂時,白領(lǐng)們的工作究竟是被賦能加速,還是被徹底威脅?

      答案尚在風(fēng)中飄。

      但無論我們歡迎、恐懼還是茫然,一個由 Agent 驅(qū)動的、更自動化的新時代,確實正在加速到來。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評論

      沒有更多評論了