蘋果重啟與谷歌的合作,考慮使用的 Gemini 來為改版后的 Siri 提供支持。
彭博新聞社報道稱,預(yù)計的 Siri 升級版(目前計劃于 2026 年發(fā)布 )可能會以定制版 LLM 的形式推出,該版本由谷歌的 Gemini 聊天機器人提供支持。
這是蘋果數(shù)月來探索外部合作伙伴關(guān)系的最新舉措。這筆潛在的 " 世紀(jì)聯(lián)姻 " 一旦達成,將不僅是 Gemini 技術(shù)實力獲得業(yè)界最高認(rèn)可的標(biāo)志,更是其影響力橫向擴張至數(shù)億 iPhone 用戶的里程碑事件。
這將為谷歌 AI 技術(shù)開辟前所未有的廣闊應(yīng)用場景和數(shù)據(jù)反饋環(huán)路,為未來的商業(yè)化,包括可能的 API 授權(quán)和訂閱服務(wù),打開了一道全新的大門。試想如果谷歌能將 Gemini 的能力接通安卓和 iOS 兩大生態(tài),將會迅速讓自己在用戶規(guī)模上大大縮小和 OpenAI 的 ChatGPT 的差距。
而對于蘋果來說,和谷歌的合作能夠延續(xù)在搜索業(yè)務(wù)上的良好關(guān)系,讓 iOS 生態(tài)在底層上首次接入大模型,為廣達的 iOS 用戶提供最領(lǐng)先的技術(shù)帶來的體驗和生態(tài)革命。
而一年多以前,當(dāng)蘋果傳出和多家大模型供應(yīng)商商談合作的時候,OpenAI 是當(dāng)時被外界認(rèn)為最有可能成為蘋果客戶的一方。谷歌因為模型能力一般,發(fā)布會翻車等負(fù)面因素,在蘋果眼里一直不是第一順位的選擇。
時隔一年多,為什么谷歌又能被蘋果看上了呢?
最重要的原因肯定是 Gemini 在最近一年多取得了長足的進步,不論是性能上還是用戶數(shù)目上大幅增長。
在 LLM Arena 上,在多項排名中 Gemini 都處于絕對的第一梯隊。
根據(jù) a16z 最新發(fā)布的報告,Gemini 正在以驚人的速度追趕 ChatGPT。
更令人矚目的是增長數(shù)據(jù)。Gemini 的增長軌跡非常陡峭,網(wǎng)站訪問量從 2 月份的 2.84 億次增長到 7 月份的 7 億次,而 ChatGPT 為 57.2 億次。
Google 在前 50 名網(wǎng)站中還有其他三個工具:AI Studio(第 10 名)、NotebookLM(第 13 名)和 Google Labs(第 39 名)。
截至 2025 年 7 月,Gemini 已經(jīng)達到 4.5 億月活用戶,相比 5 月份的 4 億用戶更是實現(xiàn)了顯著增長。
從技術(shù)評測到實際用戶采納,Gemini 了證明其作為新一代 AI 基礎(chǔ)設(shè)施的領(lǐng)導(dǎo)地位,和 OpenAI 的 ChatGPT 差距已經(jīng)越來越小。
而除了在大模型領(lǐng)域,Gemini 正在加速追趕 ChatGPT,谷歌正在以 " 全火里覆蓋 " 的方式正在讓自己的產(chǎn)品和技術(shù)徹底革新 AI 應(yīng)用的各個賽道。
2025 年 8 月,AI 生圖圈突然被一個神秘的模型攪得天翻地覆—— "Nano Banana"。
起初,沒人知道這個奇怪代號背后是誰家的產(chǎn)品,但它在各大 AI 競技場上的表現(xiàn)讓所有人都瞪大了眼睛。
直到 Google 揭曉答案:Nano Banana 正是 Gemini 2.5 Flash Image 的代號。
其全新推出的圖像生成模型 Nano Banana 目前已迅速晉升為生圖圈的 " 當(dāng)紅炸子雞 "。
與傳統(tǒng)圖像生成工具不同,Nano Banana 展現(xiàn)出了對視覺邏輯的深度理解。它不再滿足于單純的 " 畫圖 ",而是能夠理解圖像中的空間關(guān)系、物體屬性,并在保持邏輯一致性的前提下完成復(fù)雜的編輯任務(wù)。
其生成圖像的逼真度、風(fēng)格多樣性以及對復(fù)雜提示詞的理解能力令人驚嘆,許多用戶將其描述為 " 瘋狂 ",這也正是它能夠得以病毒式傳播的原因。
Nano Banana 最大的突破在于其自然語言理解能力的提升。用戶可以用日常語言描述修改需求,模型能夠精準(zhǔn)理解并執(zhí)行復(fù)雜的圖像編輯任務(wù)。
Nano Banana 不僅有效解決了用戶在使用 AI 圖像生成工具時遇到的痛點,同時深度融入了 Gemini 的圖像編輯功能,這使其能夠直接在現(xiàn)有圖片上進行復(fù)雜的操作和修改,極大地提升了用戶的工作流效率。
Nano Banana 的成功不僅是模型規(guī)模的勝利,更是谷歌在用戶體驗和產(chǎn)品整合上的精準(zhǔn)洞察。
在視頻生成領(lǐng)域,谷歌同樣展現(xiàn)出統(tǒng)治級的實力。其最新的視頻 AI 模型 Veo3 正以其驚人的視頻生成質(zhì)量,成為視頻 AI 領(lǐng)域的 " 王者 "。
它最大的創(chuàng)新在于實現(xiàn)了高保真的視頻與音頻同步生成,包括對話、音效與環(huán)境聲音的完美結(jié)合。業(yè)界對 Veo 3 的評價普遍很高,認(rèn)為它已經(jīng)從實驗性工具演變?yōu)榭梢约{入專業(yè)制作流程的實用工具。
現(xiàn)實中,越來越多的內(nèi)容創(chuàng)作者開始將 Veo 3 納入自己的制作 workflow,用于快速原型制作和創(chuàng)意驗證。
Veo3 生成的視頻內(nèi)容極其逼真、流暢且富有創(chuàng)意,其質(zhì)量已經(jīng)達到了足以顛覆傳統(tǒng)視頻制作流程的水平。
Veo3 的出現(xiàn),無疑為影視制作、廣告創(chuàng)意和數(shù)字內(nèi)容產(chǎn)業(yè)帶來了革命性的沖擊和無限的創(chuàng)作可能。在視頻長度、分辨率、一致性維護等關(guān)鍵指標(biāo)上 Veo3 都有顯著提升,在音畫同步方面的表現(xiàn)尤其突出,目前在行業(yè)內(nèi)難有匹敵。
與此同時,Nano Banana 和 Veo3 項配合的工作流更是為彼此幾何級數(shù)地助力。
Veo 3 現(xiàn)已登陸 Google Photos,更進一步打出了谷歌的平臺實力,大大改進了原有的照片轉(zhuǎn)視頻功能。谷歌表示,現(xiàn)在該功能可以用來 " 將靜態(tài)圖像轉(zhuǎn)換為更高質(zhì)量的短片 "。
更具里程碑意義的是,DeepMind 推出的 Genie3 已成為世界模型的全新標(biāo)桿。
Genie3 作為一款分辨率 720p 的通用型世界模型,能夠通過文本提示詞生成并模擬長達數(shù)分鐘的互動式 3D 虛擬環(huán)境,其多樣性和沉浸感前所未有,環(huán)境還會對用戶的操作做出反應(yīng),甚至還可以輸入新的提示來改變 3D 環(huán)境。
它能從圖像、文本、視頻等多種輸入中學(xué)習(xí),并生成可交互、具有物理規(guī)律的 " 世界 "。
Genie 3 的意義遠不止生成虛擬世界。它為訓(xùn)練更通用的 AI Agent 打開了新的可能性——能夠 " 憑空 " 創(chuàng)造出無窮無盡、風(fēng)格各異的訓(xùn)練環(huán)境。
這不僅是 AI 在理解、預(yù)測和創(chuàng)造復(fù)雜世界方面的一次巨大飛躍,更預(yù)示著未來虛擬現(xiàn)實、游戲開發(fā)乃至通用人工智能(AGI)的無限可能,為構(gòu)建更智能、更互動的數(shù)字宇宙奠定了基礎(chǔ)。
看到全力出擊的谷歌,連馬斯克也再次不得不感嘆,谷歌將再次領(lǐng)跑 AI 時代。
而馬斯克的觀點似乎也為尋求谷歌如何完成 AI 逆襲提供了一個基本的思考框架——算力,數(shù)據(jù)是決定一家 AI 公司是否能夠高速長期發(fā)展的基本前提。
谷歌早在 10 年前就啟動了專門針對 AI 任務(wù)設(shè)計的計算芯片 TPU 的研發(fā),經(jīng)歷了 10 年的不斷迭代發(fā)展,谷歌的 TPU 已經(jīng)成為目前世界上最先進的 AI 芯片。因為它專門針對 AI 計算進行開發(fā),它的能耗效率甚至超過了英偉達的 GPU。
而且谷歌的 TPU 集群是除了英偉達的 GPU 之外能規(guī)模最大的能夠大規(guī)模部署并進行 AI 訓(xùn)練和推理的 AI 芯片。
當(dāng)英偉達的最高性能 GPU 依然供不應(yīng)求,被所有的科技大廠瘋搶時,當(dāng) OpenAI 為了緩解自己的算力渴求而到處新建數(shù)據(jù)中心,尋求更多的算力供應(yīng)時,谷歌的 TPU 集群提供的算力不但已經(jīng)能夠滿足自己業(yè)務(wù)的 AI 算力需求,甚至還出現(xiàn)了富余。9 月 3 日,據(jù)海外媒體報道,谷歌正在和一些小型的云供應(yīng)商進行合作,將原本只供自用的 TPU 算力開始向第三方進行銷售。
谷歌始于 10 年前的 AI 硬件布局,開始到了收獲的時間。
要滿足 Gemini 日益增長的用戶量背后帶來的大規(guī)模推理需求,還要能同時訓(xùn)練新的模型,不斷更新大模型能力,還要能支撐視頻模型,生圖模型的推理和研發(fā),如果谷歌沒有夯實的算力基礎(chǔ),是完全不可能做到。
就像一家面館,如果你的面粉供應(yīng)嚴(yán)重依賴市場上非常搶手的第三方供應(yīng)商的供貨,你很難想象它能不斷推出新的品類甚至開新的分店。而谷歌能夠自給自足的算力,就是它能同時多面出擊,持續(xù)迭代模型能力,研發(fā)新模型的底層保障。
除了算力優(yōu)勢之外,谷歌 AI 業(yè)務(wù)另一條深不見底的護城河是他的數(shù)據(jù)優(yōu)勢。
多年的搜索領(lǐng)域霸主地位讓谷歌積累了海量且珍貴的用戶數(shù)據(jù)。而且作為全世界最大的視頻平臺 Youtube 的母公司,它能觸及到世界上規(guī)模最大的多模態(tài)數(shù)據(jù)??梢哉f谷歌發(fā)展多年的傳統(tǒng)業(yè)務(wù),為它能夠在 AI 時代全力沖刺提供了一個取之不竭,用之不盡的數(shù)據(jù)金礦。
這可能在某種程度上也解釋了為什么在多模態(tài) AI 領(lǐng)域的競爭中,谷歌是發(fā)力最晚,但取得的成績最為顯著的公司。
而除了用于訓(xùn)練 AI 模型的數(shù)據(jù),谷歌 Chrome 和安卓生態(tài)能夠幫助谷歌及時將 AI 能力運用到最廣泛的 c 端市場。海量用戶在深度使用時產(chǎn)生的數(shù)據(jù)為谷歌進一步優(yōu)化自己的 AI 服務(wù)體驗,找到用戶使用中的痛點,提供了依據(jù),從而在未來模型的開發(fā)中,能夠做出更有針對性的,優(yōu)化和功能選擇。
Nano banana 的成功某種程度上就是谷歌能夠敏銳捕捉到用戶需求,從而在模型層面進行產(chǎn)品化設(shè)計的一個最新的例子。
如果谷歌未來能夠繼續(xù)深度的將用戶使用 AI 過程當(dāng)中呈現(xiàn)出來的需求,通過自己的 AI 服務(wù)進行滿足,相信谷歌一定能找到一條不同于其他企業(yè)的,更好的將 AI 能力服務(wù)于廣大用戶的研發(fā)和迭代路徑。
這也許也是蘋果選擇谷歌作為自己 AI 服務(wù)供應(yīng)商一個很重要的考量。畢竟只有谷歌現(xiàn)在擁有在設(shè)備端將 AI 服務(wù)提供給接近于蘋果用戶量級的客戶群體的經(jīng)驗。
而除了算法和算力這兩個谷歌所擁有的巨大優(yōu)勢之外,谷歌反擊背后還離不開多年來積累的人才優(yōu)勢。
隨著硅谷 AI 人才的爭奪進入到白熱化階段,手握大量資金算力以及豐富的用戶數(shù)據(jù)的谷歌,對于人才的吸引力來說是毋庸置疑的。人才能給 AI 業(yè)務(wù)發(fā)展帶來的最重要的因素就是算法上的創(chuàng)新。硅谷多年來積累下來的 AI 人才的儲備和管理經(jīng)驗,以及對新入行的 AI 人才的吸引力,使得他們一直以來都是行業(yè)的人才智力高地。
比如在 OpenAI 帶隊開發(fā)出 Sora 的 Tim Brooks,在 2024 年 10 月就加入谷歌,負(fù)責(zé)開發(fā)新的世界模型。而最近放出的 Genie 3 就是他們團隊的最新作品。
而在組織管理層面,谷歌也在不斷優(yōu)化,將人才的戰(zhàn)斗力系統(tǒng)性的放大。
而在去年谷歌將 DeepMind 和 Google Brain 兩個研究型機構(gòu)合并統(tǒng)一為 AI 戰(zhàn)略的中樞之后,原本更偏向于科研機構(gòu)的 DeepMind 現(xiàn)在已經(jīng)成為了一個生產(chǎn) AI 應(yīng)用的創(chuàng)新工廠。
去年 10 月,Gemini 品牌化之后,谷歌把 Gemini App 團隊并入 Google DeepMind;同時把 Assistant 的設(shè)備側(cè) 并到 Platforms & Devices。前者確保 " 應(yīng)用團隊成為模型一方的直接客戶 ",反饋與數(shù)據(jù)更快回流;后者則讓端側(cè)能力(Android/ 芯片 / 硬件)圍繞 "AI 本地推理與協(xié)同 " 一體化推進。2025 年移動端用戶從 Assistant 遷移到 Gemini,更是把體驗、數(shù)據(jù)和增長目標(biāo)統(tǒng)一到了一個坐標(biāo)系內(nèi)。
而作為過去 20 年 AI 領(lǐng)域投入最大,為人類 AI 發(fā)展貢獻最多,現(xiàn)金流最為充沛的科技公司,谷歌在 AI-First 之后,將逐漸成為科技大廠中 AI 改革的標(biāo)桿,值得更多的關(guān)注和期待。
本文來自微信公眾號:直面 AI,作者:胡潤、伍式