如果你是已經(jīng)接觸過 Vibe Coding 類產(chǎn)品的用戶,或許已經(jīng)熟悉這類產(chǎn)品作為「副駕駛」的屬性:它們往往就如同一位盡職的副駕駛。在你長途奔襲時(shí),它能幫你盯著儀表盤,甚至在你打盹的間隙,幫你扶穩(wěn)方向盤,補(bǔ)全下一行代碼,或是直接幫你生成某個(gè)功能。
但過去很長時(shí)間中,這類產(chǎn)品更多還只能是「副駕」,它執(zhí)行的是用戶給出的任務(wù)清單,是對指令的被動(dòng)響應(yīng)。它難以或者完全無法理解用戶為何要選擇這條路,更不明白開發(fā)者想要傳達(dá)的、心中真正的目的地在何方。
但如果,AI 不再滿足于副駕的角色呢?如果它能讀懂你的導(dǎo)航意圖,能預(yù)判前方的路況,甚至能在你給出目的地后,獨(dú)立規(guī)劃并跑完全程呢?它才真正有了能成為一位真正的「全棧工程師」的可能。
今天,我深度體驗(yàn)了阿里剛開源的 Qwen3-Coder:阿里云甚至官方直接在簡介中,表明這就是目前代碼能力達(dá)到開源模型 SOTA 的存在。
說實(shí)話,即使 Qwen3-Coder 已經(jīng)被譽(yù)為「全球最好的編程模型」,登頂全球最大AI開源社區(qū) HuggingFace 模型總榜冠軍的寶座,在打開它之前,我內(nèi)心只是抱著「又一個(gè)國產(chǎn)模型」的、略帶審慎的期待。
然而,在經(jīng)過了一天的測試與深度對話之后,這個(gè)號稱達(dá)到目前 SOTA 水準(zhǔn)的新模型,真的給我?guī)砹岁P(guān)于 Vibe Coding 不一樣的體驗(yàn)。
01
能創(chuàng)造數(shù)字空間的編程模型
我的 Qwen3-Coder「初體驗(yàn)」,是從一系列過去我已知很難或完全無法完成的測試開始的。
我決定先用一個(gè)經(jīng)典的「AI 設(shè)計(jì)品味照妖鏡」來試探它。我輸入了一段幾乎可以說是任性的指令:
「給我創(chuàng)建一個(gè)極客公園作為科技新聞媒體的官網(wǎng)首頁,要有現(xiàn)代感的導(dǎo)航欄、吸引眼球的配色、簡潔的公司介紹、清晰的內(nèi)容欄,以及一個(gè)完整的頁腳?!?/p>
在我對 Grok、ChatGPT 乃至 Gemini 類似產(chǎn)品的體驗(yàn)中,類似的請求往往會(huì)收獲一個(gè)停留在上世紀(jì) 90 年代審美的災(zāi)難現(xiàn)場:布局混亂、配色辣眼,仿佛是對現(xiàn)代設(shè)計(jì)美學(xué)的一場公開處刑。
說實(shí)話,在正式的結(jié)果返回之前,我?guī)缀跻呀?jīng)做好了心理準(zhǔn)備,去迎接一個(gè)需要我從頭開始重構(gòu)的、布滿
標(biāo)簽的混亂骨架。
然而,當(dāng)代碼生成完畢,并在預(yù)覽中渲染出頁面的那一刻,呈現(xiàn)在我眼前的,是一個(gè)設(shè)計(jì)語言高度統(tǒng)一、采用響應(yīng)式布局、甚至還有界面動(dòng)畫效果的完整頁面。
如果說第一次的驚艷還停留在視覺層面,那么接下來的測試,則開始觸及它更深層次的「靈魂」。
我向它提出了一個(gè)更抽象的挑戰(zhàn):
「創(chuàng)建一個(gè)基于物理引擎的音樂生成器,使用 Matter.js,讓不同形狀的物體在畫布中自由下落,當(dāng)它們相互碰撞時(shí),能根據(jù)形狀發(fā)出不同音階的音符,并且,我需要一個(gè)『重力控制器』來實(shí)時(shí)改變它們的下落軌跡?!?/p>
這個(gè)任務(wù)的難點(diǎn),在于它要求 AI 不僅要理解代碼,更要理解代碼背后的世界。
代碼是理性的,但物理的律動(dòng)和音樂的和諧,卻帶有一絲感性的溫度。Qwen3-Coder 的表現(xiàn)再次超出了我的預(yù)期。它實(shí)現(xiàn)了所有功能——你能看到小球、方塊在畫布中落下,每一次碰撞都奏出和弦。
為了進(jìn)一步探尋它的邊界,我又拋出了一個(gè)生成游戲的命題,讓它生成一個(gè)完全由鍵盤控制的 3D 射擊游戲。同時(shí)有著多個(gè)可交互對象,甚至有一個(gè)簡單的「通關(guān)劇情」以及「彩蛋」,如果你能發(fā)現(xiàn)我留在代碼中的彩蛋信息,即可迅速通關(guān)。
在物理模擬能力這塊,當(dāng)然也少不了經(jīng)典的小球彈跳游戲,Qwen3-Coder 還是能夠輕松復(fù)現(xiàn)。
在我的實(shí)際測試中,超過十個(gè)不同的開發(fā)用例,幾乎都在 1-3 分鐘內(nèi)得以解決。
這種返回效率,帶來的是一種相比此前代碼生成模型更流暢的創(chuàng)作心流,開發(fā)者得以將想法快速轉(zhuǎn)化為現(xiàn)實(shí),我可以迅速根據(jù)生成的結(jié)果、快速微調(diào)迭代代碼版本,而不用在漫長的等待中中斷思緒。
02
世界級的編程模型,是怎么煉成的?
Qwen3-Coder 之所以能從一個(gè)「代碼補(bǔ)全器」,進(jìn)化為一個(gè)「自主開發(fā)者」,首先是它架構(gòu)的選擇——混合專家(MoE)帶來的規(guī)模與效率。
傳統(tǒng)的巨大模型像一個(gè)知識淵博但全科的教授,雖然什么都懂,但在處理特定專業(yè)問題時(shí),仍需耗費(fèi)大量精力。而 Qwen3-Coder「超大杯」版本,則像一個(gè)擁有 4800 億龐大知識儲(chǔ)備的「智囊團(tuán)」,內(nèi)部卻劃分了無數(shù)個(gè)高度專業(yè)的「領(lǐng)域?qū)<摇埂?/p>
當(dāng)你提出一個(gè)問題,系統(tǒng)并不會(huì)調(diào)用整個(gè)模型數(shù)據(jù),而只會(huì)激活與該問題最相關(guān)的 350 億參數(shù)的「專家小組」進(jìn)行響應(yīng)。這種設(shè)計(jì),讓它在擁有巨大知識容量和能力天花板的同時(shí),又將單次推理的計(jì)算成本控制在了極為合理的范圍內(nèi)。這是一種在模型能力和推理效率之間取得的精妙平衡,也是它能處理復(fù)雜問題的關(guān)鍵基礎(chǔ)。
除此之外,阿里 Qwen 團(tuán)隊(duì)認(rèn)為,編程任務(wù)「天然適合執(zhí)行驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)」,因?yàn)榇a的正確性,可以通過實(shí)際運(yùn)行結(jié)果這個(gè)最客觀的標(biāo)準(zhǔn)來直接驗(yàn)證。基于此,他們構(gòu)建了一個(gè)能夠并行運(yùn)行兩萬個(gè)獨(dú)立環(huán)境的大規(guī)模強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。
你可以把它想象成一個(gè)擁有兩萬名「數(shù)字實(shí)習(xí)生」的軟件公司。在這里,模型可以海量地模擬真實(shí)的軟件工程流程:接收一個(gè)模糊的任務(wù),自主地進(jìn)行規(guī)劃和方案分解,然后調(diào)用外部工具(如代碼執(zhí)行器、測試框架)去嘗試,并從環(huán)境的反饋(成功、失敗、或是具體的錯(cuò)誤信息)中學(xué)習(xí),最后根據(jù)反饋進(jìn)行迭代和自我修正。
正是通過在這種大規(guī)模、高并發(fā)的真實(shí)編碼環(huán)境中進(jìn)行的海量試錯(cuò)和學(xué)習(xí),Qwen3-Coder 才成功地學(xué)會(huì)了如何解決那些需要自主規(guī)劃和工具調(diào)用的「長視距」任務(wù),它的代碼執(zhí)行成功率和工具使用效率也因此得到了顯著提升。
最后也是到目前為止,讓我覺得 Qwen3-Coder 體驗(yàn)不同于以往代碼生成模型的關(guān)鍵所在,也是 Qwen3-Coder 自我糾錯(cuò)能力與理解力的基石——處理大規(guī)模代碼庫的「倉庫級」上下文長度。
軟件工程的復(fù)雜性,往往源于對龐大代碼庫的理解。Qwen3-Coder 在這方面具備了物理層面的絕對優(yōu)勢:它原生支持 256K tokens 的上下文窗口。這意味著什么?這意味著模型可以在一次交互中,處理數(shù)百萬字符的代碼和文檔。
如果說 MoE 架構(gòu)賦予了模型智慧的「潛力」,強(qiáng)化學(xué)習(xí)賦予了它解決問題的「技巧」,那么超長上下文窗口則為它提供了施展才華的「舞臺和物料」。沒有對整個(gè)系統(tǒng)全局的視野,再聰明的模型也只是一個(gè)「管中窺豹」的計(jì)算器。正是憑借這一能力,Qwen3-Coder 才真正將任務(wù)的性質(zhì)從「生成一段有效的代碼片段」提升到了「對一個(gè)復(fù)雜的軟件系統(tǒng)執(zhí)行一次有效的操作」。
這種處理「倉庫級」代碼的能力,是解決復(fù)雜系統(tǒng)級問題、進(jìn)行大規(guī)模代碼重構(gòu)和深入理解遺留系統(tǒng)的先決條件,也是許多上下文窗口較小的模型所望塵莫及的。
在衡量代碼模型解決真實(shí)世界軟件問題的權(quán)威榜單 SWE-Bench 上,Qwen3-Coder 的得分實(shí)現(xiàn)了對 OpenAI 最強(qiáng)閉源模型之一 GPT-4.1 的明確超越。這意味著,在處理那些復(fù)雜、真實(shí)的編程任務(wù)時(shí),這個(gè)來自中國的開源模型,展現(xiàn)出了更強(qiáng)的效能。
而在 Agentic Coding 這個(gè)以智能體能力為核心的賽道上,Qwen3-Coder 更是可以和一直以來的標(biāo)桿 Claude 4 平起平坐。
目前,如果想上手 Qwen3-Coder 的話,最直接的方式莫過于訪問 chat.qwen.ai。在頁面的右上角可以一鍵切換模型。
這是一個(gè) 480B 參數(shù)激活 35B 參數(shù)的 MoE 模型,原生支持 256K token 的上下文,并可通過 YaRN 擴(kuò)展到 1M token。只需前往阿里云注冊賬戶,完成簡單的認(rèn)證,便能創(chuàng)建屬于你的 API-Key 調(diào)用這個(gè)模型。
并且它比 Claude 便宜。在阿里云百煉上,Qwen3-Coder API 每百萬 Tokens 最低輸入和輸出價(jià)格分別為 4 元和 16 元,平均價(jià)格為 Claude 4 的 1/3。同時(shí),阿里云百煉還推出了低至 5 折的限時(shí)優(yōu)惠, 128K-1M 長上下文價(jià)格享受五折優(yōu)惠。
你可以直接從 Hugging Face 或國內(nèi)的魔搭社區(qū)下載完整的模型文件。這意味著,你可以將這個(gè)目前最強(qiáng)大的編程開源工具,完全私有化運(yùn)行在自己的服務(wù)器上。
03
本土選擇的世界意義
寫到這里,關(guān)于 Qwen3-Coder 的結(jié)論已經(jīng)呼之欲出:它的出現(xiàn),不是為了取代誰,而是為了武裝誰。它將一個(gè)資深開發(fā)團(tuán)隊(duì)的綜合能力,壓縮進(jìn)一個(gè)任何人都可以調(diào)用的工具里,然后交到你的手上。
過去很長一段時(shí)間,當(dāng)我們討論起頂尖的編碼大模型時(shí),國內(nèi)開發(fā)者的選擇似乎總是捉襟見肘。這背后反映了一個(gè)關(guān)鍵事實(shí):在自然語言處理領(lǐng)域,中文語料的積累能為國產(chǎn)模型帶來「主場優(yōu)勢」;但在編程領(lǐng)域,代碼是世界的通用語言。無論是 Python、Java 還是 JavaScript,其語法和邏輯在全球都是統(tǒng)一的。
這意味著,編碼能力的競爭是在一個(gè)完全公平的全球化賽場上進(jìn)行的。在這條賽道上,不存在語言壁壘,只有赤裸裸的技術(shù)實(shí)力比拼。
Qwen3-Coder 在 SWE-Bench 等國際公認(rèn)的基準(zhǔn)上取得領(lǐng)先,其意義遠(yuǎn)超于在某個(gè)中文榜單上登頂。它標(biāo)志著中國自研的 AI 模型,在技術(shù)硬實(shí)力上,已經(jīng)具備了在全球最前沿、競爭最激烈的領(lǐng)域中一較高下的能力。
如果說開源是一種態(tài)度,那么從目前 Qwen3-Coder 展現(xiàn)出的能力上,似乎可以相信通義千問的決心與魄力。
價(jià)格方面,阿里不僅直接選擇了開源免費(fèi),其 API 的調(diào)用成本也遠(yuǎn)低于海外的同級模型。
更重要的是,這是一款來自中國的開源模型——僅這一點(diǎn),對中國用戶來講就意味著能隨時(shí)、穩(wěn)定地調(diào)用,擺脫了對網(wǎng)絡(luò)環(huán)境、供應(yīng)限制與訪問速度的擔(dān)憂。
它或許并非是唯一的選項(xiàng),但很高興看到,在編碼大模型這條賽道上,國內(nèi)的開發(fā)者們終于迎來了那個(gè)可靠、親切,且足夠好用的本土選手。
* 頭圖來源:Qwen3 Coder
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO