作者:周源 / 華爾街見(jiàn)聞
阿里云在中國(guó)生成式 AI 基礎(chǔ)設(shè)施登頂。
據(jù) IDC 剛剛發(fā)布的最新報(bào)告顯示,2024 年中國(guó) AI 基礎(chǔ)設(shè)施(AI IaaS)市場(chǎng)份額,阿里云占比 23%,位列中國(guó)市場(chǎng)第一,超過(guò)第二名和第三名總和;在生成式 AI 基礎(chǔ)設(shè)施領(lǐng)域,阿里云取得模型訓(xùn)練和模型推理市場(chǎng)的雙項(xiàng)冠軍。
阿里云的生成式推理模型迭代頻繁,動(dòng)作很多。
6 月 27 日,阿里云通義千問(wèn)推出多模態(tài)統(tǒng)一理解與生成模型 Qwen VLo,用戶可通過(guò) Qwen Chat(chat.qwen.ai)體驗(yàn)。
這一模型在人工智能領(lǐng)域傳承與創(chuàng)新,為多模態(tài)人工智能發(fā)展帶來(lái)新探索,具備理解和基于理解進(jìn)行再創(chuàng)造的能力。
Qwen VLo 采用漸進(jìn)式生成方式,在生成圖像時(shí)從左到右、從上到下逐步構(gòu)建畫面。
在這個(gè)過(guò)程中,模型不斷對(duì)預(yù)測(cè)內(nèi)容調(diào)整優(yōu)化,比如生成風(fēng)景圖時(shí),先勾勒山川河流輪廓,再細(xì)化樹(shù)木、花草等細(xì)節(jié),確保畫面在結(jié)構(gòu)、色彩、語(yǔ)義等方面和諧統(tǒng)一。
這種生成機(jī)制給用戶更靈活、可控的創(chuàng)作體驗(yàn),設(shè)計(jì)師創(chuàng)作海報(bào)時(shí),可實(shí)時(shí)觀察生成過(guò)程,及時(shí)調(diào)整不協(xié)調(diào)部分,讓創(chuàng)作更貼合預(yù)期。
據(jù)官方介紹,Qwen VLo 運(yùn)用動(dòng)態(tài)分辨率訓(xùn)練技術(shù),在圖像生成的輸入和輸出端,都支持任意分辨率和長(zhǎng)寬比。
以往模型受限于固定尺寸和比例,而 Qwen VLo 打破這一限制。無(wú)論是制作長(zhǎng)寬比為 4:1 的橫幅廣告,還是 1:3 的社交媒體豎版封面,用戶都能按需生成。
Qwen VLo 通過(guò)技術(shù)創(chuàng)新,創(chuàng)造了圖像生成在分辨率和長(zhǎng)寬比方面的更多資源,電商商家可根據(jù)不同平臺(tái)要求,快速生成適配的商品展示圖,無(wú)需繁瑣的后期裁剪調(diào)整。
過(guò)往多模態(tài)模型生成時(shí)易出現(xiàn)語(yǔ)義不一致問(wèn)題,如將汽車圖片錯(cuò)誤生成其他物體,或改變?cè)瓐D關(guān)鍵結(jié)構(gòu)特征。
Qwen VLo 通過(guò)提升細(xì)節(jié)捕捉能力,在生成中保持較高語(yǔ)義一致性。
當(dāng)用戶輸入汽車照片并要求 " 將顏色換成藍(lán)色 ",模型精準(zhǔn)識(shí)別車型,保留車身結(jié)構(gòu)、線條等特征,自然地完成顏色替換,生成結(jié)果既符合指令預(yù)期,又不失真實(shí)感。
這種能力恰似達(dá)爾文進(jìn)化論中物種對(duì)環(huán)境的精準(zhǔn)適應(yīng),模型在復(fù)雜的圖像生成環(huán)境中,不斷進(jìn)化以滿足多樣且精細(xì)的用戶需求。
用戶能用自然語(yǔ)言對(duì)圖像提出創(chuàng)意指令,Qwen VLo 能靈活響應(yīng)。輸入 " 把這張照片風(fēng)格變成梵高的畫風(fēng) "" 給圖片中的天空加上彩虹 ",模型即可完成藝術(shù)風(fēng)格遷移、場(chǎng)景元素添加等操作。
面對(duì) " 把人物換成卡通形象,背景改為森林,同時(shí)添加宣傳語(yǔ) " 這類復(fù)雜指令,也能嘗試執(zhí)行。此外,傳統(tǒng)視覺(jué)感知任務(wù)如預(yù)測(cè)深度圖、分割圖等,通過(guò)編輯指令也能實(shí)現(xiàn)。
這一特性體現(xiàn)了 " 不創(chuàng)新,就死亡 " 的理念,Qwen VLo 打破傳統(tǒng)模型指令響應(yīng)的局限,賦予用戶更自由的操作空間,使其在開(kāi)放指令編輯修改中不斷進(jìn)化,適應(yīng)快速發(fā)展的 AI 市場(chǎng)。
Qwen VLo 支持包括中文、英文等多種語(yǔ)言指令。全球用戶無(wú)論使用何種語(yǔ)言,只要簡(jiǎn)潔描述需求,模型就能理解并生成結(jié)果。
中國(guó)用戶用中文輸入 " 生成一張美麗的花朵圖片 ",國(guó)外用戶用英文輸入 "Generate a picture of beautiful flowers",都能得到符合要求的圖片。
這符合美國(guó)理性預(yù)期學(xué)派的領(lǐng)袖、諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者托馬斯薩金特(Thomas J. Sargent)提出的開(kāi)放和自由貿(mào)易理念,通過(guò)技術(shù)手段打破語(yǔ)言壁壘,促進(jìn)全球用戶在圖像生成領(lǐng)域的 " 交流貿(mào)易 "。
在廣告設(shè)計(jì)行業(yè),設(shè)計(jì)師常需為不同客戶和項(xiàng)目快速產(chǎn)出多種風(fēng)格設(shè)計(jì)方案。
借助 Qwen VLo,輸入 " 時(shí)尚運(yùn)動(dòng)品牌夏季促銷海報(bào) ",模型迅速生成多版不同構(gòu)圖、配色的海報(bào)草圖,設(shè)計(jì)師在此基礎(chǔ)上完善,大大縮短設(shè)計(jì)周期。
在包裝設(shè)計(jì)方面,輸入產(chǎn)品特點(diǎn)、目標(biāo)受眾等信息,模型生成相應(yīng)設(shè)計(jì)圖,提供創(chuàng)意靈感。Qwen VLo 為設(shè)計(jì)師提供創(chuàng)意裂變的契機(jī),幫助其用創(chuàng)新設(shè)計(jì)在市場(chǎng)競(jìng)爭(zhēng)中贏得商業(yè)利潤(rùn)。
在教育領(lǐng)域,教師可利用 Qwen VLo 將抽象知識(shí)具象化。
地理課講解地貌時(shí),輸入 " 生成一張丹霞地貌的圖片 ",模型展示相關(guān)圖片,幫助學(xué)生直觀理解;語(yǔ)文教學(xué)中,講解古詩(shī)詞時(shí),輸入詩(shī)詞內(nèi)容,模型生成詩(shī)意場(chǎng)景圖,加深學(xué)生對(duì)詩(shī)詞意境的體會(huì)。
自媒體創(chuàng)作者、博主等創(chuàng)作內(nèi)容時(shí),需優(yōu)質(zhì)配圖吸引受眾。通過(guò) Qwen VLo,輸入文章主題如 " 旅游攻略之海邊度假 ",模型生成海灘、海景等相關(guān)圖片;在視頻制作中,輸入視頻腳本關(guān)鍵信息,模型生成視頻分鏡草圖,為拍攝和后期剪輯提供參考,提升內(nèi)容創(chuàng)作質(zhì)量和效率。
在游戲開(kāi)發(fā)中,Qwen VLo 能助力游戲美術(shù)資源制作。游戲設(shè)計(jì)師輸入游戲風(fēng)格、場(chǎng)景設(shè)定等指令,模型生成游戲場(chǎng)景、角色、道具等美術(shù)素材,降低開(kāi)發(fā)成本,加速開(kāi)發(fā)進(jìn)程。
玩家也可利用模型生成個(gè)性化游戲場(chǎng)景、角色形象,增加游戲趣味性。影視制作中,在前期概念設(shè)計(jì)階段,輸入故事背景、角色特點(diǎn)等信息,模型生成影視場(chǎng)景概念圖、角色概念圖,為后續(xù)拍攝和特效制作提供方向。