采訪|周鑫雨 鄧詠儀
文|周鑫雨
編輯|蘇建勛
在阿里、字節(jié)接連做了近7年大模型的楊紅霞,身上有一種鮮明的挑戰(zhàn)精神。
在阿里早期,她從內(nèi)部的業(yè)務(wù)阿里搜索推薦系統(tǒng),投身于初期并不被看好的大模型研究之路。
后來(lái),她帶領(lǐng)林俊旸(現(xiàn)通義千問(wèn)負(fù)責(zé)人)、周暢(前通義千問(wèn)大模型負(fù)責(zé)人)等這一輪中國(guó)大模型的核心人才,在達(dá)摩院磕出了通義千問(wèn)的前身,M6 大模型。
2024年7月,楊紅霞從字節(jié)離職創(chuàng)業(yè)后,被曝出仍要做模型相關(guān)技術(shù)的消息。
"阿里、字節(jié)大模型核心人物"的光環(huán),沒(méi)有蓋住彼時(shí)市場(chǎng)上悲觀的聲音:入局太晚,創(chuàng)業(yè)公司怎么和大廠爭(zhēng)?
時(shí)隔一年零三個(gè)月,楊紅霞帶著她的新 AI 公司 InfiX.ai,殺回了大模型賽道。
10月初,《智能涌現(xiàn)》與身在香港的楊紅霞,在線上交流了她的創(chuàng)業(yè)近況。
她沒(méi)有選擇創(chuàng)業(yè)資源集中的北上廣深,而是加入了香港理工大學(xué)。在楊紅霞看來(lái),前往香港是一個(gè)極具性?xún)r(jià)比的決定:
人工智能相關(guān)的產(chǎn)學(xué)研項(xiàng)目,擁有豐厚的資金和算力補(bǔ)貼;因?yàn)橄愀蹞碛腥蝾I(lǐng)先的人才密度,公司得以快速組建了40人規(guī)模的團(tuán)隊(duì)。
出于種種考慮,楊紅霞希望在訪談中只討論技術(shù),不透露商業(yè)化的細(xì)節(jié)。
但僅從技術(shù)中,就能窺見(jiàn) InfiX.ai 的宏大版圖:這一次,楊紅霞不僅想和市面上的頂尖模型叫板,甚至想革新大模型的訓(xùn)練和落地范式。
當(dāng)下主流的頂尖模型,包括GPT,都是由某個(gè)大機(jī)構(gòu)主導(dǎo)的、"中心化"的。楊紅霞解釋?zhuān)?(中心化的模型)需要集中投入非常多的數(shù)據(jù)、人力、算力資源"。
但 InfiX.ai 要做的恰恰相反:讓大模型預(yù)訓(xùn)練"去中心化",變成中小企業(yè)、研究機(jī)構(gòu),甚至個(gè)人都能參與的事。
這么做的核心原因在于,2023年中,彼時(shí)還在字節(jié)的楊紅霞就發(fā)現(xiàn),擅長(zhǎng)解決通用領(lǐng)域問(wèn)題的"中心化"模型,無(wú)法真正落地。
比如,不少數(shù)據(jù)敏感的企業(yè)有本地化部署模型的需求。一般而言,業(yè)界主流的解決方案,是基于企業(yè)的數(shù)據(jù),對(duì)"中心化"模型進(jìn)行后訓(xùn)練(比如微調(diào)、強(qiáng)化學(xué)習(xí))。
然而,楊紅霞對(duì)我們強(qiáng)調(diào):"模型知識(shí)的注入只發(fā)生在預(yù)訓(xùn)練階段,后訓(xùn)練提供的是規(guī)則。"就好比,預(yù)訓(xùn)練一段是 8 年制的醫(yī)學(xué)博士生涯,后訓(xùn)練則是臨床實(shí)習(xí)的過(guò)程。
這就導(dǎo)致,基于企業(yè)數(shù)據(jù)后訓(xùn)練的模型,在實(shí)際業(yè)務(wù)中仍然會(huì)出現(xiàn)不少"幻覺(jué)"。
"中心化"模型的研發(fā)經(jīng)歷,讓楊紅霞形成了創(chuàng)業(yè)的兩個(gè)原始判斷:
第一,大模型要落地,不能只依賴(lài)少數(shù)巨頭機(jī)構(gòu),必須基于諸多企業(yè)數(shù)據(jù)預(yù)訓(xùn)練;
第二,為了讓企業(yè)也能做預(yù)訓(xùn)練,必須要降低所消耗的資源。
圍繞這兩個(gè)判斷,近期,InfiX.ai 開(kāi)源了全球首個(gè) FP8 訓(xùn)練"全家桶" (包括預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)),一項(xiàng)模型融合技術(shù),以及基于此訓(xùn)練出的醫(yī)療多模態(tài)大模型和多智能體系統(tǒng)。
低比特模型訓(xùn)練框架 InfiR2 FP8:
相較于行業(yè)普遍采用的計(jì)算精度 FP16/BF16 而言,InfiR2 FP8 在模型性能幾乎無(wú)損的情況下,既提升了訓(xùn)練速度,也節(jié)省了顯存消耗。


模型融合技術(shù) InfiFusion:
不同領(lǐng)域企業(yè)和機(jī)構(gòu)預(yù)訓(xùn)練出的不同尺寸、不同結(jié)構(gòu)的領(lǐng)域"專(zhuān)家模型",可以通過(guò)模型融合 (Model Fusion),打造融匯不同領(lǐng)域知識(shí)的大模型。
這一技術(shù)可以避免模型重復(fù)訓(xùn)練所造成的資源浪費(fèi)。
醫(yī)療多模態(tài)大模型訓(xùn)練框架 InfiMed:
這一框架可以讓基于小規(guī)模數(shù)據(jù)和算力資源訓(xùn)練出的小規(guī)模參數(shù)模型,在多項(xiàng)醫(yī)學(xué)任務(wù)中展現(xiàn)強(qiáng)大推理能力。

多智能體系統(tǒng) InfiAgent:
該系統(tǒng)能夠代替人工,自動(dòng)為多智能體分解和分配復(fù)雜任務(wù),實(shí)現(xiàn)任務(wù)的自動(dòng)規(guī)劃和調(diào)度,降低了Agent系統(tǒng)的開(kāi)發(fā)門(mén)檻和成本。

更進(jìn)一步,是將這些注入了領(lǐng)域知識(shí)的模型,通過(guò)模型融合技術(shù),成為更強(qiáng)大的模型——無(wú)需重復(fù)預(yù)訓(xùn)練,就能得到擁有更多知識(shí)的大模型。
這次創(chuàng)業(yè),楊紅霞將技術(shù)的落地領(lǐng)域,不僅先放在了醫(yī)療這塊難啃的骨頭,還將范圍縮小到了最難攻克的癌癥領(lǐng)域。
她告訴《智能涌現(xiàn)》:"一定要選一些特別有挑戰(zhàn)的領(lǐng)域,讓模型能力真正有區(qū)分度,證明我們的模型在這個(gè)領(lǐng)域是最好的。"
楊紅霞創(chuàng)業(yè)初期,"去中心化""模型融合",對(duì)仍然信奉"大力出奇跡"的國(guó)內(nèi)模型賽道而言,依然是邊緣敘事。她記得,彼時(shí)面對(duì)合作方和投資人,還需要解釋許多。
但在美國(guó),"去中心化"的熱潮已經(jīng)逐漸涌起。2025 年 2 月,前 OpenAI CTO Mira Murati 成立了新公司 Thinking Machines Lab (以下簡(jiǎn)稱(chēng)"TML"),愿景是讓個(gè)人開(kāi)發(fā)者和初創(chuàng)企業(yè),也能負(fù)擔(dān)得起模型訓(xùn)練。
"我真沒(méi)想到一家還沒(méi)有實(shí)際業(yè)務(wù)落地的公司,只是宣布要做這件事,(種子輪)就能實(shí)現(xiàn)融資 20 億美金、估值 120 億美金。"
這個(gè)消息讓楊紅霞確定,"去中心化"會(huì)成為一種主流,"你可以想象到灣區(qū)這幫人對(duì)這件事有多么篤定"。
等到第二輪融資,她發(fā)現(xiàn),質(zhì)疑聲明顯減少了許多。從提出增資,到完成融資,InfiX.ai 只花了兩周時(shí)間。楊紅霞告訴我們,現(xiàn)在公司已經(jīng)超融了。
在她描繪的圖景中,未來(lái),每家公司和機(jī)構(gòu)都會(huì)有自己的專(zhuān)家大模型。不僅不同領(lǐng)域的專(zhuān)業(yè)模型可以融合,分布在中國(guó)和歐洲訓(xùn)練的模型,也可以帶著跨國(guó)界的知識(shí)融合——模型融合會(huì)帶來(lái)全球化的領(lǐng)域基礎(chǔ)大模型。
"通用人工智能(AGI)不應(yīng)成為一場(chǎng)僅限于頂尖玩家的算力競(jìng)賽,"楊紅霞總結(jié),"未來(lái)會(huì)成為一場(chǎng)‘全民協(xié)作’。"
以下是《智能涌現(xiàn)》與楊紅霞的對(duì)話,內(nèi)容略經(jīng)編輯整理:
"中心化"帶來(lái)技術(shù)突破,"去中心化"帶來(lái)落地
智能涌現(xiàn):簡(jiǎn)單介紹一下,為什么我們需要"去中心化"的模型訓(xùn)練?
楊紅霞:我看到今天模型的落地有一個(gè)很大的鴻溝存在。我們和高精尖領(lǐng)域、中小企業(yè)、醫(yī)院、政府機(jī)構(gòu)聊,大家都想用生成式人工智能,但遲遲用不起來(lái),核心原因是現(xiàn)在的中心化大模型沒(méi)有他們所對(duì)應(yīng)的領(lǐng)域數(shù)據(jù)。
需要強(qiáng)調(diào)的是,模型知識(shí)的注入只發(fā)生在預(yù)訓(xùn)練階段。后訓(xùn)練階段,模型接受的全是規(guī)則,用來(lái)告訴它怎么解決復(fù)雜任務(wù)。
所以模型在企業(yè)或機(jī)構(gòu)的本地化部署,一定要啟動(dòng)持續(xù)預(yù)訓(xùn)練,因?yàn)獒t(yī)院、企業(yè)、機(jī)構(gòu)大量的本地化私有數(shù)據(jù)和知識(shí),在互聯(lián)網(wǎng)上是無(wú)法獲取的。
同時(shí),現(xiàn)在不同企業(yè)或機(jī)構(gòu)的數(shù)據(jù)是很難共同分享的,導(dǎo)致了現(xiàn)有范式下模型無(wú)法做到全球化和全行業(yè)化。
我相信未來(lái)每家公司都會(huì)需要大模型這樣一個(gè)腳手架。所以第一件事,我們希望把腳手架做到最便宜、最易用、入門(mén)門(mén)檻最低,讓每一家企業(yè)或機(jī)構(gòu)都有自己本地化部署的模型。
第二件事,我們想通過(guò)模型融合的方式,把某個(gè)領(lǐng)域的模型做到全球化。比如不同醫(yī)院的醫(yī)療專(zhuān)科模型融合起來(lái),就能得到一個(gè)醫(yī)療領(lǐng)域的基礎(chǔ)模型。
所以所謂的"去中心化",就是在各個(gè)領(lǐng)域,集大家的能力,一起做好領(lǐng)域大模型。
智能涌現(xiàn):你之前在字節(jié)和阿里做的都是"中心化"的模型訓(xùn)練,你對(duì)"去中心化"的關(guān)注是從什么時(shí)候開(kāi)始的?
楊紅霞:從2023年中開(kāi)始,我們就有這樣的想法了。
當(dāng)時(shí)在業(yè)界,我舉個(gè)簡(jiǎn)單的例子,當(dāng)你的場(chǎng)景流量非常大,比如搜索推薦廣告,不可能一直調(diào)用一個(gè)中心化的1.6萬(wàn)億的大模型,你根本扛不住這種服務(wù)吞吐壓力。
2021 年底,谷歌 CEO 宣布把谷歌所有的搜索引擎替換成 BERT(2018 年谷歌發(fā)布的大模型) 基座為主,前無(wú)古人。
當(dāng)時(shí) BERT 的最大模型 BERT-Large,參數(shù)量也只有 3.4 億。所以工業(yè)界不可能在超大流量情況下每時(shí)每刻調(diào)用千億參數(shù)量的模型。
2023 年中起,我們做了很多嘗試,證明一件事,就是在一個(gè)垂直領(lǐng)域中,30 億、70 億、130 億等小尺寸的模型,可以做得比 1.6 萬(wàn)億參數(shù)的中心化大模型好。
到 2024 年中,我們驗(yàn)證了這個(gè)結(jié)論一定是正確的,領(lǐng)域的模型變小一定是未來(lái)的趨勢(shì)。
智能涌現(xiàn):2023 年中,你還在字節(jié)。當(dāng)時(shí)無(wú)論是字節(jié)也好,還是整個(gè)業(yè)界也好,大家對(duì)"去中心化"的模型訓(xùn)練有共識(shí)嗎?
楊紅霞:當(dāng)時(shí)更多的人和大廠,包括現(xiàn)在也是,還是以做中心化的模型去實(shí)現(xiàn)通用人工智能(AGI)為主。
相對(duì)而言,中心化路線上技術(shù)的挑戰(zhàn)會(huì)少很多。只要把數(shù)據(jù)處理得足夠干凈,有足夠多錢(qián)去請(qǐng)人,把人工智能的訓(xùn)練基礎(chǔ)設(shè)施建得足夠魯棒和穩(wěn)定,加上足夠多的算力,我一定可以把模型的能力砸上去。
大家的使命也不一樣。大廠肯定還是希望突破通用人工智能(AGI),當(dāng)然這也是我特別想看到的一件事。
但即使在今天,各個(gè)大廠真正能做大模型核心研發(fā)的人還是非常非常少,大量的人還在做數(shù)據(jù)清洗,更不要提非大廠的機(jī)構(gòu)。
各個(gè)領(lǐng)域的專(zhuān)家,比如醫(yī)生,其實(shí)對(duì)大模型很感興趣。但他們直接調(diào)用任何開(kāi)源模型的 API 服務(wù),其實(shí)效果都不好,全是幻覺(jué)(hallucination)。
智能涌現(xiàn):那在阿里和字節(jié)的時(shí)候,你相信"中心化"這件事嗎?這和你現(xiàn)在做的"去中心化"是截然不同的。
楊紅霞:我肯定是相信的,包括我現(xiàn)在也相信。
因?yàn)?strong>中心化將所有的資源都聚集在了一起,所以它減少了一些技術(shù)上的挑戰(zhàn),一定會(huì)帶來(lái)重大的技術(shù)突破。
但去中心化一定會(huì)讓技術(shù)廣泛應(yīng)用在各個(gè)領(lǐng)域。所以我覺(jué)得兩條路都是對(duì)的。
智能涌現(xiàn):2024 年中,什么樣的進(jìn)展讓你覺(jué)得去中心化的技術(shù)是對(duì)的?
楊紅霞:在 2024 年初的時(shí)候我們已經(jīng)驗(yàn)證了一件事,在一個(gè)垂直領(lǐng)域中,小模型可以超越大模型。
但那時(shí)很少有人關(guān)注到這一點(diǎn),現(xiàn)在這已經(jīng)是大家的共識(shí)了。比如 MIT Tech Review 在 2025 年十大突破性技術(shù)中,把小語(yǔ)言模型列為其中之一。
當(dāng)你驗(yàn)證這一件事,就會(huì)自然而然想到直接把不同領(lǐng)域的模型進(jìn)行融合,不要再去重新訓(xùn)練,就能得到擁有更多知識(shí)的大模型。
差不多在那個(gè)時(shí)間,Sakana AI 的創(chuàng)始人 Llion Jones,他也是 Transformer 的作者之一,已經(jīng)實(shí)現(xiàn)了部分的工作。他們的成員陣容很豪華,現(xiàn)在估值也很高,第一輪領(lǐng)投的是軟銀,第二輪又是英偉達(dá)。
所以當(dāng)時(shí)我們覺(jué)得去中心化應(yīng)該也是一條非常值得期待和充滿魅力的道路。

智能涌現(xiàn):如果類(lèi)比中心化的模型進(jìn)展,團(tuán)隊(duì)進(jìn)展到了哪個(gè)階段?GPT-3 嗎?
楊紅霞:GPT-3 的判斷應(yīng)該比較準(zhǔn)確,0-1 的階段。
智能涌現(xiàn):去中心化的 GPT-4 moment 會(huì)是怎樣的?
楊紅霞:其實(shí)我們現(xiàn)在在推動(dòng)一件事,比如將這樣一個(gè) model fusion(模型融合)的平臺(tái),開(kāi)源到 GitHub 和 HuggingFace 上。
商業(yè)等一些領(lǐng)域的數(shù)據(jù)很敏感,而且值錢(qián),大家是不愿意將這部分?jǐn)?shù)據(jù)貢獻(xiàn)到開(kāi)源社區(qū)的。無(wú)國(guó)界的、不強(qiáng)調(diào)商業(yè)價(jià)值的科學(xué)領(lǐng)域就好一些。
如果今天我們把全球科學(xué)領(lǐng)域上的所有模型 merge 起來(lái),得到一個(gè)科學(xué)領(lǐng)域的 science foundation model,并且表現(xiàn)上超越今天的中心化模型,我覺(jué)得這有可能是一個(gè) GPT-4 moment。
智能涌現(xiàn):目前團(tuán)隊(duì)的工作都是開(kāi)源的,什么階段會(huì)考慮閉源?
楊紅霞:目前還沒(méi)想過(guò)。當(dāng)下我們還是希望先把社區(qū)的第一步做好。因?yàn)殚_(kāi)源都沒(méi)做好的話,就不用想閉源了。
智能涌現(xiàn):未來(lái)去中心化模型會(huì)代替中心化模型嗎?
楊紅霞:我覺(jué)得是共存的狀態(tài)。
我比較喜歡看歷史。舉個(gè)計(jì)算機(jī)的例子,最開(kāi)始計(jì)算機(jī)是超大規(guī)模的一體機(jī)(manframe)。但今天每個(gè)人用的小手機(jī)都是一個(gè)分布式的、去中心化的小計(jì)算機(jī)。
每天你在手機(jī)上做的任何操作其實(shí)都是在編程,只不過(guò)手機(jī)的圖形化用戶(hù)界面(GUI) 封裝得太好了,你不需要復(fù)雜的編程。
所以我認(rèn)為大模型也是同樣的。我非常相信中心化一定會(huì)帶來(lái)重大的技術(shù)突破,但如果你想讓你的技術(shù)廣泛地被應(yīng)用起來(lái),去中心化一定是未來(lái),跟計(jì)算機(jī)是一樣的道理。
直到今天,我更加堅(jiān)信這件事情了。因?yàn)槲覀冊(cè)?model fusion(模型融合)上得到了一系列結(jié)果,包括模型融合scaling law的證明。
還有 OpenAI CTO Mira 成立了 Thinking Machines Lab。讓我關(guān)注到的是,這家尚未有實(shí)際業(yè)務(wù)落地的公司,只是宣布要做這件事,就能實(shí)現(xiàn)融資 20 億美金、估值 120 億美金。
你可以想象到灣區(qū)這幫人對(duì)這件事有多么篤定。

智能涌現(xiàn):灣區(qū)開(kāi)始相信這件事,但國(guó)內(nèi)對(duì)這項(xiàng)技術(shù)的態(tài)度是什么?你在融資的過(guò)程中,收到過(guò)怎樣的反饋?
楊紅霞:我們?nèi)谫Y相對(duì)還是非常順利的。第一輪融資的時(shí)候,讓大家接受我們的思路,還是需要講挺多的。
但那一輪也很快。我們的股東有一家非常頂尖的、國(guó)際化的投資機(jī)構(gòu),所以時(shí)間流程很長(zhǎng)。但從大概(2024 年)11 月拿到 term sheet開(kāi)始,到今年 3 月左右,我們就全部完成融資交割了。
現(xiàn)在已經(jīng)到了第二輪融資(PreA)。從我們開(kāi)始提出增資,到完成融資,只花了兩周時(shí)間,現(xiàn)在已經(jīng)超融了。
相比 TML 已經(jīng) 120 億美金的估值,我們非常便宜,就幾億美金。我不需要這么多融資,尤其我們現(xiàn)在走的是低資源訓(xùn)練的路。
我想做有挑戰(zhàn)性的領(lǐng)域
智能涌現(xiàn):團(tuán)隊(duì)這次推出了醫(yī)療多模態(tài)大模型的低資源訓(xùn)練框架 InfiMed。為什么你選擇先從醫(yī)療領(lǐng)域做起?
楊紅霞:大模型是一個(gè)"大殺器"。它就是要去解決人類(lèi)非常有挑戰(zhàn)性的一些問(wèn)題。
我信奉一個(gè)理念,如果今天拿一些簡(jiǎn)單的任務(wù),或者一些簡(jiǎn)單的benchmark,根本沒(méi)辦法區(qū)分大模型的能力。因?yàn)樗锌赡芏急憩F(xiàn)得挺好,你無(wú)法得知哪個(gè)領(lǐng)域表現(xiàn)得更好,同時(shí)成本也很高。
在模型上我們已經(jīng)花了那么高成本,那總歸要帶來(lái)一些重大突破,去突破能夠影響很多人的領(lǐng)域。
另一方面,一定要選一些特別有挑戰(zhàn)的領(lǐng)域,讓模型能力真正有區(qū)分度,證明我們的模型在這個(gè)領(lǐng)域是最好的。
比如說(shuō)醫(yī)療,我們選的是癌癥這個(gè)場(chǎng)景,沒(méi)選別的。未來(lái)老齡化是普遍的,影響人群很廣泛。同時(shí)癌癥篩查非常復(fù)雜,它的數(shù)據(jù)就是多模態(tài),分子、血液的影像比文本復(fù)雜很多。
智能涌現(xiàn):做有挑戰(zhàn)性的事,這樣的研究風(fēng)格是你一以貫之的嗎?還是創(chuàng)業(yè)后才有的?
楊紅霞:我一直這樣。
比如最早在阿里的時(shí)候,我做的是推薦系統(tǒng),這是互聯(lián)網(wǎng)最核心的應(yīng)用。但當(dāng)時(shí)我主動(dòng)選擇去做大模型,相當(dāng)于放棄了推薦系統(tǒng)這個(gè)最有技術(shù)熱度、最火的應(yīng)用,去做一個(gè)當(dāng)時(shí)還沒(méi)獲得普遍認(rèn)可的技術(shù)。
做推薦系統(tǒng)的時(shí)候,我們中間還測(cè)試過(guò)不少方向。比如當(dāng)時(shí) Graph Neural Network(圖神經(jīng)網(wǎng)絡(luò))火過(guò)一段時(shí)間,我們投入了不少人力、物力去進(jìn)行研發(fā),包括周暢、林俊旸,大家都在做這件事。
但我們發(fā)現(xiàn)圖神經(jīng)網(wǎng)絡(luò)不好用,就果斷放棄了。后來(lái)大家又一起去做了大模型。所以我們可以非常開(kāi)放和謙虛地接受技術(shù)上的挑戰(zhàn)和新方向。
智能涌現(xiàn):從大廠到創(chuàng)業(yè),你會(huì)感受到資源的落差嗎?團(tuán)隊(duì)會(huì)怎么分配有限的資源。
楊紅霞:我們肯定不能像大廠那樣(投入)。但說(shuō)實(shí)話,今天大廠有多少資源是被完全利用的?真正能拿到手的技術(shù)研發(fā)資源,可能遠(yuǎn)小于你的想象。
雖然現(xiàn)在資源有限,但我們提倡的就是低資源的模型訓(xùn)練,所以也不需要那么多資源。一旦資源受限,那就充分發(fā)揮你的技術(shù)能力。
智能涌現(xiàn):提高團(tuán)隊(duì)資源利用率的核心是什么?
楊紅霞:判斷正確的方向。
我發(fā)現(xiàn)谷歌在技術(shù)探索上,更傾向于給予團(tuán)隊(duì)和個(gè)人充分的自主空間,支持大家嘗試不同的方向。不過(guò)這種模式下,資源可能會(huì)相對(duì)分散,導(dǎo)致部分方向難以形成足夠的突破力度。
而 OpenAI 的思路不太一樣,他們當(dāng)時(shí)聚焦于 "next token prediction" 這一個(gè)核心方向,這讓我覺(jué)得,如果能有核心技術(shù)人員精準(zhǔn)把控方向,團(tuán)隊(duì)齊心協(xié)力聚焦一處,往往能提升成功的概率。
智能涌現(xiàn):公司在研究或商業(yè)上的競(jìng)爭(zhēng)對(duì)手是誰(shuí)?你之前提到了 Sanaka AI 和 TML。
楊紅霞:我和同學(xué)們說(shuō),我們從來(lái)不是盯住某一家公司,而是永遠(yuǎn)盯住我們關(guān)心的領(lǐng)域中最好的發(fā)布。比如我們做醫(yī)療,目前谷歌的 MedGemma 現(xiàn)在是領(lǐng)域中最好的,那我們就要用更小的尺寸更低的資源做得更好。
比起商業(yè)化競(jìng)爭(zhēng),我們更關(guān)注技術(shù)本身,在每一點(diǎn)上做到極致。實(shí)話講,我還是希望更純粹一點(diǎn)。
智能涌現(xiàn):去中心化、模型融合路線上已經(jīng)有了 Sakana AI,你還有哪些研究的空間?
楊紅霞:Llion Jones 是做 evolutionary algorithm(遺傳演化算法) 出身的,這一算法學(xué)習(xí)的效率會(huì)比較高一些,但它有個(gè)強(qiáng)要求,就是所謂的 model merging,必須基于同構(gòu)的模型。
比方說(shuō) model merging 的模型必須都基于 Llama 3.2 finetune(微調(diào))得到,但 Llama、DeepSeek、千問(wèn),這些異構(gòu)的模型無(wú)法實(shí)現(xiàn)融合。
看到這些成果后,我們也覺(jué)得異構(gòu)模型的融合一定是一條可以探索的路。所以這是我們?cè)?024年7月正式開(kāi)始創(chuàng)業(yè)的契機(jī)。

智能涌現(xiàn):要實(shí)現(xiàn)異構(gòu)的模型融合,難點(diǎn)有哪些?
楊紅霞:難點(diǎn)挺多的。去中心化完全沒(méi)有可以抄作業(yè)的對(duì)象,不像中心化,最開(kāi)始都是從 GPT-3 開(kāi)源開(kāi)始抄。Sanaka AI 最開(kāi)始有一些發(fā)布,我們都去嘗試了,發(fā)現(xiàn)并不完全有效。
如今模型在專(zhuān)業(yè)領(lǐng)域的提升,可以認(rèn)為是后訓(xùn)練,比如 finetune(微調(diào))和強(qiáng)化學(xué)習(xí),可以簡(jiǎn)單理解為只要調(diào)整一個(gè)函數(shù)。
但多個(gè)模型的融合,意味著你要兼顧多個(gè)函數(shù), 而且每個(gè)模型的參數(shù)量是巨大的,而且要考慮到模型之間的沖突。在理論上要難得多。
所以我們需要突破很多點(diǎn)。比如范式的定義。之前沒(méi)人定義過(guò) model fusion 的 SFT(監(jiān)督微調(diào))和強(qiáng)化學(xué)習(xí)該怎么做,我們把它定義出來(lái)了。
一般情況下,大家做 SFT 是采取Cross Entropy(交叉熵?fù)p失函數(shù)),我們采用的是 Graph-based Loss(基于圖的損失函數(shù))。
前者更多地是實(shí)現(xiàn)了 token 層面的對(duì)齊,但我們不僅實(shí)現(xiàn)了token層面的對(duì)齊,同時(shí)通過(guò)圖,加入全局語(yǔ)義依賴(lài)關(guān)系的對(duì)齊。
類(lèi)似于這樣一步一步的突破,疊加起來(lái)實(shí)現(xiàn)了模型能力的提升。
智能涌現(xiàn):什么時(shí)候在技術(shù)上才有突破?
楊紅霞:大概在今年 2 月份,我們的 model fusion(模型融合)第一次發(fā)布,實(shí)現(xiàn)了四個(gè)異構(gòu)模型的融合。
這四個(gè)模型在 18 個(gè)推理 Benchmark(包括解數(shù)學(xué)題、寫(xiě)代碼、指令遵從、語(yǔ)義推理等)上平均得分 75-77 分。
我們上來(lái)就選擇了一條相對(duì)更困難的路線。Sakana AI 也好,TML 也好,都選了同構(gòu)的路線。同構(gòu)的模型融合比較好做,但我們選擇了異構(gòu)的。
2 月份我們發(fā)布異構(gòu)模型融合時(shí),性能評(píng)測(cè)從 77 分提高到了 79 分。雖然只有 2 分的提升,但還是讓我們看到了一些曙光。
我們目前結(jié)合 Graph-Based loss 以及強(qiáng)化學(xué)習(xí)的泛化性,最高得分已經(jīng)逼近 88 分,我覺(jué)得這是質(zhì)的突破。
智能涌現(xiàn):創(chuàng)業(yè)后的技術(shù)研發(fā)節(jié)奏,和大廠相比有改變嗎?
楊紅霞:我有個(gè)信念,最優(yōu)秀的團(tuán)隊(duì)是不需要天天拿著小鞭子在后面看著。
當(dāng)你把一群特別優(yōu)秀的人放在一起,他們之間的相互趕超加上超強(qiáng)的自驅(qū)力會(huì)自然的推著他們持續(xù)向前,完全不用擔(dān)心研發(fā)節(jié)奏。
但創(chuàng)業(yè)后還是要給團(tuán)隊(duì)一些重大發(fā)布時(shí)間節(jié)點(diǎn)的規(guī)定的。實(shí)話講,這個(gè)階段大模型賽道上大家都在集中發(fā)力,所以時(shí)效性是一件特別重要的事。
智能涌現(xiàn):你怎么規(guī)劃發(fā)布的時(shí)效?
楊紅霞:畢竟我們團(tuán)隊(duì)中有很多博士生,所以技術(shù)成果的發(fā)布,我們一般會(huì)關(guān)注最頂尖的幾個(gè)人工智能會(huì)議。
同學(xué)們?nèi)〉昧擞行У难芯砍晒笤夙樖职颜撐膶?xiě)一寫(xiě),并發(fā)布到社區(qū),大家都覺(jué)得挺好。
但現(xiàn)在人工智能的會(huì)太多了,有些最近質(zhì)量下滑得也很厲害。所以目前我們只看三個(gè)會(huì):
一個(gè)是 NeurIPS,每年大概 5 月投稿;第二個(gè)是 ICLR,每年 9 月投稿;第三個(gè)是 ICML,每年大概 1 月投稿。
當(dāng)然不排除期間有重大發(fā)布。比如我們的醫(yī)療模型 InfiMed-RL 用 7B 的參數(shù)規(guī)模超過(guò)了 GPT-5,這個(gè)成果肯定是馬上就要發(fā)的,不需要等。
智能涌現(xiàn):對(duì)應(yīng)用層的公司來(lái)說(shuō),我們常聽(tīng)到快比完美更重要。對(duì)你而言,快和完美怎么平衡?
楊紅霞:我們?cè)谧非髸r(shí)間點(diǎn)的同時(shí),對(duì)結(jié)果質(zhì)量的要求是相當(dāng)高的。
我一直和大家講,所有發(fā)出去的成果代表我們的技術(shù)聲譽(yù)。聲譽(yù)和口碑是一步步積累的。同時(shí)但凡有一次發(fā)布結(jié)果不盡如人意,大家馬上就會(huì)產(chǎn)生質(zhì)疑。
所以哪怕不發(fā),我也會(huì)要求成果的質(zhì)量。
如果沒(méi)有耐心,錢(qián)很快會(huì)燒完
智能涌現(xiàn):從大廠的研究員到大學(xué)教授和創(chuàng)業(yè)者,你需要適應(yīng)不同的身份嗎?
楊紅霞:其實(shí)不太需要,因?yàn)槲易约罕容^純粹,我一直把注意力分配在技術(shù)上,說(shuō)白了在哪里無(wú)所謂。
但在創(chuàng)業(yè)過(guò)程中,我找到了一群特別牛的做技術(shù)的同學(xué)們。大家對(duì)去中心化的認(rèn)可度非常高,就一起干。
智能涌現(xiàn):2024 年 5 月左右你從字節(jié)離職后,其中一個(gè)動(dòng)作是加入香港理工大學(xué)。這個(gè)決定是怎么做出的?
楊紅霞:先說(shuō)結(jié)論,大疆、商湯都是香港的大學(xué)孵化出來(lái)的,所以香港的大學(xué)有非常好的孵化基因。
我參加了一個(gè)名叫 RAISe+(產(chǎn)學(xué)研1+計(jì)劃)的項(xiàng)目,就是香港區(qū)政府拿出 100 個(gè)億(元),給 100 個(gè)大學(xué)教授孵化項(xiàng)目。
而且這部分資助并不占公司股份,只是為了更好的促進(jìn)產(chǎn)學(xué)研之間的轉(zhuǎn)化,相當(dāng)于"白給"你了,當(dāng)然你需要在 5 年左右的時(shí)間里 IPO。
還有一個(gè)項(xiàng)目是香港數(shù)碼港超算中心的人工智能資助計(jì)劃,一般通過(guò)評(píng)審,在算力上就有 70% 的減免折扣。我們是有史以來(lái)唯一獲得 90% 減免折扣的團(tuán)隊(duì)。
港理工在這方面就更極致。我們學(xué)校在各個(gè)城市不是成立分校,而是成立了研究院,跟本地政府一起把教授的成果在本地進(jìn)行轉(zhuǎn)化。
加入港理工之前,我在學(xué)術(shù)界沒(méi)有待過(guò)一天。一般拿到正教授的,肯定要在學(xué)術(shù)界待很長(zhǎng)時(shí)間。但當(dāng)時(shí)我都沒(méi)有面試,就直接拿到了港理工的正教授教職。
當(dāng)時(shí)校長(zhǎng)和我說(shuō),你不用面試,我們看好你的技術(shù)和影響力。這點(diǎn)很打動(dòng)我。

智能涌現(xiàn):受到數(shù)據(jù)、市場(chǎng)等資源的限制,還是很少有AI企業(yè)選擇在香港。
楊紅霞:大模型在內(nèi)地發(fā)展得非常好,包括我自己原來(lái)在內(nèi)地有很多資源鏈接。
但香港有自己比較獨(dú)到的優(yōu)勢(shì),比如在教育上。香港面積不大,但有 8 所大學(xué),其中 5 所大學(xué)在全球的QS排名到了 100 以?xún)?nèi)。
全球任何一個(gè)城市都沒(méi)有這么高的人才密度。我們博士生的資質(zhì)是相當(dāng)強(qiáng)的。
智能涌現(xiàn):籌備去中心化模型訓(xùn)練的創(chuàng)業(yè),需要哪一些資源?
楊紅霞:一般生成式 AI 的初創(chuàng)公司,假如融到了 100 塊錢(qián),80 塊錢(qián)要搞算力,20 塊錢(qián)要搞人。大家可能都是"二八原則"。
我們對(duì)人的能力要求是非常高的,比如說(shuō)能做 FP8 這件事的人不多,一般做算法的人還是在 PyTorch(Meta 開(kāi)發(fā)的深度學(xué)習(xí)框架)層。
GPT-4 發(fā)布的時(shí)候,OpenAI 只有 200 多人。我當(dāng)時(shí)把所有人的簡(jiǎn)歷都看了一遍。
現(xiàn)在 OpenAI 大概有 3000 多人,隨著團(tuán)隊(duì)規(guī)模擴(kuò)大,內(nèi)部管理面臨著相應(yīng)的挑戰(zhàn)。從市場(chǎng)反饋和實(shí)際使用體驗(yàn)來(lái)看,GPT-5 的發(fā)布表現(xiàn)尚未達(dá)到部分用戶(hù)的預(yù)期。
所以核心技術(shù)的突破,人數(shù)根本不是關(guān)鍵,人的質(zhì)量才是關(guān)鍵。每一個(gè)進(jìn)我們團(tuán)隊(duì)的人,我們有非常嚴(yán)格的把控。
所以我們現(xiàn)在也就接近 40 人。從技術(shù)研發(fā)的角度來(lái)講,是一個(gè)很好的人員規(guī)模。大概有一半的人背景非常強(qiáng),我覺(jué)得他們都可以拿到大廠的 special offer。
智能涌現(xiàn):你對(duì)人才的要求是什么?
楊紅霞:第一,代碼能力一定要超級(jí)強(qiáng),我們有非常嚴(yán)格的考核。很多時(shí)候候選人簡(jiǎn)歷很漂亮,但代碼層可能直接就被我們篩掉了。
第二,要有很強(qiáng)的好奇心。說(shuō)白了相較于中心化的模型訓(xùn)練,去中心化是一個(gè)很新的技術(shù),還有很多東西值得探索。比如低比特很多東西你沒(méi)法照抄,你要自己做很多探索和研發(fā)。
第三點(diǎn)特別重要,一定要有非常好的合作態(tài)度。我覺(jué)得大模型時(shí)代一定是集團(tuán)軍作戰(zhàn),絕不可能說(shuō)現(xiàn)在有三四十人,每個(gè)人分頭去搞一點(diǎn)小事情,那我們永遠(yuǎn)不可能做特別大。
至于有沒(méi)有特別好的大模型背景,其實(shí)都不要緊。
智能涌現(xiàn):團(tuán)隊(duì)是怎么分工的?
楊紅霞:我們有幾個(gè)大的技術(shù)方向:基礎(chǔ)模型、模型融合、應(yīng)用。比如像基礎(chǔ)模型部分,我們關(guān)注的是低比特,其中一撥人就關(guān)注大語(yǔ)言模型的預(yù)訓(xùn)練,一撥人關(guān)注在多模態(tài)模型的預(yù)訓(xùn)練。
但每個(gè)方向我沒(méi)有劃分算法、AI Infra(AI 基礎(chǔ)架構(gòu))這些崗位,我對(duì)同學(xué)的要求是數(shù)據(jù)、算法、AI Infra 端到端都要做,他們要學(xué)會(huì)從不同角度來(lái)理解模型訓(xùn)練這件事。
智能涌現(xiàn):你之前幫阿里和字節(jié)都搭建過(guò)模型團(tuán)隊(duì)。自己創(chuàng)業(yè)建立團(tuán)隊(duì)和在大廠大團(tuán)隊(duì)有什么不同嗎?
楊紅霞:好像沒(méi)有什么不同。原來(lái)在大廠,我也經(jīng)歷過(guò)要做一個(gè)新方向,然后從 0 到 1 去搭建團(tuán)隊(duì)。招人的過(guò)程其實(shí)是一樣的。
確實(shí)可能因?yàn)槲覀冎白龅墓ぷ饔斜容^好的影響力,所以招博士生也好、公司招人也好,找我們的人挺多的。
我覺(jué)得創(chuàng)業(yè)公司的一個(gè)好處是靈活,在大廠各個(gè)團(tuán)隊(duì)的分工會(huì)限制得相對(duì)死一點(diǎn)。我們公司只要你學(xué)有余力,工作有余力,任何一個(gè)模塊你都可以去嘗試和探索。
我們團(tuán)隊(duì)有原來(lái)在大廠的成員,但過(guò)去一年成長(zhǎng)的速度遠(yuǎn)快于在大廠。因?yàn)樵诖髲S,他可能只能天天做微調(diào)的數(shù)據(jù)構(gòu)造,或者 benchmark 構(gòu)造工作。
但在創(chuàng)業(yè)公司,端到端都可以做,任何人都可以做一些模型訓(xùn)練全鏈路中不同層面的事,原來(lái)這是想都不敢想的。
智能涌現(xiàn):你怎么平衡學(xué)術(shù)研究和商業(yè)化落地?前者其實(shí)要求有耐心,但后者要求快。
楊紅霞:從我們的角度來(lái)看,兩者是沒(méi)有區(qū)別的。把技術(shù)做到極致好,在商業(yè)化上才有極強(qiáng)的競(jìng)爭(zhēng)力。
我們的商業(yè)化在慢慢跑起來(lái),感興趣的潛在客戶(hù)非常多,我們其實(shí)完全不愁訂單的。
智能涌現(xiàn):InfiX.ai的商業(yè)模式是什么?
楊紅霞:我們還不想談過(guò)多商業(yè)化的事,希望能關(guān)注在技術(shù)本身。
我們的商業(yè)化其實(shí)有 3 個(gè)模式,但有點(diǎn)涉及到商業(yè)機(jī)密了。要相信我們規(guī)劃得挺好!
智能涌現(xiàn):作為一個(gè)創(chuàng)業(yè)團(tuán)隊(duì),你怎么平衡比較純粹地關(guān)注在技術(shù)上,和商業(yè)化的壓力?你有受到過(guò)來(lái)自外界在商業(yè)化層面上的壓力嗎?
楊紅霞:我覺(jué)得大家一定要有耐心。如果沒(méi)有耐心,哪怕你很快起來(lái)、看上去很風(fēng)光,其實(shí)錢(qián)很快就燒完了,也沒(méi)有什么產(chǎn)出。
OpenAI 2015 年就成立了,但中間有大概七八年,直到 2022 年 10 月 GPT-4 的發(fā)布,大家才停止了質(zhì)疑。之前 GPT-1、GPT-2、GPT-3 的發(fā)布,沒(méi)有任何的商業(yè)化。
國(guó)內(nèi)我也很尊敬 DeepSeek,即使梁文鋒非常富有,他仍舊非常篤定,就要把技術(shù)做到極致。
所以我們希望先將所有精力都放在技術(shù)上。如果你的技術(shù)是斷崖式的領(lǐng)先,就不用擔(dān)心商業(yè)化。
