科幻小說中的「巴別魚」一直是人類對(duì)跨語言溝通的終極想象,一個(gè)能塞入耳中、即時(shí)消弭語言鴻溝的生命體。而在現(xiàn)實(shí)世界,將這一夢(mèng)想變?yōu)楝F(xiàn)實(shí)的漫長征途,早在 2017 年便由一家名為時(shí)空壺的公司開啟。
那一年,當(dāng)整個(gè)行業(yè)還未將目光聚焦于此時(shí),時(shí)空壺就發(fā)布了全球第一款翻譯耳機(jī),率先向這個(gè)看似遙不可及的目標(biāo)發(fā)起了沖擊。他們的核心理念從始至終都無比清晰:要讓機(jī)器翻譯普及,關(guān)鍵在于打破專業(yè)同傳的交互壁壘,讓技術(shù)服務(wù)于人類最自然、最無感的交流方式。
這種開創(chuàng)性的思路,不僅定義了時(shí)空壺此后多年的產(chǎn)品路徑,也讓這家公司在全球市場(chǎng)悄然占據(jù)了「隱形冠軍」的位置。自 2019 年第一代產(chǎn)品在海外發(fā)售至今,時(shí)空壺已在這條專用賽道上深耕了超過六年。從最初的拓荒者變成如今定義產(chǎn)品功能與形態(tài)的獨(dú)角獸。
01
硬件優(yōu)先
時(shí)空壺的創(chuàng)始人兼 CEO 田力在介紹 W4 的過程中,并未將重點(diǎn)放在描繪遙遠(yuǎn)的 AI 未來,而是選擇直面那個(gè)最基礎(chǔ)卻也最致命的行業(yè)難題:噪音干擾下的語音識(shí)別。面對(duì)展會(huì)現(xiàn)場(chǎng)鼎沸的人聲與背景音樂,大多數(shù)音頻設(shè)備束手無策,而 W4 卻能實(shí)現(xiàn)驚人的清晰度。
其秘密武器,并非復(fù)雜的軟件算法,而是一項(xiàng)看似「返璞歸真」的硬件創(chuàng)新——一套被命名為「骨聲紋傳感器捕捉技術(shù)」的多麥克風(fēng)融合系統(tǒng)。
這套系統(tǒng)的核心,是一顆定制的骨傳導(dǎo)傳感器,它不依賴空氣作為介質(zhì),而是通過捕捉用戶說話時(shí)頭骨的振動(dòng)來拾取聲音。這意味著,無論周圍環(huán)境多么嘈雜,無論是地鐵的轟鳴、餐廳的喧囂,還是展會(huì)的吵嚷,這些通過空氣傳播的噪聲都無法干擾到信號(hào)的采集。
與此同時(shí),W4 的每只耳機(jī)還配備了兩顆傳統(tǒng)的氣導(dǎo)麥克風(fēng),用于收集聲音中的環(huán)境信息和部分細(xì)節(jié)。最終,通過時(shí)空壺自研的融合算法,將來自骨骼振動(dòng)和空氣傳導(dǎo)的兩種信號(hào)進(jìn)行整合,精準(zhǔn)地提取出佩戴者最純粹的人聲,從物理源頭就「保護(hù)」了一個(gè)干凈的音頻信號(hào)。
而時(shí)空壺的方案則更像是一種「加法」或「保護(hù)」,它從一開始就獲得了一個(gè)幾乎不受污染的人聲音源,保證了后續(xù)翻譯環(huán)節(jié)的輸入質(zhì)量。田力對(duì)此解釋道:「我們很多的東西其實(shí)是在硬件和一些算法上,而它不是一個(gè)大家意義上的這種 AI 的純粹的云端的翻譯。真正決定用戶那個(gè)交互體驗(yàn)的東西,不光是翻譯引擎那一刻,而是前面的很多環(huán)節(jié)?!?/p>
02
「隱形冠軍」的專注與耐心
推出這款產(chǎn)品的時(shí)空壺,早已不是一家初出茅廬的創(chuàng)業(yè)公司。但他們的成長路徑,在中國硬件公司中顯得頗為「非典型」。
早在眾多企業(yè)將「出海」作為戰(zhàn)略口號(hào)之前,時(shí)空壺就已經(jīng)在海外市場(chǎng)默默耕耘。他們選擇先在美國市場(chǎng)發(fā)力,初期海外與國內(nèi)的銷量占比一度達(dá)到懸殊的 9:1。這種策略讓他們得以在最成熟、競(jìng)爭(zhēng)最激烈的市場(chǎng)中打磨產(chǎn)品,并直接服務(wù)于那些對(duì)跨語言溝通有著最迫切需求的用戶——游客、商務(wù)人士以及跨國生活的家庭。
時(shí)空壺將自己的核心用戶定義為「專業(yè)型消費(fèi)者 Prosumer」,田力認(rèn)為這與大疆無人機(jī)的早期用戶畫像頗為相似。他們購買產(chǎn)品并非為了嘗鮮,而是為了解決一個(gè)專業(yè)且剛性的需求。如今,隨著全球用戶累計(jì)突破 100 萬,國內(nèi)市場(chǎng)的認(rèn)知度也逐漸打開,時(shí)空壺的銷售比例也調(diào)整至更為均衡的「七三開」。
這種穩(wěn)健風(fēng)格的背后,是田力對(duì)公司經(jīng)營原則的堅(jiān)持。他本人并非典型的硅谷式創(chuàng)業(yè)者,公司不依賴一輪又一輪的融資維持生命線,團(tuán)隊(duì)規(guī)模也保持著克制,從 2023 年的幾十人穩(wěn)步增長至如今的一百多人。
「我們?cè)缫褜?shí)現(xiàn)凈利潤為正」田力在專訪中坦言,「我們不是那種等著救命錢來干活的公司」因此他們更愿意將資源和精力投入到產(chǎn)品本身的迭代與打磨中,保持著一種在當(dāng)下創(chuàng)投環(huán)境中略顯「緩慢」的節(jié)奏。
03
Babel OS:打造全棧 AI 引擎
隨著用戶量突破百萬,在真實(shí)嘈雜環(huán)境中進(jìn)行清晰、流暢跨語言對(duì)話的需求已清晰可見,W4 項(xiàng)目應(yīng)運(yùn)而生。除了在收音清晰度上的硬件突破,時(shí)空壺更是在系統(tǒng)和算法層面構(gòu)筑了堅(jiān)實(shí)的核心壁壘。這套自研的系統(tǒng)被命名為「巴別系統(tǒng)」(Babel OS),它集成了時(shí)空壺多年來在翻譯領(lǐng)域的經(jīng)驗(yàn)與技術(shù)沉淀。
Babel OS 的第一個(gè)支柱,是解決同傳中「速度」與「準(zhǔn)確」矛盾的關(guān)鍵技術(shù)——「AI語義切分」。田力解釋道,同傳領(lǐng)域有一個(gè)經(jīng)典難題:傳統(tǒng)的機(jī)器翻譯同樣需要等待一個(gè)完整的句子或語義單元,延遲因此產(chǎn)生。而時(shí)空壺的技術(shù),能通過大模型實(shí)時(shí)分析語義,判斷一個(gè)意群是否完整,從而做出預(yù)判性的翻譯,先把主干意思傳遞出去,后續(xù)再快速修正。這正是用技術(shù)去無限逼近一個(gè)優(yōu)秀同傳譯員的判斷力。
田力補(bǔ)充道,「行業(yè)標(biāo)準(zhǔn)里,真人同傳譯員的準(zhǔn)確率也并非 100%,大約是 80% 多,因?yàn)樗麄冏非蟮氖强旌土鲿?。我們做的,就是用技術(shù)實(shí)現(xiàn)這種平衡。」
Babel OS 的第二個(gè)支柱,則是利用大語言模型(LLM)實(shí)現(xiàn)「語境感知翻譯」。這是解決翻譯準(zhǔn)確性,尤其是處理多義詞和近音詞的關(guān)鍵。例如,在英語中,「to, too, two」或「there, their, they're」等詞語,如果脫離上下文,機(jī)器很難準(zhǔn)確判斷。時(shí)空壺通過其自研的「TurboFast AI 翻譯引擎」和 LLM 的強(qiáng)大能力,讓系統(tǒng)能夠理解對(duì)話的整體語境,從而在這些細(xì)微之處做出精準(zhǔn)的判斷,極大地提升了翻譯的自然度和準(zhǔn)確性。
「我們最開始也用谷歌、微軟的引擎,但很快發(fā)現(xiàn),要達(dá)到理想的用戶體驗(yàn),必須親自動(dòng)手去改造模型,」田力說。如今,無論是谷歌還是三星,都選擇將翻譯作為其旗艦耳機(jī)的一項(xiàng)附加功能。而時(shí)空壺的全棧自研模式,則展現(xiàn)了截然不同的決心。田力指出,大廠的翻譯引擎在很多小語種上表現(xiàn)不佳,例如阿拉伯語、越南語等,存在大量未被解決的「角落案例」。
對(duì)此,時(shí)空壺的結(jié)論是:只有自研才能實(shí)現(xiàn)端云一體的深度優(yōu)化,例如通過前端對(duì)聲音進(jìn)行特殊編解碼,再喂給云端專門訓(xùn)練過的模型,從而極大提升速度和魯棒性。這種覆蓋硬件、固件、系統(tǒng)到 AI 模型的全棧能力,讓時(shí)空壺更像一家專注的通信設(shè)備公司,而非純粹的 AI 軟件公司。
04
定義同傳翻譯標(biāo)準(zhǔn)
在時(shí)空壺內(nèi)部,他們用一個(gè) L1 到 L5 的框架來定義「好的跨語言交流」,本次隨著 W4 發(fā)布,這一類似自動(dòng)駕駛行業(yè)標(biāo)準(zhǔn)的「同傳翻譯行業(yè)標(biāo)準(zhǔn)」也一并向外界揭曉。
L1,是電子詞典級(jí)別的「詞對(duì)詞」翻譯。
L2,是谷歌翻譯 App 式的「句對(duì)句」翻譯,交互是斷續(xù)的。
田力認(rèn)為,市面上大部分產(chǎn)品,包括巨頭們推出的功能,其交互方式——例如兩人輪流對(duì)著手機(jī)講話——決定了體驗(yàn)只做到了 L2.5,這并非人類自然的交流方式。
而時(shí)空壺努力做到的,是 L3 ——自由對(duì)話。為了實(shí)現(xiàn)這一目標(biāo),W4 提供了多種精心設(shè)計(jì)的翻譯模式。核心的「雙語對(duì)話」模式,允許兩個(gè)人各佩戴一只耳機(jī),進(jìn)行近乎實(shí)時(shí)的、面對(duì)面的自然交流,翻譯結(jié)果會(huì)直接在各自的耳機(jī)中播放。此外,還有適用于聽講座的「聽譯模式」,以及為問路等快速場(chǎng)景設(shè)計(jì)的「問答模式」。這些模式覆蓋了用戶在旅途和商務(wù)中最常見的使用場(chǎng)景,真正讓「邊走邊聊」的跨語言溝通成為可能。
但 L3 也并非他們?cè)O(shè)想中、AI 同傳耳機(jī)的終點(diǎn)。「我們的目標(biāo)是 L4,達(dá)到高級(jí)同傳譯員的水平,」田力這樣介紹時(shí)空壺對(duì)同傳翻譯耳機(jī)場(chǎng)景的規(guī)劃。
05
做同傳耳機(jī)賽道里的「大疆」
正是基于這種對(duì)專業(yè)體驗(yàn)的極致追求,時(shí)空壺選擇了耳機(jī)這一產(chǎn)品形態(tài),并為其設(shè)定了 349 美元的專業(yè)級(jí)定價(jià)。面對(duì)外界關(guān)于「憑什么賣這么貴」的質(zhì)疑,田力顯得很自信,在對(duì)話中,田力將時(shí)空壺的產(chǎn)品邏輯比作大疆的無人機(jī),而非智能音箱。
「你買大疆的無人機(jī),不是因?yàn)樗材墚?dāng)風(fēng)扇,而是因?yàn)樗诤脚倪@個(gè)專業(yè)領(lǐng)域做到了極致。我們的用戶選擇 W4,是因?yàn)樗诳缯Z言溝通這個(gè)特定場(chǎng)景下,提供了遠(yuǎn)超通用設(shè)備的卓越體驗(yàn)?!?/p>
這或許也是時(shí)空壺為何并未急于像其他 AI 硬件一樣,采用訂閱制收費(fèi)的原因。田力認(rèn)為,在行業(yè)整體成熟度僅在「及格線」徘徊時(shí),首要任務(wù)是把基礎(chǔ)體驗(yàn)從 70 分做到 100 分,而不是過早推出一個(gè) 100 分產(chǎn)品才需要的高級(jí)商業(yè)模式。
在談及與科技巨頭的競(jìng)爭(zhēng)時(shí),田力認(rèn)為小公司永遠(yuǎn)有機(jī)會(huì)?!腹雀枳鲇布∥抑毖?,一直有種『玩票性質(zhì)』,」他回憶,「我 2019 年在灣區(qū)見過他們項(xiàng)目的人,他們覺得這個(gè)功能很酷,就做出來了,但用戶用得好不好,不是最在意的。所以谷歌硬件總是『起個(gè)大早,趕個(gè)晚集』?!箤?duì)巨頭來說,翻譯只是其龐大生態(tài)中的一項(xiàng)附加功能;而對(duì)于時(shí)空壺,「這是我們的『命根子』。小公司跟大公司比,本質(zhì)上比的還是認(rèn)真和專注?!?/p>
為了更加直觀地展示機(jī)器翻譯的真實(shí)水平,時(shí)空壺此前曾使用自家產(chǎn)品,參與過一場(chǎng)「人機(jī)大戰(zhàn)」,讓其產(chǎn)品與真人同傳譯員同臺(tái)競(jìng)技。這不僅是一次營銷,更是向頂級(jí)譯員學(xué)習(xí)的方式。「通過這種極限對(duì)比,我們能更清楚地看到自己的差距和努力的方向,」田力說。
關(guān)于 AI 硬件乃至?xí)r空壺本身的未來,田力聊到驅(qū)動(dòng)著他和團(tuán)隊(duì)前行的樸素愿景。他相信,人類作為社會(huì)性動(dòng)物,天生渴望交流與連接,而語言的壁壘所帶來的,是真實(shí)存在的不安與孤立。
而在他看來,時(shí)空壺的使命,是要打造一把鑰匙,去開啟那扇因語言而緊鎖的溝通之門,賦予人們跨越鴻溝的勇氣——那種可以跟任何人交流,去連接的從容。這才是他們最大的成就感來源。
「人類是社會(huì)性動(dòng)物,天生渴望交流和連接,」在采訪的最后,田力回歸到了創(chuàng)業(yè)的初心,「當(dāng)你去到一個(gè)陌生的國家,語言不通時(shí),那種不安全感是真實(shí)存在的。我們希望通過產(chǎn)品,賦予人們勇氣,讓他們可以很爽地去跟任何人交流,去連接,去成為朋友」
因此從某種程度上,W4 不僅僅是一款追逐 AI 浪潮的硬件。更是時(shí)空壺對(duì)這種愿景的載體,是這家公司用近十年的專注與積累,為消除人類的隔閡所獻(xiàn)上的最新答案。
「消除語言障礙,可能不是一百年內(nèi)能完成的事,」田力坦言,「但我們正走在這條路上。」