中國(guó)網(wǎng)財(cái)經(jīng) 8 月 14 日訊 國(guó)務(wù)院新聞辦公室于 2025 年 8 月 14 日舉行 " 高質(zhì)量完成‘十四五’規(guī)劃 " 系列主題新聞發(fā)布會(huì),介紹 " 十四五 " 時(shí)期數(shù)字中國(guó)建設(shè)發(fā)展成就,并答記者問。
以下為發(fā)布會(huì)實(shí)錄:
記者 : 高質(zhì)量、大規(guī)模數(shù)據(jù)是推動(dòng) " 人工智能 +" 深度落地的核心支撐。請(qǐng)問,國(guó)家層面在圍繞人工智能高質(zhì)量數(shù)據(jù)提質(zhì)擴(kuò)量方面開展了哪些工作?謝謝。
國(guó)家發(fā)展改革委黨組成員、國(guó)家數(shù)據(jù)局局長(zhǎng) 劉烈宏 :
有專家說,算力是骨骼、算法是神經(jīng)、數(shù)據(jù)是血液。作為人工智能發(fā)展的三大核心要素之一,數(shù)據(jù)在推動(dòng) " 人工智能 +" 過程中發(fā)揮著關(guān)鍵作用,特別是高質(zhì)量數(shù)據(jù)集的建設(shè)至關(guān)重要,比如在醫(yī)療健康領(lǐng)域,通過標(biāo)注的醫(yī)學(xué)影像高質(zhì)量數(shù)據(jù)集,模型的疾病診斷準(zhǔn)確率可以提升 15% 以上。在人工智能時(shí)代,Token,也就是大家通常所說的詞元,作為處理文本的最小數(shù)據(jù)單元,如同互聯(lián)網(wǎng)時(shí)代大家所說的 " 流量 "。2024 年初,我國(guó)日均 Token 的消耗量為 1 千億,截至今年 6 月底,日均 Token 消耗量已經(jīng)突破 30 萬億,1 年半時(shí)間增長(zhǎng)了 300 多倍,這反映了我國(guó)人工智能應(yīng)用規(guī)模的快速增長(zhǎng)。
我國(guó)人工智能的快速發(fā)展,與我國(guó)高度重視數(shù)據(jù)工作是密不可分的。我國(guó)是第一個(gè)把數(shù)據(jù)作為生產(chǎn)要素的國(guó)家,多措并舉促進(jìn)數(shù)據(jù)資源的開發(fā)利用。我們強(qiáng)調(diào) " 人工智能 +" 行動(dòng)到哪里,高質(zhì)量數(shù)據(jù)集的建設(shè)和推廣就要到哪里。我們大力推動(dòng)高質(zhì)量數(shù)據(jù)的供給,出臺(tái)了高質(zhì)量數(shù)據(jù)集建設(shè)相關(guān)文件,多部門聯(lián)合推動(dòng)相關(guān)工作。我們指導(dǎo)全國(guó)數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)研究制定了相關(guān)標(biāo)準(zhǔn)和技術(shù)文件,組織了高質(zhì)量數(shù)據(jù)集建設(shè)先行先試工作和典型案例征集活動(dòng),分行業(yè)、分領(lǐng)域樹立了一批典型的解決方案。
我們持續(xù)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)工作。截至今年 6 月底,我國(guó)已經(jīng)建設(shè)高質(zhì)量數(shù)據(jù)集超過 3.5 萬個(gè),總體量超過了 400PB ( 1PB 可存儲(chǔ)約 5 億張 2MB 大小的高清照片,400PB 的總量相當(dāng)于中國(guó)國(guó)家圖書館數(shù)字資源總量的 140 倍左右 ) 。人工智能模型的訓(xùn)練也推動(dòng)了數(shù)據(jù)交易需求的攀升,截至今年 6 月底,各地高質(zhì)量數(shù)據(jù)集累計(jì)交易額近 40 億元,數(shù)據(jù)交易機(jī)構(gòu)掛牌的高質(zhì)量數(shù)據(jù)集總規(guī)模達(dá)到了 246PB。以北京數(shù)交所為例,高質(zhì)量數(shù)據(jù)集占交易總量的比例從去年的 10% 躍升到目前的近 80%。上海、天津、安徽等地正在試點(diǎn) " 數(shù)據(jù)語料作價(jià)入股 " 等新模式,引導(dǎo)企業(yè)將高質(zhì)量數(shù)據(jù)集折算為股權(quán)投入到相關(guān)企業(yè)。高質(zhì)量數(shù)據(jù)集的發(fā)展需要數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的支撐,我們已布局了成都、沈陽、合肥等 7 個(gè)數(shù)據(jù)標(biāo)注基地,助力高質(zhì)量數(shù)據(jù)集的建設(shè)。
中文數(shù)據(jù)在國(guó)內(nèi)大模型的訓(xùn)練性能提升方面發(fā)揮著重要作用。大家都非常關(guān)心中文數(shù)據(jù)在訓(xùn)練數(shù)據(jù)中的占比情況,經(jīng)過一段時(shí)間的努力,國(guó)內(nèi)多數(shù)模型訓(xùn)練使用的中文數(shù)據(jù)占比已經(jīng)超過了 60%,有的模型已達(dá)到 80%。中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力持續(xù)增強(qiáng),推動(dòng)我國(guó)人工智能模型性能的快速提升。
下一步,我們將通過體系化布局持續(xù)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè),加快打造具身智能、低空經(jīng)濟(jì)、生物制造等重點(diǎn)領(lǐng)域數(shù)據(jù)高地。我們也將推動(dòng)全社會(huì)強(qiáng)化數(shù)據(jù)要素價(jià)值認(rèn)同,加快推進(jìn)數(shù)據(jù)要素價(jià)值共創(chuàng),培育 " 為優(yōu)質(zhì)數(shù)據(jù)買單 " 的市場(chǎng)共識(shí)。