前 言
本文要點(diǎn):
落地路線圖
落地模式及選擇(策略)
安全防護(hù)構(gòu)架
安全落地技術(shù)方案
私域安全部署全流程示例
大模型安全評(píng)估
網(wǎng)絡(luò)安全運(yùn)營(yíng)大模型參考架構(gòu)與賦能
其它場(chǎng)景及應(yīng)用案例
相關(guān)資料獲取
請(qǐng)文末評(píng)論留言
落地 路線圖
遵循原則
需求拉動(dòng)、問(wèn)題驅(qū)動(dòng)、創(chuàng)新推動(dòng)
四個(gè)階段
現(xiàn)狀診斷、能力建設(shè)、應(yīng)用部署、運(yùn)營(yíng)管理
五個(gè)層面
基礎(chǔ)設(shè)施、數(shù)據(jù)資源、算法模型、應(yīng)用服務(wù)、安全可信
三個(gè)關(guān)鍵維度
安全、可靠、可控
工程實(shí)施方面
(1)基礎(chǔ)設(shè)施側(cè)
構(gòu)建高性能和高可靠的訓(xùn)練和推理基礎(chǔ)設(shè)施
根據(jù)行業(yè)屬性或企業(yè)性質(zhì),明晰技術(shù)路徑,如選擇大模型部署方式等
(2)數(shù)據(jù)構(gòu)建側(cè)
全流程數(shù)據(jù)治理
構(gòu)建數(shù)據(jù)隱私和安全保護(hù)體系
(3)服務(wù)能力側(cè)
實(shí)現(xiàn)大模型與現(xiàn)有業(yè)務(wù)數(shù)據(jù)和信息系統(tǒng)對(duì)接
開(kāi)展提示工程
開(kāi)發(fā)人工智能原生應(yīng)用等實(shí)施方案
技術(shù)選型方面
(1)技術(shù)指標(biāo)側(cè)
明確技術(shù)指標(biāo):涉及基礎(chǔ)設(shè)施、數(shù)據(jù)資源、算法模型、應(yīng)用模式和風(fēng)險(xiǎn)控制等方面
(2)評(píng)估方法側(cè)
在模型應(yīng)用的全生命周期,開(kāi)展技術(shù)能力先進(jìn)性和應(yīng)用場(chǎng)景適用性等評(píng)估。
應(yīng)用前,評(píng)估現(xiàn)有模型的性能水平
應(yīng)用中,評(píng)估算法模型與實(shí)際業(yè)務(wù)需求的匹配程度
應(yīng)用后,跟進(jìn)模型使用效果,制定改進(jìn)方案
落地 三種主要模式
端側(cè) 部署模式
部署位置:用戶終端設(shè)備,如智能手機(jī)、個(gè)人電腦或?qū)I(yè)工作站。
主要優(yōu)點(diǎn):實(shí)現(xiàn)高度個(gè)性化的用戶體驗(yàn),最小化數(shù)據(jù)傳輸延遲。
適用場(chǎng)景:對(duì)隱私保護(hù)和實(shí)時(shí)性極高,如離線語(yǔ)音識(shí)別、即時(shí)翻譯和全知個(gè)人助理等。
邊緣 計(jì)算模式
部署位置:接近用戶的邊緣服務(wù)器。
主要優(yōu)點(diǎn):融合云計(jì)算強(qiáng)處理能力與端側(cè)低延遲特性。
適用場(chǎng)景:適合處理計(jì)算和數(shù)據(jù)要求高、需快速響應(yīng)的應(yīng)用。
其它優(yōu)點(diǎn):減少數(shù)據(jù)遠(yuǎn)端云傳輸,降低帶寬需求,提升數(shù)據(jù)安全性。
云平臺(tái) 服務(wù)模式
部署位置:云端基礎(chǔ)設(shè)施。
主要優(yōu)點(diǎn):存儲(chǔ)和計(jì)算資源充足,支持復(fù)雜算法及大量數(shù)據(jù)處理;升級(jí)維護(hù)靈活,訪問(wèn)便利。
風(fēng)險(xiǎn)問(wèn)題:網(wǎng)絡(luò)延遲、數(shù)據(jù)隱私問(wèn)題等。
應(yīng)對(duì)方式:系統(tǒng)設(shè)計(jì)和改進(jìn)策略。
大模型設(shè)施 安全風(fēng)險(xiǎn)框架
落地安全 防護(hù)構(gòu)架
基于合規(guī)框架和技術(shù)風(fēng)險(xiǎn)矩陣,可分為三個(gè)層次:
底層(運(yùn)行環(huán)境):
保障基礎(chǔ)設(shè)施安全,涵蓋通信網(wǎng)絡(luò)、區(qū)域邊界、計(jì)算環(huán)境、云及容器的安全設(shè)計(jì)與實(shí)現(xiàn)。
中層(技術(shù)與管理):
技術(shù)上實(shí)現(xiàn)供應(yīng)鏈安全、數(shù)據(jù)安全、運(yùn)營(yíng)安全三類關(guān)鍵業(yè)務(wù)安全場(chǎng)景;管理上完成合規(guī)評(píng)估備案,納入組織機(jī)構(gòu)總體風(fēng)險(xiǎn)管理、安全監(jiān)測(cè)預(yù)警及應(yīng)急響應(yīng)框架。
頂層(目標(biāo)):
實(shí)現(xiàn)基座、模型、數(shù)據(jù)與算法、運(yùn)行的安全技術(shù)目標(biāo),以及模型風(fēng)險(xiǎn)可控、合法合規(guī)的管理目標(biāo)。
安全落地 技術(shù)方案
落地的 安全性
(1)內(nèi)生安全防御
1 ) 數(shù)據(jù)安全防御
大模型數(shù)據(jù)隱私保護(hù):數(shù)據(jù)脫敏、數(shù)據(jù)匿名化、數(shù)據(jù)加密
大模型分布式訓(xùn)練:聯(lián)邦學(xué)習(xí)和區(qū)塊鏈技術(shù)
2 ) 模型安全防御
大模型越獄防御:模型生成優(yōu)化、系統(tǒng)提示優(yōu)化、輸入輸出檢測(cè)
提示語(yǔ)泄露防御:輸入檢測(cè)、輸入處理、輸出處理
硬件層面防御:涵蓋漏洞修復(fù)防范技術(shù)、被動(dòng)檢測(cè)防范技術(shù)和主動(dòng)防范技術(shù)。防范對(duì)模型存儲(chǔ)介質(zhì)的威脅。
軟件層面防御:涵蓋用戶數(shù)據(jù)防范技術(shù) 、模型數(shù)據(jù)防范技術(shù)。防范對(duì)用戶及模型數(shù)據(jù)的威脅。
框架層面防御:深度學(xué)習(xí)框架及其依賴的大規(guī)模第三方軟件包漏洞會(huì)威脅模型安全。防范對(duì)深度學(xué)習(xí)框架及依賴庫(kù)的威脅。
操作系統(tǒng)層面防御:涵蓋訪問(wèn)控制防范技術(shù)、加密防范技術(shù) 與其他防范技術(shù)。防范對(duì)操作系統(tǒng)調(diào)度過(guò)程的威脅。
網(wǎng)絡(luò)傳輸層面防御:涵蓋端設(shè)備地址防范技術(shù)、傳輸路徑防范技術(shù)、網(wǎng)絡(luò)服務(wù)防范技術(shù)。從網(wǎng)絡(luò)安全角度保障生成式 AI 安全。
(2)外生安全防御
1 ) 面向隱私安全攻擊的防御:
包含對(duì)抗訓(xùn)練、提示工程策略,正則化、Dropout、數(shù)據(jù)增強(qiáng)、差分隱私、隱私風(fēng)險(xiǎn)檢測(cè)、生成內(nèi)容過(guò)濾審查等技術(shù)。
2 ) 針對(duì)毒化數(shù)據(jù)的防御:
采用數(shù)據(jù)溯源和對(duì)齊技術(shù)。
發(fā)展高級(jí)對(duì)抗算法(用復(fù)雜數(shù)據(jù)分析識(shí)別異常模式、開(kāi)發(fā)自動(dòng)排除或修正此類數(shù)據(jù)的機(jī)制)。
構(gòu)建統(tǒng)一安全風(fēng)險(xiǎn)防御策略:針對(duì)多模態(tài)數(shù)據(jù)(對(duì)文本、圖像、聲音等)。
3 ) 面向惡意后門的防御
檢查神經(jīng)元激活特征,識(shí)別并消除可能被惡意操縱的神經(jīng)元。
通過(guò)模型微調(diào)和再訓(xùn)練清除后門。
持續(xù)監(jiān)控和定期安全評(píng)估。
4 ) 針對(duì)提示注入攻擊的防御
常用防御技術(shù):對(duì)抗訓(xùn)練,即迭代收集攻擊樣本,通過(guò)指令微調(diào)等優(yōu)化模型,使其能以拒絕等方式應(yīng)對(duì)新型惡意提示。
注意事項(xiàng):過(guò)于保守的防御策略會(huì)影響內(nèi)容多樣性和趣味性。
(3)衍生安全防御
1 ) 偏見(jiàn)和毒性內(nèi)容生成風(fēng)險(xiǎn)防范
預(yù)訓(xùn)練數(shù)據(jù)排毒
基于強(qiáng)化學(xué)習(xí)的對(duì)齊
推理階段的安全風(fēng)險(xiǎn)防控
2 ) 虛假新聞防范
大模型直接識(shí)別
微調(diào)的 AIGC 文本檢測(cè)模型識(shí)別
依據(jù)困惑度與可信度
基于事實(shí)核查的虛假新聞檢測(cè)關(guān)鍵技術(shù):
聲明檢測(cè)
證據(jù)檢索
聲明核查
3 ) 版權(quán)侵犯風(fēng)險(xiǎn)防范
面向 AI 訓(xùn)練數(shù)據(jù)安全的水印技術(shù):后門攻擊。
面向 AI 生成內(nèi)容溯源的水印技術(shù):
數(shù)字水印技術(shù)
快速微調(diào)技術(shù)
有效水印提取技術(shù)
4 ) 電信詐騙風(fēng)險(xiǎn)防范
深度偽造檢測(cè)技術(shù):
基于空間域信號(hào)
基于頻域
基于生物信號(hào)
深度偽造主動(dòng)防御技術(shù):
基于主動(dòng)干擾
基于主動(dòng)取證
落地的 可靠性
(1)大模型的對(duì)抗魯棒性
數(shù)據(jù)增強(qiáng):針對(duì)不同內(nèi)容模態(tài)設(shè)計(jì)策略以提升訓(xùn)練樣本多樣性。
訓(xùn)練優(yōu)化:跨模態(tài)數(shù)據(jù)構(gòu)建針對(duì)性對(duì)齊 loss 訓(xùn)練;采用預(yù)設(shè)攻擊函數(shù)對(duì)樣本變換進(jìn)行對(duì)抗訓(xùn)練。
增強(qiáng)用戶指令精細(xì)理解力,檢測(cè)攻擊誘導(dǎo)意圖并前置干預(yù)。
(2)大模型的真實(shí)性
幻覺(jué)主要緩解方案:
訓(xùn)練階段改進(jìn):涉及預(yù)訓(xùn)練、微調(diào)等所有模型參數(shù)更新。
推理階段干預(yù):根據(jù)用戶輸入生成回復(fù)時(shí)進(jìn)行干預(yù)。
提示語(yǔ)優(yōu)化:通過(guò)優(yōu)化提示語(yǔ)提升生成效果。
輸出后處理:對(duì)初步生成文本進(jìn)一步編輯、修改。
結(jié)合外部知識(shí)檢索:結(jié)合外部知識(shí)源的信息檢索單元加強(qiáng)生成質(zhì)量。
多智能體交互:引入多個(gè)大語(yǔ)言模型參與生成過(guò)程。
(3)大模型的價(jià)值對(duì)齊
1 ) 基礎(chǔ)優(yōu)化手段:
清洗訓(xùn)練樣本中的 " 毒性 " 數(shù)據(jù)
引入基于強(qiáng)化學(xué)習(xí)的對(duì)齊技術(shù)
2 ) 基于人類偏好的強(qiáng)化學(xué)習(xí)技術(shù)(RLHF):
包含三個(gè)子階段:
指令微調(diào)
獎(jiǎng)勵(lì)模型訓(xùn)練
生成策略優(yōu)化
3 ) 基于 AI 反饋的強(qiáng)化學(xué)習(xí)技術(shù)(RLAIF):
特點(diǎn):用 LLM 代替人類標(biāo)記偏好,對(duì)齊效果有限。
優(yōu)化方向:結(jié)合人工反饋,兼顧成本與模型效果。
落地的 可控性
(1)大模型的可解釋性
基于過(guò)程信息的解釋性
基于 CoT(思維鏈)提示的解釋性
基于模型內(nèi)生的機(jī)制可解釋性
(2)大模型的可標(biāo)識(shí)和可追溯
數(shù)字水印追溯
AIGC 檢測(cè)技術(shù)
(3)大模型的指令遵循
監(jiān)督微調(diào)
強(qiáng)化學(xué)習(xí)
指令優(yōu)化
落地 安全測(cè)評(píng)
(1)試題的全面性:
要求:安全評(píng)估需覆蓋多模態(tài)和各種應(yīng)用場(chǎng)景,且評(píng)測(cè)試題需全面覆蓋可能的安全問(wèn)題類型。
(2)對(duì)抗樣本的多樣性:
方法:在已有試題基礎(chǔ)上通過(guò)生成算法構(gòu)建多樣化測(cè)試樣本。
(3)評(píng)估研判的自動(dòng)化:
新方向:
基于商業(yè)化大模型服務(wù)構(gòu)建研判策略,但存在成本高、數(shù)據(jù)隱私、可控性差等問(wèn)題。
構(gòu)建專用研判大模型
私域安全部署 全流程示例
以下內(nèi)容僅供參考
具體需根據(jù)實(shí)際情況進(jìn)行調(diào)整和優(yōu)化
獲取完整版
請(qǐng)文未評(píng)價(jià)留言
大模型 安全評(píng)估
網(wǎng)絡(luò)安全運(yùn)營(yíng) 大模型
參考架構(gòu)與賦能
其它場(chǎng)景及應(yīng)用 案例
參考資料:《大模型落地路線圖研究報(bào)告》《大模型安全實(shí)踐白皮書(shū)》《私有化部署必看 ! 大模型設(shè)施的安全風(fēng)險(xiǎn)框架和防護(hù)方案》《專題 · 人工智能安全 | 大模型安全風(fēng)險(xiǎn)分析與防護(hù)架構(gòu)》《超云 2025 私域大模型部署白皮書(shū)》《生成式大模型安全評(píng)估白皮書(shū)》《工業(yè)大模型白皮書(shū)》《金融行業(yè)大模型應(yīng)用探索與實(shí)踐》《網(wǎng)絡(luò)安全運(yùn)營(yíng)大模型參考架構(gòu)》《大模型安全研究報(bào)告》
來(lái)源:重慶信通設(shè)計(jì)院天空實(shí)驗(yàn)室