8 月 12 日,華為正式發(fā)布 AI 推理創(chuàng)新技術(shù) UCM(推理記憶數(shù)據(jù)管理器)。據(jù)了解,作為一款以 KV Cache 為中心的推理加速套件,UCM 融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的 KV Cache 記憶數(shù)據(jù),可擴大推理上下文窗口,實現(xiàn)高吞吐、低時延的推理體驗,降低每 Token 推理成本。該技術(shù)已率先在中國銀聯(lián) " 客戶之聲 "" 營銷策劃 "" 辦公助手 " 三大業(yè)務(wù)場景中,開展智慧金融 AI 推理加速應(yīng)用試點,并已取得成果。此外,華為計劃于 2025 年 9 月正式開源 UCM,屆時將在魔擎社區(qū)首發(fā)。(證券時報)
36氪
13分鐘前