华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
- ·假院士阮少平骗局为何能得逞?受骗企业讲述中招细节
- ·竞彩大势:比尔森赢球可期 本菲卡主场称雄
- ·传输成本降低50%!东数西算工程这项技术取得突破
- ·刘谦自曝患癌!为何有人称这种癌为“幸运癌”?专家答疑→
- ·绿军官宣和马祖拉续约多年 NBA史上最年轻冠军主帅
- ·世界前十:斯鲍飙升到新高第六 罗斯夺冠升至第九
- ·打击证券造假力度加大 半年罚没款超去年全年
- ·百日千万招聘专项行动发布岗位1048.9万个
- ·圣裘德锦标赛罗斯加洞赢美巡第12冠 弗利特伍德T3
- ·新赛季西甲前瞻:巴萨皇马争锋 中游球队混战
- ·「文化中国行」“趣”中轴①|今天,听他们讲述中轴线的昨日与今时——
- ·东盟智运会云南越南棋手个人折桂 泰国队获团体冠军
- ·康耐登演绎胡桃至臻品质
- ·我国海水养殖业不断向深远海、机械化、智能化转变 助力“耕海牧渔”挺进深蓝
- ·@所有人 今天中元节,注意这件事!
- ·辜海燕、齐勇凯将担任巴黎残奥会开幕式中国代表团旗手