8月12日,华为发布了AI推理创新技术UCM(推理记忆数据管理器 ,Unified Cache Manager)。
简单来说,这是专门面向大模型推理过程的“缓存管理技术”,目的是为了优化推理速度 、效率和成本 。
具体来看 ,UCM是一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口 ,以实现高吞吐、低时延的推理体验,降低每Token推理成本。
现场,华为公司副总裁、数据存储产品线总裁周跃峰表示 ,UCM推理记忆数据管理器旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时 ,华为联手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果 。
UCM是什么
对于上述颇多术语的介绍,我们来拆解一下。
首先 ,什么是KV Cache?
据了解,KV Cache是一种用于优化Transformer等模型推理速度的技术,它的核心思想就是把历史 token的Key和Value(矩阵)缓存下来 ,下次生成时直接用,避免重新算,从而提升推理速度 、降低计算成本。代价是会占用更多内存,所以它是一种“用内存换计算 ”的工程优化手段。
换言之 ,KV Cache是一种存储机制,打个比方,就像是“模型推理过程中的记忆本” ,用来临时保存计算中间结果,让后续步骤少做重复工作 。
那么为什么要推出UCM?因为推理过程中仍存在不少痛点。
随着AI产业已从“追求模型能力的极限” 转向“追求推理体验的最优化 ”,推理体验直接关联用户满意度、商业可行性等。推理体验直接关系到用户与AI交互时的感受 ,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面 。
资料显示,国外主流模型的单用户输出速度已进入 200 Tokens/s区间(时延 5 ms),而我国普遍小于60 Tokens/s(时延50 – 100 ms) ,因此,如何解决推理效率与用户体验的难题迫在眉睫。目前,包括华为在内 ,各大科技企业都会在调度KV Cache基础上,研发优化推理过程的技术。
华为最新的UCM就引入融合了更多的算法工具,可以对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator) 、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同 ,实现AI推理“更优体验 、更低成本” 。
比如,华为介绍道,依托UCM层级化自适应的全局前缀缓存技术 ,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。
据悉 ,在华为与中国银联的联合创新技术试点中,中国银联“客户之声”业务场景下,借助UCM技术及工程化手段 ,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进服务质量提升。
为何率先在金融行业应用?金融业天然有数字化属性 ,也是数字化最早的领域之一,因此金融行业率先落地有数据基础和技术需求,尤其是生成式AI浪潮中,如何用好大模型服务业务是重要课题 。同时金融对速度、效率、安全 、可靠性等要求高 ,也是验证技术的标杆场景。
未来,中国银联将依托国家人工智能应用中试基地,联合华为等生态伙伴共建“AI+金融”示范应用 ,推动技术成果从“实验室验证 ”走向“规模化应用”。
华为的差异化路径
谈及UCM的差异化,华为数据存储产品线AI存储首席架构师向21世纪经济报道记者表示,当前 ,业界在分级缓存管理方面已有许多探索与实践,华为UCM在这一领域的最大优势在于将专业存储能力引入其中,引入后在软硬件协同与卸载方面做了大量工作 ,例如直通加速、KV检索索引与底层文件系统元数据的融合等 。同时,在KV Cache生命周期管理方面,UCM具备预热、分级 、淘汰等一整套机制 ,这是UCM在N级缓存管理上的差异化能力之一。
其次,上述专家提到,在算法加速库方面,业界现有方案普遍只停留在Prefix Cache这一层面 ,并未像华为一样,将稀疏全流程算法、后缀检索算法等投入商用,也缺乏多样化的技术手段。相比之下 ,UCM在这一层贡献了更多、更丰富 、更可靠的算法,算法库还在不断扩展完善。
此外,UCM的体系更加完整 ,专家谈道,推理场景多种多样,请求的输入输出变化极大 ,而目前业界缺乏一套在各种场景下都能普适适用的框架、加速机制与算法 。UCM能够在各种长短序列、不同请求条件下,实现自动切换与自适应的平滑优化。
“华为希望通过将部分成果开放,促进框架厂商、存储厂商以及算力厂商共同加速这一框架机制的成熟 ,最终解决当前AI行业落地过程中的效率与成本问题。”专家说道 。
今天,华为还正式公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架 、算力及存储系统。今年9月,UCM将正式开源 ,后续逐步贡献给业界主流推理引擎社区,和全产业共同推动AI推理生态的繁荣发展 。
整体而言,一方面是华为在AI推理技术层面持续进行研发 ,UCM也是结合华为存储技术的积累进行创新;另一方面,在AI的布局上,华为继续在产业链的各个环节进行升级 ,实现系统性的提升。
业内人士指出,国外领先芯片厂商通过硬件迭代、软件优化、生态绑定构建了推理时代的“铁三角 ”,短期内难以被代替。中国单点硬件技术 ,如芯片设计上有所突破,但国产软件及生态适配还有差距,华为等科技厂商也在不断补上生态短板 。
正如华为专家所言:“大家一定要关注网络 、存储、端到端的系统性、成本降低 ,才能有效的去加速AI的落地。从单点的算力模组转向系统性优化,这是大趋势。”
股票软件中提示买卖点:散户新三板股票如何买卖交易-国内成品油价“三连涨” 加满一箱油多花9元
手机股票交易软件排名:散户新三板股票如何买卖交易-利空突袭!希荻微自曝或对韩国子公司失去控制 后者3名董事涉嫌窃取商业秘密
免费配资网站:股票杠杆怎么交易-股价暴涨!近60亿美元大订单 中国AI制药创下新纪录!A股高成长概念股稀缺
如何手机买卖股票:信托配资开户-6月美国前三大债主均增持美债 中国增持1亿美元
炒股杠杆交易是什么意思:手机买卖股票怎么开户-存款“搬家”信号初现 “00后”股民入市:行情热起来 感觉到处都是机会
手机如何买卖股票:在线炒股配资识-万斯“一票破局” 美参议院通过“大而美”法案 美议员怒斥“劫贫济富”!特朗普与马斯克“口水战”升级
广盛网app-低息配资开户平台|实现低利率并保持服务的高质量提示:文章来自网络,不代表本站观点。
广盛网app-低息配资开户平台|实现低利率并保持服务的高质量㉖合规的股票配资平台会加强对投资顾问的资质审核和持续培训,确保投资顾问具备专业的投资知识和经验。
界面新闻记者|李科文界面新闻编辑|谢欣2月18日,据港交所公告,真实生物已递表港交所主板。据招股书,中金...
特朗普宣布暂停“对等关税”90天,纳指隔夜暴涨超12%。今日(4月10日),A股三大指数集体高开,沪指涨1.29%,深证...
消息面上,4月9日消息,美国总统发表讲话称,美国将对药品征收关税。我国生物医药行业对美商品贸易以仿制药出口为主,国产创新...
中国商务部国际贸易谈判代表兼副部长李成钢10日晚在英国伦敦说,过去两天,中美双方团队进行了深入交流,就落实两国元首6...
7月15日有关部门召开钾肥保供稳价会议,骨干流通企业均认为近期钾肥价格异常上涨严重偏离基本面,后期将加强市场供应,推...
界面新闻记者|孙艺真3月21日晚间,沪深交易所发布《以上市公司质量为导向的保荐机构执业质量评价实施办法(试行...
近期美国所谓“对等关税”政策引发全球资产巨震,本周一科技板块调整尤为明显。为了稳定资本市场,汇金、央行等机构稳市打出组合...
记者王珍中国国际经济交流中心副理事长、国务院发展研究中心原副主任王一鸣周一在“中国发展高层论坛2025...
记者|张乔遇半导体前道设备的国产化进程一直备受关注。截至2023年末,前道量检测设备的国内企业市场份额约...
界面新闻记者|龙力近期,部分全天候策略私募产品净值出现了较为明显的回撤。Wind数据显示,名称中含有...
界面新闻记者|龙力开年两个多月,不少头部量化私募都在积极“上新”。Wind数据显示,截至3月17日,...
3月24日,海洋王照明科技股份有限公司(以下简称“海洋王”,002724.SZ)早盘一字跌停,此后股价拉涨,尾盘封涨停板...
记者|赵阳戈年初,证监会就修改《证券发行与承销管理办法》部分条款向社会公开征求意见,市场也将注意力投向了...
2025年3月25日,倍轻松(688793.SH)公告称,公司股东宁波倍松投资有限公司(简称“宁波倍松”)拟通过大宗交易...
2025年3月24日下午三点A股收盘后,港股科技板块持续走强至四点十分收盘。消息面上,一方面美元相对于人民币连续3个交易...