大家好,我是展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。
图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG
我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。
展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。
文章目录
- 引言
- 一、为什么GPU越来越强,推理却没有线性增长
- 二、推理系统到底在消耗什么资源
- 第一部分
- 第二部分
- 第三部分
- 第四部分
- 三、为什么CPU开始重新变得重要
- 四、KV Cache让CPU和GPU重新绑定
- 五、PagedAttention为什么改变行业
- 六、MoE为什么天然适合异构架构
- 七、Agent时代最重要的是Runtime协同
- 八、未来推理优化将从GPU优化变成系统优化
- 九、未来数据中心会从GPU中心转向异构中心
- CPU 负责:
- GPU 负责:
- DPU 负责:
- NPU 负责:
- 十、异构协同正在成为AI基础设施的新范式
- 第一阶段
- 第二阶段
- 第三阶段
- 总结
引言
过去几年,AI 基础设施领域有一个非常普遍的认知:
GPU决定AI能力于是整个行业的关注点几乎都集中在:
更强GPU 更大显存 更高带宽演进之路是:
V100 A100 H100 B200 GB200很多企业建设 AI 平台时,最先关注的往往也是:
买多少GPU但随着大模型逐渐进入生产环境,一个越来越现实的问题开始出现:
GPU越来越强 推理效率却没有同步提升很多团队会发现:
GPU利用率只有30% ~50%而与此同时:
CPU已经满载甚至出现的现象是:
GPU等待CPU于是行业开始意识到:
AI推理的瓶颈,已经不再只是GPU。
而是:
CPU + GPU + Memory + Network + Runtime共同构成的系统问题,换句话说:
未来AI推理优化,本质上是一场异构协同优化。
而不是单纯的 GPU 优化。
一、为什么GPU越来越强,推理却没有线性增长
很多人理想中的推理过程是:
Prompt ↓ GPU ↓ Answer似乎 GPU 就完成了全部工作,但真实系统里实际上是:
Request ↓ CPU解析 ↓ Token预处理 ↓ GPU推理 ↓ CPU后处理 ↓ 返回结果例如:
tokens=tokenizer.encode(prompt)gpu.forward(tokens)result=tokenizer.decode(output)这里:
Tokenizer本身就运行在 CPU,而且随着上下文越来越长:
32K 128K 1M ContextCPU 开销也越来越大,因此很多场景下:
GPU不是瓶颈 CPU才是瓶颈二、推理系统到底在消耗什么资源
很多人认为:
推理 = 矩阵计算实际上现代 AI 推理包含四部分。
第一部分
Pre-processing例如:
tokenizer.encode()prompt.build()template.render()全部由 CPU 完成。
第二部分
Inference例如:
attention()matmul()ffn()主要由 GPU 执行。
第三部分
Post-processing例如:
tokenizer.decode()json.parse()response.format()依然属于 CPU 工作。
第四部分
Runtime Scheduling例如:
queue.schedule()batch.merge()cache.route()同样由 CPU 控制,所以真正的推理链路其实是:
CPU ↓ GPU ↓ CPU ↓ Runtime而不是:
GPU ↓ GPU ↓ GPU三、为什么CPU开始重新变得重要
训练时代:
GPU负责99%CPU更多是辅助角色,但Agent时代出现以后:
任务复杂度远远超过:
模型复杂度例如,一个企业Agent收到请求:
分析本月销售情况实际执行流程可能是:
crm.query()erp.query()report.build()llm.reason()email.send()这里真正使用 GPU 的时间可能只有:
llm.reason()其余大量时间消耗在:
IO 调度 缓存 状态管理这些全部属于:
CPU领域于是:
未来Agent越多,CPU越重要。
四、KV Cache让CPU和GPU重新绑定
长上下文出现以后,行业开始遇到新的问题:
KV Cache越来越大例如:
8K 32K 128K 1M上下文增长时:
KV Cache也同步增长,很多时候:
显存根本装不下于是开始出现:
CPU Memory + GPU Memory协同管理模式,例如:
hot_cache->GPU cold_cache->CPU当访问历史内容时:
load_to_gpu()动态迁移,这本质上就是:
Memory Tiering即:
分层内存架构未来越来越重要。
五、PagedAttention为什么改变行业
过去:
KV Cache通常连续存储,结果导致:
显存碎片越来越严重,于是出现:
PagedAttention核心思想类似:
操作系统分页机制例如:
Page1 Page2 Page3按需加载,这样:
GPU负责热点数据 CPU负责冷数据实现:
CPU + GPU协同管理上下文,很多人认为:
PagedAttention只是推理优化,其实背后反映的是:
AI系统越来越像操作系统。
六、MoE为什么天然适合异构架构
Dense Model:
全部参数参与计算而:
MoE则是:
只激活部分专家例如:
router()expert_1()expert_7()这里:
Router通常属于:
CPU调度逻辑而:
Expert属于:
GPU计算逻辑形成:
CPU负责决策 GPU负责执行未来超大规模 MoE 系统,越来越像:
分布式调度系统而不只是:
神经网络七、Agent时代最重要的是Runtime协同
过去推理:
一次请求 一次响应现在推理变成:
持续运行例如:
whileTrue:observe()reason()act()这时候:
CPU负责事件循环例如:
event_loop.run()GPU负责:
model.forward()两者不断交替,形成:
CPU ↔ GPU持续协同模式,这也是为什么:
Agent Runtime开始成为行业热点。
八、未来推理优化将从GPU优化变成系统优化
过去优化思路:
优化Kernel 优化CUDA 优化Attention未来优化思路:
优化调度 优化缓存 优化网络 优化内存例如:
scheduler.batch()memory.pool()cache.prefetch()很多时候:
减少一次数据搬运带来的收益甚至超过:
提升10% FLOPS因为:
系统效率已经开始超过:
计算效率成为主要瓶颈。
九、未来数据中心会从GPU中心转向异构中心
过去数据中心架构:
CPU ↓ GPU Cluster未来可能变成:
CPU + GPU + DPU + NPU + HBM Pool例如:
CPU 负责:
控制流GPU 负责:
计算流DPU 负责:
网络流NPU 负责:
边缘推理形成:
Heterogeneous Fabric即:
异构算力网络未来比拼的已经不是:
单个GPU而是:
整个系统协同效率十、异构协同正在成为AI基础设施的新范式
回顾AI发展路径。
第一阶段
Compute Era关注:
GPU有多强第二阶段
Model Era关注:
模型有多强第三阶段
Agent Era关注:
系统有多强因为未来真正限制AI的,越来越不是:
算不出来而是:
调不起来不是:
GPU不够而是:
资源协同效率不够总结
很多人还在讨论:
下一代GPU但未来几年,行业最重要的问题可能已经变成:
CPU如何协同GPU?因为现代AI推理已经不再是:
一次矩阵计算而是:
推理 + 缓存 + 调度 + 通信 + 状态管理组成的复杂系统,未来真正先进的AI平台,比拼的不会只是:
FLOPS而是:
CPU调度能力 GPU计算能力 Memory管理能力 Runtime协同能力共同构成的整体效率,从这个角度看,
异构协同不是推理优化的一部分。
而是:
智能体时代 AI 基础设施的核心设计原则。
未来的 AI 数据中心,本质上不再是一堆 GPU。
而是一套持续运行、动态协同、自主调度的智能计算系统。