异构协同，算力重构：CPU+GPU架构下的AI推理优化-二趣网

网罗开发（小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员
👋 大家好，我是展菲！
📱 全网搜索“展菲”，即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

文章目录

- 引言
- 一、为什么GPU越来越强，推理却没有线性增长
- 二、推理系统到底在消耗什么资源
- - 第一部分
  - 第二部分
  - 第三部分
  - 第四部分
- 三、为什么CPU开始重新变得重要
- 四、KV Cache让CPU和GPU重新绑定
- 五、PagedAttention为什么改变行业
- 六、MoE为什么天然适合异构架构
- 七、Agent时代最重要的是Runtime协同
- 八、未来推理优化将从GPU优化变成系统优化
- 九、未来数据中心会从GPU中心转向异构中心
- - CPU 负责：
  - GPU 负责：
  - DPU 负责：
  - NPU 负责：
- 十、异构协同正在成为AI基础设施的新范式
- - 第一阶段
  - 第二阶段
  - 第三阶段
- 总结

引言

过去几年，AI 基础设施领域有一个非常普遍的认知：

GPU决定AI能力

于是整个行业的关注点几乎都集中在：

更强GPU 更大显存 更高带宽

演进之路是：

V100 A100 H100 B200 GB200

很多企业建设 AI 平台时，最先关注的往往也是：

买多少GPU

但随着大模型逐渐进入生产环境，一个越来越现实的问题开始出现：

GPU越来越强 推理效率却没有同步提升

很多团队会发现：

GPU利用率只有30% ~50%

而与此同时：

CPU已经满载

甚至出现的现象是：

GPU等待CPU

于是行业开始意识到：

AI推理的瓶颈，已经不再只是GPU。

而是：

CPU + GPU + Memory + Network + Runtime

共同构成的系统问题，换句话说：

未来AI推理优化，本质上是一场异构协同优化。

而不是单纯的 GPU 优化。

一、为什么GPU越来越强，推理却没有线性增长

很多人理想中的推理过程是：

Prompt ↓ GPU ↓ Answer

似乎 GPU 就完成了全部工作，但真实系统里实际上是：

Request ↓ CPU解析 ↓ Token预处理 ↓ GPU推理 ↓ CPU后处理 ↓ 返回结果

例如：

tokens=tokenizer.encode(prompt)gpu.forward(tokens)result=tokenizer.decode(output)

这里：

Tokenizer

本身就运行在 CPU，而且随着上下文越来越长：

32K 128K 1M Context

CPU 开销也越来越大，因此很多场景下：

GPU不是瓶颈 CPU才是瓶颈

二、推理系统到底在消耗什么资源

很多人认为：

推理 = 矩阵计算

实际上现代 AI 推理包含四部分。

第一部分

Pre-processing

例如：

tokenizer.encode()prompt.build()template.render()

全部由 CPU 完成。

第二部分

Inference

例如：

attention()matmul()ffn()

主要由 GPU 执行。

第三部分

Post-processing

例如：

tokenizer.decode()json.parse()response.format()

依然属于 CPU 工作。

第四部分

Runtime Scheduling

例如：

queue.schedule()batch.merge()cache.route()

同样由 CPU 控制，所以真正的推理链路其实是：

CPU ↓ GPU ↓ CPU ↓ Runtime

而不是：

GPU ↓ GPU ↓ GPU

三、为什么CPU开始重新变得重要

训练时代：

GPU负责99%

CPU更多是辅助角色，但Agent时代出现以后：

任务复杂度

远远超过：

模型复杂度

例如，一个企业Agent收到请求：

分析本月销售情况

实际执行流程可能是：

crm.query()erp.query()report.build()llm.reason()email.send()

这里真正使用 GPU 的时间可能只有：

llm.reason()

其余大量时间消耗在：

IO 调度 缓存 状态管理

这些全部属于：

CPU领域

于是：

未来Agent越多，CPU越重要。

四、KV Cache让CPU和GPU重新绑定

长上下文出现以后，行业开始遇到新的问题：

KV Cache越来越大

例如：

8K 32K 128K 1M

上下文增长时：

KV Cache

也同步增长，很多时候：

显存根本装不下

于是开始出现：

CPU Memory + GPU Memory

协同管理模式，例如：

hot_cache->GPU cold_cache->CPU

当访问历史内容时：

load_to_gpu()

动态迁移，这本质上就是：

Memory Tiering

即：

分层内存架构

未来越来越重要。

五、PagedAttention为什么改变行业

过去：

KV Cache

通常连续存储，结果导致：

显存碎片

越来越严重，于是出现：

PagedAttention

核心思想类似：

操作系统分页机制

例如：

Page1 Page2 Page3

按需加载，这样：

GPU负责热点数据 CPU负责冷数据

实现：

CPU + GPU

协同管理上下文，很多人认为：

PagedAttention

只是推理优化，其实背后反映的是：

AI系统越来越像操作系统。

六、MoE为什么天然适合异构架构

Dense Model：

全部参数参与计算

而：

MoE

则是：

只激活部分专家

例如：

router()expert_1()expert_7()

这里：

Router

通常属于：

CPU调度逻辑

而：

Expert

属于：

GPU计算逻辑

形成：

CPU负责决策 GPU负责执行

未来超大规模 MoE 系统，越来越像：

分布式调度系统

而不只是：

神经网络

七、Agent时代最重要的是Runtime协同

过去推理：

一次请求 一次响应

现在推理变成：

持续运行

例如：

whileTrue:observe()reason()act()

这时候：

CPU负责事件循环

例如：

event_loop.run()

GPU负责：

model.forward()

两者不断交替，形成：

CPU ↔ GPU

持续协同模式，这也是为什么：

Agent Runtime

开始成为行业热点。

八、未来推理优化将从GPU优化变成系统优化

过去优化思路：

优化Kernel 优化CUDA 优化Attention

未来优化思路：

优化调度 优化缓存 优化网络 优化内存

例如：

scheduler.batch()memory.pool()cache.prefetch()

很多时候：

减少一次数据搬运

带来的收益甚至超过：

提升10% FLOPS

因为：

系统效率

已经开始超过：

计算效率

成为主要瓶颈。

九、未来数据中心会从GPU中心转向异构中心

过去数据中心架构：

CPU ↓ GPU Cluster

未来可能变成：

CPU + GPU + DPU + NPU + HBM Pool

例如：

CPU 负责：

控制流

GPU 负责：

计算流

DPU 负责：

网络流

NPU 负责：

边缘推理

形成：

Heterogeneous Fabric

即：

异构算力网络

未来比拼的已经不是：

单个GPU

而是：

整个系统协同效率

十、异构协同正在成为AI基础设施的新范式

回顾AI发展路径。

第一阶段

Compute Era

关注：

GPU有多强

第二阶段

Model Era

关注：

模型有多强

第三阶段

Agent Era

关注：

系统有多强

因为未来真正限制AI的，越来越不是：

算不出来

而是：

调不起来

不是：

GPU不够

而是：

资源协同效率不够

总结

很多人还在讨论：

下一代GPU

但未来几年，行业最重要的问题可能已经变成：

CPU如何协同GPU？

因为现代AI推理已经不再是：

一次矩阵计算

而是：

推理 + 缓存 + 调度 + 通信 + 状态管理

组成的复杂系统，未来真正先进的AI平台，比拼的不会只是：

FLOPS

而是：

CPU调度能力 GPU计算能力 Memory管理能力 Runtime协同能力

共同构成的整体效率，从这个角度看，

异构协同不是推理优化的一部分。

而是：

智能体时代 AI 基础设施的核心设计原则。

未来的 AI 数据中心，本质上不再是一堆 GPU。

而是一套持续运行、动态协同、自主调度的智能计算系统。

企业官网建设流程全解析

文章目录

引言

一、为什么GPU越来越强，推理却没有线性增长

二、推理系统到底在消耗什么资源

第一部分

第二部分

第三部分

第四部分

三、为什么CPU开始重新变得重要

四、KV Cache让CPU和GPU重新绑定

五、PagedAttention为什么改变行业

六、MoE为什么天然适合异构架构

七、Agent时代最重要的是Runtime协同

八、未来推理优化将从GPU优化变成系统优化

九、未来数据中心会从GPU中心转向异构中心

CPU 负责：

GPU 负责：

DPU 负责：

NPU 负责：

十、异构协同正在成为AI基础设施的新范式

第一阶段

第二阶段

第三阶段

总结

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

文章目录

引言

一、为什么GPU越来越强，推理却没有线性增长

二、推理系统到底在消耗什么资源

第一部分

第二部分

第三部分

第四部分

三、为什么CPU开始重新变得重要

四、KV Cache让CPU和GPU重新绑定

五、PagedAttention为什么改变行业

六、MoE为什么天然适合异构架构

七、Agent时代最重要的是Runtime协同

八、未来推理优化将从GPU优化变成系统优化

九、未来数据中心会从GPU中心转向异构中心

CPU 负责：

GPU 负责：

DPU 负责：

NPU 负责：

十、异构协同正在成为AI基础设施的新范式

第一阶段

第二阶段

第三阶段

总结

热门文章

文章分类

标签云

相关文章

UFLO Java流程引擎架构解密：企业级工作流技术深度剖析

LSPatch终极指南：5步快速掌握安卓免Root模块化改造

7个颠覆性ComfyUI中文工作流：从AI绘图新手到专家的进阶之路

需要专业的网站建设服务？