异构协同,算力重构:CPU+GPU架构下的AI推理优化
2026/6/6 15:51:59 网站建设 项目流程

网罗开发(小红书、快手、视频号同名)

大家好,我是展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG

我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。


文章目录

    • 引言
    • 一、为什么GPU越来越强,推理却没有线性增长
    • 二、推理系统到底在消耗什么资源
      • 第一部分
      • 第二部分
      • 第三部分
      • 第四部分
    • 三、为什么CPU开始重新变得重要
    • 四、KV Cache让CPU和GPU重新绑定
    • 五、PagedAttention为什么改变行业
    • 六、MoE为什么天然适合异构架构
    • 七、Agent时代最重要的是Runtime协同
    • 八、未来推理优化将从GPU优化变成系统优化
    • 九、未来数据中心会从GPU中心转向异构中心
      • CPU 负责:
      • GPU 负责:
      • DPU 负责:
      • NPU 负责:
    • 十、异构协同正在成为AI基础设施的新范式
      • 第一阶段
      • 第二阶段
      • 第三阶段
    • 总结

引言

过去几年,AI 基础设施领域有一个非常普遍的认知:

GPU决定AI能力

于是整个行业的关注点几乎都集中在:

更强GPU 更大显存 更高带宽

演进之路是:

V100 A100 H100 B200 GB200

很多企业建设 AI 平台时,最先关注的往往也是:

买多少GPU

但随着大模型逐渐进入生产环境,一个越来越现实的问题开始出现:

GPU越来越强 推理效率却没有同步提升

很多团队会发现:

GPU利用率只有30% ~50%

而与此同时:

CPU已经满载

甚至出现的现象是:

GPU等待CPU

于是行业开始意识到:

AI推理的瓶颈,已经不再只是GPU。

而是:

CPU + GPU + Memory + Network + Runtime

共同构成的系统问题,换句话说:

未来AI推理优化,本质上是一场异构协同优化。

而不是单纯的 GPU 优化。

一、为什么GPU越来越强,推理却没有线性增长

很多人理想中的推理过程是:

Prompt ↓ GPU ↓ Answer

似乎 GPU 就完成了全部工作,但真实系统里实际上是:

Request ↓ CPU解析 ↓ Token预处理 ↓ GPU推理 ↓ CPU后处理 ↓ 返回结果

例如:

tokens=tokenizer.encode(prompt)gpu.forward(tokens)result=tokenizer.decode(output)

这里:

Tokenizer

本身就运行在 CPU,而且随着上下文越来越长:

32K 128K 1M Context

CPU 开销也越来越大,因此很多场景下:

GPU不是瓶颈 CPU才是瓶颈

二、推理系统到底在消耗什么资源

很多人认为:

推理 = 矩阵计算

实际上现代 AI 推理包含四部分。

第一部分

Pre-processing

例如:

tokenizer.encode()prompt.build()template.render()

全部由 CPU 完成。

第二部分

Inference

例如:

attention()matmul()ffn()

主要由 GPU 执行。

第三部分

Post-processing

例如:

tokenizer.decode()json.parse()response.format()

依然属于 CPU 工作。

第四部分

Runtime Scheduling

例如:

queue.schedule()batch.merge()cache.route()

同样由 CPU 控制,所以真正的推理链路其实是:

CPU ↓ GPU ↓ CPU ↓ Runtime

而不是:

GPU ↓ GPU ↓ GPU

三、为什么CPU开始重新变得重要

训练时代:

GPU负责99%

CPU更多是辅助角色,但Agent时代出现以后:

任务复杂度

远远超过:

模型复杂度

例如,一个企业Agent收到请求:

分析本月销售情况

实际执行流程可能是:

crm.query()erp.query()report.build()llm.reason()email.send()

这里真正使用 GPU 的时间可能只有:

llm.reason()

其余大量时间消耗在:

IO 调度 缓存 状态管理

这些全部属于:

CPU领域

于是:

未来Agent越多,CPU越重要。

四、KV Cache让CPU和GPU重新绑定

长上下文出现以后,行业开始遇到新的问题:

KV Cache越来越大

例如:

8K 32K 128K 1M

上下文增长时:

KV Cache

也同步增长,很多时候:

显存根本装不下

于是开始出现:

CPU Memory + GPU Memory

协同管理模式,例如:

hot_cache->GPU cold_cache->CPU

当访问历史内容时:

load_to_gpu()

动态迁移,这本质上就是:

Memory Tiering

即:

分层内存架构

未来越来越重要。

五、PagedAttention为什么改变行业

过去:

KV Cache

通常连续存储,结果导致:

显存碎片

越来越严重,于是出现:

PagedAttention

核心思想类似:

操作系统分页机制

例如:

Page1 Page2 Page3

按需加载,这样:

GPU负责热点数据 CPU负责冷数据

实现:

CPU + GPU

协同管理上下文,很多人认为:

PagedAttention

只是推理优化,其实背后反映的是:

AI系统越来越像操作系统。

六、MoE为什么天然适合异构架构

Dense Model:

全部参数参与计算

而:

MoE

则是:

只激活部分专家

例如:

router()expert_1()expert_7()

这里:

Router

通常属于:

CPU调度逻辑

而:

Expert

属于:

GPU计算逻辑

形成:

CPU负责决策 GPU负责执行

未来超大规模 MoE 系统,越来越像:

分布式调度系统

而不只是:

神经网络

七、Agent时代最重要的是Runtime协同

过去推理:

一次请求 一次响应

现在推理变成:

持续运行

例如:

whileTrue:observe()reason()act()

这时候:

CPU负责事件循环

例如:

event_loop.run()

GPU负责:

model.forward()

两者不断交替,形成:

CPU ↔ GPU

持续协同模式,这也是为什么:

Agent Runtime

开始成为行业热点。

八、未来推理优化将从GPU优化变成系统优化

过去优化思路:

优化Kernel 优化CUDA 优化Attention

未来优化思路:

优化调度 优化缓存 优化网络 优化内存

例如:

scheduler.batch()memory.pool()cache.prefetch()

很多时候:

减少一次数据搬运

带来的收益甚至超过:

提升10% FLOPS

因为:

系统效率

已经开始超过:

计算效率

成为主要瓶颈。

九、未来数据中心会从GPU中心转向异构中心

过去数据中心架构:

CPU ↓ GPU Cluster

未来可能变成:

CPU + GPU + DPU + NPU + HBM Pool

例如:

CPU 负责:

控制流

GPU 负责:

计算流

DPU 负责:

网络流

NPU 负责:

边缘推理

形成:

Heterogeneous Fabric

即:

异构算力网络

未来比拼的已经不是:

单个GPU

而是:

整个系统协同效率

十、异构协同正在成为AI基础设施的新范式

回顾AI发展路径。

第一阶段

Compute Era

关注:

GPU有多强

第二阶段

Model Era

关注:

模型有多强

第三阶段

Agent Era

关注:

系统有多强

因为未来真正限制AI的,越来越不是:

算不出来

而是:

调不起来

不是:

GPU不够

而是:

资源协同效率不够

总结

很多人还在讨论:

下一代GPU

但未来几年,行业最重要的问题可能已经变成:

CPU如何协同GPU?

因为现代AI推理已经不再是:

一次矩阵计算

而是:

推理 + 缓存 + 调度 + 通信 + 状态管理

组成的复杂系统,未来真正先进的AI平台,比拼的不会只是:

FLOPS

而是:

CPU调度能力 GPU计算能力 Memory管理能力 Runtime协同能力

共同构成的整体效率,从这个角度看,

异构协同不是推理优化的一部分。

而是:

智能体时代 AI 基础设施的核心设计原则。

未来的 AI 数据中心,本质上不再是一堆 GPU。

而是一套持续运行、动态协同、自主调度的智能计算系统。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询