Linux 组调度与容器编排：Kubernetes 的 CPU 资源分配底层-二趣网

简介

在云原生生态高速落地的当下，Kubernetes 作为容器编排事实标准，resources.requests与resources.limits是集群资源调度、服务 QoS 分级、节点负载隔离最核心的配置项，但绝大多数运维、云原生开发仅停留在 YAML 配置层面，不清楚配置最终落地到 Linux 内核的执行逻辑。K8s 的 CPU 资源管控并非上层应用实现，完全依托 Linux CFS 完全公平调度器的组调度（Group Scheduling）+ cgroup 资源隔离机制实现：Request 映射内核 CPU 相对权重、决定节点调度器 kube-scheduler 的预选调度逻辑；Limits 映射 CFS 带宽配额，由内核强制封顶 CPU 使用率，从操作系统底层杜绝单个容器突刺占用整机算力引发的邻居干扰问题。

从技术溯源来看，Linux 在内核 2.6.24 版本正式落地 CFS 调度，后续通过CONFIG_FAIR_GROUP_SCHED编译选项开启组调度特性，搭配 cgroup 文件系统实现进程分组资源管控，这套内核能力成为 Docker、containerd、K8s 整套容器体系的底层地基The Linux Kernel Archives。工业生产中，微服务集群、AI 算力容器、大数据离线任务混部场景全部依赖这套机制实现资源切分与隔离；对于云原生工程师、内核研发、集群调优工程师，吃透从 K8s 资源声明→CRI 容器运行时→cgroup 文件→Linux 组调度内核逻辑的全链路，是排查容器 CPU 限流抖动、节点资源超配、QoS 异常、容器频繁被节流的必备能力，同时也是撰写云原生性能论文、集群资源优化报告的核心理论支撑。本文从内核概念、环境部署、源码拆解、实操验证、故障排查全链路落地实战，完整打通 K8s 上层配置与 Linux 底层调度的关联。

一、核心概念与术语解析

1.1 CFS 组调度基础定义

普通 CFS 调度以单个 task_struct 进程作为调度单元，组调度（Group Scheduling）将多个进程打包为一个task_group调度组，整个组作为统一调度实体参与 CPU 时间分片竞争，是 cgroup 实现容器资源权重分配的内核基石，依赖内核编译开关CONFIG_FAIR_GROUP_SCHED=y启用。内核关键数据结构（截取 kernel/sched/sched.h，Linux5.15/6.1 通用）：

/* 任务组结构体，一个cgroup目录对应一个task_group */ struct task_group { /* 每个CPU绑定一组CFS运行队列与调度实体 */ struct cfs_rq **cfs_rq; /* 组对应的调度实体，用于向上层父cgroup参与调度 */ struct sched_entity **se; /* cgroup v1：cpu.shares权重；cgroup v2：cpu.weight权重 */ unsigned long shares; #ifdef CONFIG_CGROUP_CPUACCT struct cpuacct *cpuacct; #endif struct cgroup_subsys_state css; }; /* CFS运行队列，存放调度实体红黑树 */ struct cfs_rq { struct load_weight load; /* 缓存红黑树，最小vruntime在最左侧，加速选任务 */ struct rb_root_cached tasks_timeline; unsigned int nr_running; /* CFS带宽控制：周期时长、已消耗运行时间、配额上限 */ u64 period; u64 quota; u64 runtime; }; /* 调度实体：普通进程/任务组共用此结构参与CFS调度 */ struct sched_entity { struct load_weight load; struct rb_node run_node; u64 vruntime; // 虚拟运行时间，CFS公平调度核心指标 u64 sum_exec_runtime;// 累计实际运行CPU时间 unsigned int on_rq; // 是否处于就绪队列 };

代码注释说明：task_group和 cgroup 一一绑定，创建容器即创建对应 cgroup、生成 task_group；组内所有进程的sched_entity挂载到本组cfs_rq红黑树，组自身再通过se作为调度实体挂载至父级 cgroup 的运行队列，形成层级嵌套调度，完美匹配 K8s Namespace→Pod→Container 的层级结构。

1.2 K8s Request/Limits 与 cgroup 参数映射规则

K8s CPU 计量单位：1cpu = 1物理CPU核心，1mCPU=千分之一CPU（1毫核），v1/v2 cgroup 映射规则区分如下：

K8s 配置项	作用场景	cgroup v1 参数	cgroup v2 参数	内核调度逻辑
resources.requests.cpu	空闲时按权重分配 CPU、kube-scheduler 节点预选	cpu.shares（默认 1024 基准）	cpu.weight（取值 1~10000，默认 100）	组调度权重，CPU 资源紧张时按各组权重比例瓜分 CPU 时间
resources.limits.cpu	强制 CPU 使用上限，超额节流	cpu.cfs_quota_us / cpu.cfs_period_us	cpu.max 格式`[quota] [period]`	CFS 带宽控制器，单个周期内用完配额后进程休眠限流

Request（权重）：不限制最大 CPU，只保证资源争抢时的分配优先级，对应组调度的相对权重；
Limits（配额）：硬上限，无论整机空闲与否，容器 CPU 使用率不能超过配置值，依托 CFS 带宽节流实现。

1.3 CFS 带宽控制核心参数释义

cfs_period_us：CFS 结算周期，K8s 默认固定 100000us（100ms），即每 100ms 做一次 CPU 用量清算；
cfs_quota_us：单个周期内 cgroup 全组可用 CPU 总微秒数，quota/period = 最大可用CPU核数，如 limits=1cpu → quota=100000us，limits=0.5cpu → quota=50000us；
cgroup v2cpu.max：单文件合并配置，格式quota period，max代表不限制配额（无上限）。

1.4 K8s 三层资源控制链路

YAML资源清单 → kubelet → containerd/docker(CRI) → /sys/fs/cgroup文件系统 → Linux内核task_group组调度

kube-scheduler：依据 pod Request 值筛选剩余资源充足的节点；
kubelet：调用 CRI 接口，将 Request、Limits 转换为对应 cgroup 参数写入文件；
Linux 内核：组调度负责权重分配，CFS 带宽子系统负责上限节流。

二、环境准备

2.1 软硬件环境清单

分类	版本 / 配置	说明
硬件	x86_64 4 核 8G 物理机 / 云主机	支持内核编译、容器压测，多核方便观测组调度权重分配
OS	Ubuntu22.04 / CentOS Stream9	推荐 Ubuntu22.04，原生支持 cgroup v2，内核 5.15+
Linux 内核	5.15/6.1 LTS	必须开启`CONFIG_FAIR_GROUP_SCHED=y、CONFIG_CGROUP_CPU=y、CONFIG_CFS_BANDWIDTH=y`
K8s 环境	K8s 1.26~1.28，containerd 1.7+	1.25 + 默认支持 cgroup v2，可切换 cgroupfs/systemd 驱动
编译工具	gcc、make、libncurses-dev、bison、flex	用于内核调试、C 语言压测程序编译
调试工具	perf、trace-cmd、ftrace、stress-ng	跟踪内核调度函数、压测容器 CPU、观测节流事件

2.2 环境部署分步配置

步骤 1：内核配置校验（关键，无组调度则 cgroup 资源限制失效）

# 查看内核编译选项，验证组调度与CFS带宽开关 zcat /proc/config.gz | grep -E "FAIR_GROUP_SCHED|CFS_BANDWIDTH|CGROUP_CPU" # 预期输出全部=y CONFIG_FAIR_GROUP_SCHED=y CONFIG_CFS_BANDWIDTH=y CONFIG_CGROUP_CPU=y

若未开启，下载对应内核源码重新编译开启上述选项后重启内核。

步骤 2：cgroup 挂载与版本切换（v1/v2 二选一）

# 查看当前cgroup版本 mount | grep cgroup # 启用cgroup v2（Ubuntu22.04推荐），修改grub sudo vi /etc/default/grub # 增加内核启动参数：systemd.unified_cgroup_hierarchy=1 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash systemd.unified_cgroup_hierarchy=1" sudo update-grub && reboot # 重启后验证v2挂载：/sys/fs/cgroup/cpu.weight、/sys/fs/cgroup/cpu.max

步骤 3：部署单机 K8s（kubeadm 快速部署，用于后续 pod 资源测试）

# 安装容器运行时containerd apt update && apt install containerd.io -y # 初始化kubeadm单机集群 kubeadm init --apiserver-advertise-address=本机IP --pod-network-cidr=10.244.0.0/16 # 安装calico网络插件 kubectl apply -f https://docs.projectcalico.org/v3.26/manifests/calico.yaml

步骤 4：安装压测与调试工具

sudo apt install stress-ng perf trace-cmd -y

三、应用场景（302 字）

该内核组调度 + cgroup 资源模型广泛落地于企业生产容器集群混部场景。互联网业务集群中，前端 Web 服务、后端微服务、定时离线计算任务混合部署在同一节点，通过 K8s Request 配置不同权重，业务空闲时离线任务可充分利用整机闲置算力，业务流量高峰时按 Request 权重优先保障在线业务 CPU 资源；云厂商弹性容器实例 ECI 直接依托此机制实现租户 CPU 资源隔离，避免单租户进程突刺抢占宿主机资源；AI 训练容器场景通过 Limits 固定单卡配套容器 CPU 上限，防止训练进程无限占用 CPU 影响驱动调度；工业物联网边缘 K3s 集群中，实时采集容器配置高 Request 权重、低 Limits，非实时日志容器配置低权重，依托 Linux 组调度实现软硬资源分层管控，保障采集任务的调度优先级。

四、实际案例与步骤（大量可直接运行代码）

案例一：原生 cgroup 手动配置 Request/Limits，脱离 K8s 验证内核逻辑

不使用容器，直接创建 cgroup 模拟 K8s 的 Request、Limits 配置，直观观测 Linux 组调度行为，分 4 步执行。

步骤 1：创建测试 cgroup 目录（cgroup v1 示例）

# cgroup v1 cpu子系统挂载目录 CG_BASE=/sys/fs/cgroup/cpu/test_pod_container sudo mkdir -p ${CG_BASE} # 代码作用：创建独立cgroup，对应一个容器的资源分组，自动生成cpu.shares、cfs_quota_us等配置文件

步骤 2：配置 Request（cpu.shares，模拟 request=100m）

K8s 100mCPU 换算 shares：基准 1024=1cpu，100m=0.1cpu → shares=102

# 写入权重，模拟request: 0.1cpu echo 102 | sudo tee ${CG_BASE}/cpu.shares # 代码说明：shares仅在CPU满载生效，整机空闲时不限制CPU使用

步骤 3：配置 Limits（限制最大 0.5cpu，period 默认 100ms）

# period固定100000us（100ms），0.5cpu → quota=50000us echo 100000 | sudo tee ${CG_BASE}/cpu.cfs_period_us echo 50000 | sudo tee ${CG_BASE}/cpu.cfs_quota_us # 代码作用：当前cgroup内所有进程，每100ms最多运行50msCPU，上限0.5核

步骤 4：将压测进程加入 cgroup，观测 CPU 限流

# 后台启动CPU满载进程 stress-ng --cpu 2 & # 获取进程PID，写入cgroup进程列表 PID=$(pgrep stress-ng | head -n1) echo ${PID} | sudo tee ${CG_BASE}/tasks # 查看CPU使用率，top观察进程最高占用50%CPU（0.5核） top # 查看CFS节流统计，记录被限流次数 cat ${CG_BASE}/cpu.stat # 字段nr_throttled：周期内被节流次数，非0代表触发Limits上限

cgroup v2 同等配置代码（适配新版系统）

CG_V2=/sys/fs/cgroup/test_v2_container sudo mkdir -p ${CG_V2} # Request：cpu.weight=100（等效0.1cpu权重） echo 100 | sudo tee ${CG_V2}/cpu.weight # Limits：0.5cpu → cpu.max=50000 100000 echo "50000 100000" | sudo tee ${CG_V2}/cpu.max # 添加进程 echo ${PID} | sudo tee ${CG_V2}/cgroup.procs

案例二：编写 K8s YAML，落地 Request/Limits，反向查看宿主机 cgroup 参数

步骤 1：编写 pod 资源清单 pod-cpu.yaml（可直接 kubectl apply）

apiVersion: v1 kind: Pod metadata: name: cpu-test-pod spec: containers: - name: cpu-stress image: busybox:1.35 # Request=0.2cpu，Limits=1cpu resources: requests: cpu: "200m" limits: cpu: "1" command: ["stress-ng","--cpu","4"] # 进程持续打满CPU

配置说明：request=200m=0.2 核对应 shares≈205；limits=1 核→quota=100000us，period=100000us。

步骤 2：创建 pod 并定位容器对应的宿主机 cgroup 路径

kubectl apply -f pod-cpu.yaml # 查看pod状态 kubectl get pods cpu-test-pod # 获取容器PID（宿主机PID） CON_PID=$(kubectl exec cpu-test-pod -- pidof stress-ng) # 查找该PID归属的cgroup目录（containerd生成层级cgroup） find /sys/fs/cgroup/cpu -name "tasks" -exec grep -l ${CON_PID} {} \; # 进入目录查看内核参数 CG_PATH=$(find /sys/fs/cgroup/cpu -name "tasks" -exec grep -l ${CON_PID} {} \; | sed 's/\/tasks//') cat ${CG_PATH}/cpu.shares cat ${CG_PATH}/cpu.cfs_period_us cat ${CG_PATH}/cpu.cfs_quota_us

预期输出：shares≈205、period=100000、quota=100000，完美匹配 YAML 配置，验证 K8s→cgroup 的参数转换逻辑。

案例三：ftrace 跟踪内核组调度函数，观测 task_group 调度逻辑

通过内核 ftrace 跟踪sched_group_set_shares、cfs_bandwidth_throttle函数，直观捕捉修改 Request、触发 Limits 节流时的内核调用链路：

# 挂载debugfs sudo mount -t debugfs none /sys/kernel/debug # 清空跟踪缓存 echo > /sys/kernel/debug/tracing/trace # 添加需要跟踪的内核函数 echo sched_group_set_shares >> /sys/kernel/debug/tracing/set_ftrace_filter echo cfs_bandwidth_throttle >> /sys/kernel/debug/tracing/set_ftrace_filter # 开启函数跟踪 echo function > /sys/kernel/debug/tracing/current_tracer echo 1 > /sys/kernel/debug/tracing/tracing_on # 新开终端：修改前面test_pod_container的shares，触发sched_group_set_shares echo 200 | sudo tee /sys/fs/cgroup/cpu/test_pod_container/cpu.shares # 等待30s，stress进程触发限流，关闭跟踪 echo 0 > /sys/kernel/debug/tracing/tracing_on # 查看内核调用日志 cat /sys/kernel/debug/tracing/trace

日志解读：修改 shares 触发sched_group_set_shares更新 task_group 权重；CPU 超上限触发cfs_bandwidth_throttle节流函数，对应 limits 限流内核逻辑。

案例四：C 语言简易程序模拟 cgroup 修改权重（用于论文代码参考）

// cg_cpu_set.c 编译：gcc cg_cpu_set.c -o cg_cpu_set #include <stdio.h> #include <fcntl.h> #include <unistd.h> #include <string.h> #define CG_SHARE_PATH "/sys/fs/cgroup/cpu/test_pod_container/cpu.shares" #define CG_QUOTA_PATH "/sys/fs/cgroup/cpu/test_pod_container/cpu.cfs_quota_us" // 修改cgroup权重（模拟修改Request） int set_cpu_share(unsigned long share_val) { int fd = open(CG_SHARE_PATH, O_WRONLY); char buf[32]; sprintf(buf, "%lu", share_val); write(fd, buf, strlen(buf)); close(fd); return 0; } // 修改CFS配额（模拟修改Limits） int set_cpu_quota(long quota) { int fd = open(CG_QUOTA_PATH, O_WRONLY); char buf[32]; sprintf(buf, "%ld", quota); write(fd, buf, strlen(buf)); close(fd); return 0; } int main() { set_cpu_share(307); // request=300m cpu → shares=307 set_cpu_quota(70000); // limits=0.7cpu → quota=70000us printf("cgroup cpu配置修改完成\n"); return 0; }

代码用途：可集成到自研容器运行时，复现 CRI 修改 cgroup 参数逻辑，适配性能论文源码引用。

五、常见问题与解答

Q1：Pod 配置了 request=500m，但整机空闲时容器 CPU 能跑到满核 400%，Request 为什么没限制上限？

答：Request 映射 cpu.shares/cpu.weight 是相对权重，仅 CPU 资源争抢时生效，整机 CPU 富余无进程竞争，内核组调度会放任容器占用闲置 CPU；Limits 才是硬上限，只有配置 limits 才会被 CFS 带宽封顶，是大量新手混淆 Request 与 Limits 的高频问题，对应前文 cgroup 参数原理。

Q2：K8s limits=2cpu，但容器实际只能跑到 190% CPU，达不到 200%，是什么原因？

答：1. kubelet 默认 cfs_period=100ms，部分内核版本 CFS 带宽存在微小结算损耗；2. 容器内多线程分散在不同 CPU，内核调度切换损耗；可通过cat /sys/fs/cgroup/xxx/cpu.stat查看 nr_throttled 节流计数，计数 > 0 代表频繁被限流，核对 quota 数值是否为 200000。

Q3：修改宿主机 cgroup 的 cpu.shares 后，容器权重不生效，内核组调度未变更？

答：内核通过sched_group_set_shares修改 task_group 的 load 权重，修改文件后内核函数异步刷新；可通过 ftrace 跟踪该函数是否被触发，同时确认内核开启CONFIG_FAIR_GROUP_SCHED=y，关闭组调度则 shares 参数失效。

Q4：cgroup v2 下修改 cpu.max 为 max（无限制），Limits 配置失效，容器 CPU 无限突刺？

答：cpu.max写入字符串max代表关闭 CFS 带宽限制，对应 K8s 不配置 limits 的场景，内核不再做上限节流；生产环境业务容器必须配置 limits，避免资源抢占故障。

Q5：同一 Node 上多个 Pod，配置不同 Request，CPU 满载时 CPU 分配比例和 Request 比例不一致？

答：1. 宿主机存在系统内核进程占用 CPU；2. Pod 内部多进程分属不同 cgroup 层级，组调度层级嵌套损耗；使用 stress-ng 独占 CPU 后通过perf sched record抓取调度日志，统计各组实际运行时间占比。

六、实践建议与最佳实践

6.1 K8s 资源配置落地规范

生产必配 Limits：在线业务 Pod 必须配置 limits，依托 CFS 带宽限制避免突刺，离线任务可按需关闭 limits 提升资源利用率；Request 按照业务日常峰值 70% 配置，平衡调度命中率与节点资源利用率。
QoS 分级落地：Guaranteed（Request=Limits）、Burstable（Request<Limits）、BestEffort（无任何配置），依托 Linux 组调度权重天然实现优先级分层，内核 OOM、CPU 争抢时优先保障 Guaranteed 容器。

6.2 内核与 cgroup 优化技巧

CFS 周期调优：高频低延迟业务可修改 kubelet 配置cpuCFSQuotaPeriod缩短周期（最小 1000us），降低节流带来的调度抖动，但过小周期会提升内核结算 CPU 开销。
混部场景 CPU 绑核：核心业务容器通过cpuset.cpus绑定物理 CPU，脱离组调度权重竞争，配合 limits 实现独占算力，工业实时容器常用该方案。
cgroup 版本选型：新集群优先 cgroup v2，统一层级结构规避 v1 多子系统层级错乱导致的资源统计异常，K8s1.25 + 原生稳定支持 v2。

6.3 故障排查固定流程

容器 CPU 异常→1. 查cpu.stat/nr_throttled确认是否 limits 节流；2. 查看 cgroup 的 shares/weight 核对 Request 映射值；3.ftrace 跟踪组调度与带宽内核函数；4. 核对内核组调度编译开关是否开启，从上层到内核逐层定位。

6.4 内核二次开发参考

自研调度插件时不要绕过 task_group 与 cgroup 架构，基于现有组调度钩子修改权重计算逻辑，复用 CFS 带宽控制器，避免重新实现资源限流逻辑。

七、总结与应用延伸

本文完整打通K8s 上层资源声明→CRI 运行时→cgroup 文件系统→Linux CFS 组调度内核全链路，核心结论：

Request = 相对权重，落地 cpu.shares/cpu.weight，依托 Linux 组调度实现 CPU 争抢时的资源按比例分配，支撑 kube-scheduler 节点预选调度逻辑；
Limits = 绝对配额，落地 CFS 带宽参数 cfs_quota/cfs_period，由内核硬件级强制 CPU 上限，从底层实现容器资源隔离；
Linux 组调度（task_group）是整套机制的内核载体，cgroup 是用户态配置入口，K8s 只是这套内核能力的上层封装编排工具。

这套技术栈是云原生、容器虚拟化、服务器混部领域的底层基石：在公有云弹性实例、私有云容器平台、边缘 K3s 集群、AI 算力集群全部规模化落地；对于学术研究，可基于本文代码修改内核 task_group 权重算法，对比自研调度与原生 CFS 组调度的性能差异，撰写云原生内核方向论文。建议读者在自建 K8s 环境中复现全部实操命令，修改内核源码微调 CFS 带宽逻辑，观测容器节流行为变化，真正实现从配置到内核原理全链路吃透。

企业官网建设流程全解析

简介