096、YOLO 模型 A/B 测试框架：新老模型效果对比、灰度切换与回滚机制-二趣网

096、YOLO 模型 A/B 测试框架：新老模型效果对比、灰度切换与回滚机制

去年双十一大促前夜，我部署了一个新训练的YOLOv8模型，自测mAP提升了2.3%，召回率也稳中有升。凌晨两点，监控告警炸了——某个核心业务场景的误检率飙升到37%，客户投诉电话打爆了运维。回滚？来不及了，新模型已经全量上线了整整四小时。

复盘时发现，问题出在测试集和线上数据分布不一致。新模型在公开数据集上表现优异，但到了真实场景，光照、遮挡、目标尺度分布全变了。更致命的是，我们没有做灰度切换，没有A/B对比，没有回滚预案。那次之后，我花了三周时间，把YOLO模型的A/B测试框架彻底重构了一遍。

今天这篇笔记，就是那次事故后沉淀下来的实战方案。不扯理论，直接上代码和架构。

最开始的方案是在应用层写if-else判断用户ID哈希，后来发现维护成本太高。改用Nginx + Lua脚本做流量染色，简单粗暴但有效。

# 流量路由配置示例（Nginx Lua）--这里踩