五层演进:从随口提问到工程落地,我的AI测试自用进阶路径
2026/6/11 21:39:09 网站建设 项目流程

写完通用对话大模型、AI 编程助手两篇实战之后,回头看了我自己一路用 AI 踩坑、慢慢摸索的完整过程。从一开始随便打字提问,AI 回答时好时坏;之后学着认真写结构化提示词;发现光有话术不够,得加上硬性约束rules;用得多了就把成套话术和约束打包成固定技能skills;再靠着 MCP 让 AI 能直接调取文件、跑工具;最后学到 Harness,才知道它是把所有东西收拢起来的整套底座
Prompt、Rules、Skills、MCP、Harness 这五步,是我作为普通测试,一点点摸出来驾驭 AI 的完整路子,只聊聊自己真实的使用感受,没有一套套教学道理。

第一层:Prompt Engineering(提示词工程)就是跟 AI 好好说话的基础

这是所有人使用AI的起点。最开始我完全是碎片化提问,想到什么问什么,比如“梳理需求”“改一下bug描述”,AI输出要么答非所问,要么大段文字堆砌,逻辑散乱,每次都要花大量时间二次整理。
后续最先优化的就是Prompt,而结构化提示词只是Prompt里的书写细节,并非独立层级。通俗说就是:写Prompt既要说明任务意图(让AI做什么),也要加上结构化要求(让答案分点、表格化、结论前置),二者永远写在同一段提问里,不存在先后学习顺序。
但这么写依旧有短板:只能管住当下这一次对话,缺少兜底约束,AI还是会擅自脑补业务;而且话术没法保存,每次新开对话都要重写一遍。

第二层:Rules 硬性约束

Prompt只能约束单轮对话,哪怕每次都写严谨话术,依旧解决不了AI的固有问题:擅自编造业务、忽略测试边界、随意放宽严谨标准。
这时候才意识到Prompt和Rules的体感差别:Prompt是单次对话指令,只管这一次回答;Rules是长期兜底红线,是全局默认要求,不需要每次提问重复粘贴。
结合我平时做项目、遵循团队测试规范的经验,我简单定了几条底层约束。不用写得太细,统一设为全局规则之后,AI输出的内容都会贴合我们项目的测试要求,不会天马行空。

第三层:Skills 成套能力固化

当同一个场景反复使用同一套【结构化Prompt+固定Rules】,每次新开对话重复粘贴话术,又变成了新的内耗。
Skills本质就是打包:把经过验证、稳定不出错的单轮Prompt,搭配固定全局Rules,封装成一键调用的独立技能。不用每次手动编辑指令,打开直接使用。
平时我用得最多的就是规整bug描述、拆解迭代需求、分析简单接口报错这几类重复工作。把它们做成技能后,不管隔多久调用,AI输出的口吻、格式都保持一致,不会时好时坏。

第四层:MCP 打通外部数据链路

即便把话术、约束、复用技能都配置完毕,AI始终只能在聊天框内工作。平时排查测试环境接口报错、梳理迭代需求,内部文档、请求报文、服务器日志都没法直接读取,只能靠我手动复制粘贴上传,来回搬运零散数据格外耗费精力。
这里要客观说清现状:目前适配测试场景的MCP工具其实非常少,生态还很早期,并非全品类测试工具都能对接。市面上稳定可用的只有四款轻量化工具:读取本地日志文档的filesystem-mcp、抓取浏览器网络请求的chrome-devtools-mcp、简单页面操作的playwright-mcp、查询测试库数据的mysql/postgres-mcp。
MCP刚好补上数据搬运的短板,不用修改之前写好的任何提示词和约束规则。但它能力边界很明确:只覆盖轻量化辅助操作,业内主流专业测试工具至今没有官方MCP对接,像Postman、JMeter、Selenium、缺陷管理平台这类日常主力工具,全都无法直接通过MCP调用。
体感变化也比我最初预想的有限:从前是我手动导日志、抓接口报文喂给AI;现在AI能自主读取文件、抓浏览器请求、查数据库,但复杂接口联调、性能压测、全流程自动化回归,依旧需要我手动打开专业工具操作,MCP暂时替代不了。

第五层:Harness 统一收拢工程底座

哪怕配齐了复用技能、打通了外部工具,AI依旧是被动的。它永远等着我一步步发号施令,我下达一步指令,它才执行一步动作。就拿接口报错排查来说,我要分别让它读日志、核对报文、查询数据库,全程都要我主动引导,它不会自己串联步骤、自主排查收尾。

这也是我后期才弄懂的:Harness不是简单汇总所有配置,而是给AI补齐底层运行逻辑。之前我们用到的提示词、规则、技能、MCP工具,全都是外露的表层功能,彼此互不连通,脱离底座就只能零散单独使用。

通俗解释它的底层作用:一是让AI学会自主思考复盘,不用我反复下达指令,自行循环推进任务;二是解决长对话遗忘、内容超限的问题,能留存长期配置;三是自动处理校验、格式规整这类固定流程;最后加上权限兜底防止误操作。直白总结:普通大模型只会一问一答,依托Harness之后,它才能独立跑完一整套测试任务。

  1. Prompt单次提问 = 单次口头交代工作:临时告诉新人本次要做什么、报告怎么排版。也就是结构化话术,只管当下这一件事,说完就失效,新人下次还会乱做、脑补细节
  2. Rules全局约束 = 给新人定岗位红线:结合项目过往踩坑、团队测试规范,提前说好永久底线。比如不许私自脑补业务、不许夸大缺陷影响,不用每次干活重复叮嘱,新人永久遵守
  3. Skills技能包 = 整理标准化SOP交接文档:把反复要做的需求拆解、bug提单工作,把口头要求+红线整合,做成现成步骤,新人直接照着用,不用每次重新沟通
  4. MCP工具连通 = 给新人开放内部权限:之前新人只能听我口述资料,现在开放日志、接口、文档查阅权限,新人自己调取数据,不用我逐条转发粘贴
  5. Harness工程底座 = 给新人搭建完整工作大脑与风控体系:之前只给新人话术、红线、查阅权限,新人依旧需要我逐句下达指令;Harness相当于补齐自主思考、长期记忆、自动校验、权限风控全套底层能力,新人可以自主反复推进工作,不用我持续指挥

写在最后

之前我一直被网上晦涩的AI理论绕晕,非要抠各类能力的从属、包含关系,其实放到测试日常实操里完全没必要钻牛角尖。按照真实上手顺序,就是顺着Prompt、Rules、Skills、MCP、Harness一步步迭代,我认为所谓结构化提示词,只是写Prompt的基础技巧,算不上独立能力。

说到底,这套AI能力只是提效工具。只能帮我们改bug话术、收集日志、梳理零散需求这类机械重复的琐事。涉及业务隐性风险研判、整体质量方案把控、线上故障根源定位,依旧要靠测试自身的业务经验,AI永远做不了决策。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询