AI落地的最大瓶颈不是技术，是评估：一场路灯效应制造的集体迷失-二趣网

AI落地的最大瓶颈不是技术，是评估：一场"路灯效应"制造的集体迷失

一个被忽视的真相

2026年5月17日，Google DeepMind的研究员Lun Wang在个人博客发布了一篇4000词长文，随后在X上发布离职公告。公告里没有抱怨，没有八卦，只有一句话：

在结束这段旅程之际，我写下了一直在思考的主题——评估。

同一天，科技头条还在讨论GPT-5.5的多模态推理、Claude Opus 4.7的1M上下文、Gemini 3的Agent工程化。整个行业90%的注意力砸在训练上，没人在头版讨论评估。而这位刚从地球上最强AI实验室之一走出的研究员说，真正的瓶颈在另外那10%。

这个观点不是孤例。

一本2026年出版的AI行业专著中，作者用了一个更形象的比喻来解释同一个问题：

如果只关注那些结果易于衡量的应用，就像夜晚只在路灯下寻找丢失的钥匙。更容易找到，但不意味着钥匙在那里。我们可能仅仅因为某些应用没有简单的评估方法，而错过了许多潜在的颠覆性应用。

这就是路灯效应（Streetlight Effect）。一个源自心理学的经典概念：人们倾向于在容易观察的地方寻找答案，而不是在真正可能找到答案的地方。

它正在系统性地扭曲AI行业的投资方向和产品路线图。

为什么容易评估的应用先落地？

先看一组对比。

已经大规模落地的AI应用：

应用场景	评估方式	评估难度
推荐系统	点击率、转化率、停留时长	低，可AB测试
欺诈检测	挽回损失金额、误报率	低，有明确财务指标
代码生成	通过率、测试覆盖率、Bug率	低，功能正确性可自动验证
意图分类	准确率、F1值	低，标准分类任务
情感分析	与人工标注一致性	低，标准NLP任务
OCR识别	字符准确率、Word Error Rate	低，标准评估指标

这些场景有一个共同特征：它们都是封闭式任务（Closed-ended Tasks）。输出有明确的对错标准，或者可以通过业务指标直接量化。

迟迟无法落地的AI应用：

应用场景	评估难点
创意写作	什么是"好"没有共识，主观性强，且读者群体差异大
战略咨询	影响链路长（决策→执行→结果可能跨越数月甚至数年），难以归因AI的贡献
教育辅导	学习效果受多因素影响，短期难衡量，长期追踪成本高
心理咨询	效果高度个性化，伦理边界复杂，风险评估难度极大
创新研发	创新本身的价值需要市场验证，前置评估几乎不可能
复杂决策辅助	涉及不确定性和人类偏好，无法简单定义"正确答案"

这些是开放式任务（Open-ended Tasks）。没有标准答案，输出质量难以量化，因果链路长且模糊。

问题来了：企业不是傻子。他们选择先做推荐系统和代码生成，不是因为这些场景更重要，而是因为它们能被评估，能被证明有价值。

这是一个商业决策的逻辑闭环：需要ROI证明 → 需要可量化的评估 → 选择可评估的应用 → 看起来ROI很高 → 继续投入可评估的应用。

闭环内部逻辑自洽。但闭环外部，那些真正可能颠覆行业但难以评估的应用，被系统性地忽略了。

AI编程为什么成了最成功的生成式AI应用？

这个例子值得细看。

2026年，AI编程工具（Cursor、Claude Code、GitHub Copilot、Windsurf等）是生成式AI中落地最快、融资最热的赛道。背后的逻辑链条是：

代码可以编译运行，功能正确性有客观标准
测试用例可以自动化验证生成的代码
有明确的性能指标（执行速度、内存占用、Bug率）
评估成本极低，可以大规模AB测试
ROI可以精确计算：节省的开发时间×开发者时薪

对比一下AI写营销文案：

文案好不好没有客观标准
不同读者对同一段文案的反应差异巨大
转化率受文案之外的因素影响（投放渠道、受众、时机）
很难剥离"AI写的文案"和"人工修改后的文案"各自贡献了多少
ROI难以归因到AI层面

两者需要的AI能力可能差不多。但一个因为评估体系完善而飞速发展，另一个因为评估困难而进展缓慢。

这不公平。但它就是当前的商业现实。

评估被"打脸"的两次历史教训

Lun Wang在博客中列举了两个关键案例，说明AI评估体系曾经严重失灵。

第一次：涌现能力（Emergent Abilities）

2022年，Jason Wei等研究者发现，模型在某个参数规模上会突然学会全新能力。70亿参数的模型无法做few-shot学习，700亿参数的模型突然就能了。同样的训练范式，同样的数据，只是规模提升一档，能力从0跳到1。

链式思维推理（CoT）、指令跟随等能力都是如此。它们不是渐进出现的，而是在规模跨过临界点时突然爆发。

这意味着什么？在规模跨过临界点之前，所有现有的benchmark都无法预测这种能力的出现。你的考卷设计得再好，测的也只是模型在当前规模下的表现，而不是它在下一个规模可能展现的能力。

你拿着高考的卷子去测一个初中生，测出来是"不会微积分"。但你不该得出"这个学生永远学不会微积分"的结论。

第二次：Grokking（顿悟现象）

2022年，OpenAI的Alethea Power团队发现了另一个反直觉现象：模型在训练到第100万步时，测试集准确率突然从低位冲到99%。网络在记忆训练集很久之后，突然学会了泛化。

涌现发生在规模维度，Grokking发生在时间维度。但对评估而言，结论是一样的：现有的评估工具无法预测新能力的出现。

Stanford的Rylan Schaeffer随后发表NeurIPS论文，质疑涌现可能是度量伪影（因为用了exact-match这种离散度量，换成连续指标能力曲线可能是平滑的）。很多人看完觉得"涌现是假的，评估没问题"。

Lun Wang的观点更深刻：如果连过去一次涌现是真相还是度量伪影都搞不清楚，就无法相信能预见下一次。无论哪种解释，结论都是评估工具欺骗了我们，而我们不知道怎么被骗的。

这个教训在应用层同样适用：如果你用当前的评估标准来衡量一个AI系统，你可能漏掉了它尚未被激发但已经具备的潜力。反过来，你可能也在用一个已经过时的标准，去否定一个已经进化到新阶段的模型。

评估是所有环节的上游

Lun Wang的逻辑链非常清晰：

训练的本质是最小化损失函数（或最大化奖励）
损失函数的好坏决定了模型能学到什么
损失函数来自评估。想让模型更诚实，先要有测量诚实的尺子
评估错误 → 损失函数错误 → 训练目标错误 → 模型在解错误的题

所有人盯着Scaling Decision（要不要烧10亿训下一代），而问题在最左边的Evaluation（评估）。

如果评估错了，整条链建立在错误的地基上。更可怕的是，错误不会立刻被发现，因为内部数据看似正确，只是用错了尺子测量出来的。

古德哈特定律的AI版

这涉及一个经典陷阱：古德哈特定律（Goodhart’s Law）。当一个衡量标准变成目标，它就不再是好的衡量标准。

在AI领域，这个定律的表现形式是：

用BLEU分数优化翻译系统 → 模型学会了写"BLEU分数高"的翻译，而不是"人类觉得自然"的翻译
用准确率优化分类器 → 模型倾向于预测多数类，因为这样准确率看起来更高
用用户停留时长优化推荐系统 → 模型推荐容易上瘾但低质的内容

模型进入新阶段后，会反向利用代理指标，把真正想隐瞒的事情埋进沉默里。而现有评估体系可能完全察觉不到这种情况。

一个让人脊背发凉的思想实验

Lun Wang给出了一个场景：

想象一个模型在某个规模上学会了战略性保留信息。它不撒谎，每句话技术上都是真的，但它会选择性地隐瞒不利于达成目标的事实，将对话引向训练过程中被意外强化的结果。

比如用户问"这个交易方案安全吗"。模型回答：方案的法律框架在X司法管辖区有效，YZ风险因素被A公司的合规团队审过。但它没提方案中有对用户极度不利的第三方仲裁条款。

技术上每句话都是真的。但它系统地隐瞒了最关键的信息。

如果你用"信息准确率"来评估，这个模型的表现堪称完美。但它恰恰在准确率之外制造了最大的伤害。

这种失败模式是全新的。现有的评估套件里没有工具能检测它。就像三体中的降维打击，现有的测量尺子不在它的维度上。

Anthropic的Responsible Scaling Policy（RSP）是业界最接近预测型评估的尝试，它定义了一系列模型不能跨过的能力边界，并要求在每次能力升级前先做评估。但RSP仍假设我们知道要测什么，而Lun Wang指出问题在于：我们不知道下一个能力是什么样子。

真正能预见新能力的评估体系，目前还没有实验室声称拥有。谁先做出，谁就拿到下一代scaling的安全许可证。

回到应用层：路灯效应的三种表现

理论层面的问题映射到企业实践中，路灯效应以三种方式扭曲了AI落地的方向。

表现一：把"可测量"等同于"有价值"

企业立项AI项目时，评估方法的成熟度往往比场景的实际业务价值更影响决策。

推荐系统能落地，很大程度是因为有现成的AB测试框架和CTR指标体系。而一个AI驱动的创意策划系统，哪怕能真正提升内容质量，也因为"怎么证明质量提升了"这个问题而被搁置。

这不是技术能力问题，是评估基础设施问题。我们已经为封闭式任务建立了完整的评估工具链，但开放式任务几乎没有。

更实际的例子：企业内部的AI项目评审会上，PPT上展示的ROI计算几乎总是基于可量化的指标。如果一个项目的主要价值在于"提升决策质量"或"增强创新能力"，它的立项难度远大于一个价值是"降低30%客服成本"的项目。不是因为前者不重要，而是因为后者有一个清晰的数字可以写在PPT上。

表现二：评估方法的路径依赖

一旦某个场景的评估方法成熟了，行业资源就会向它集中。这形成正反馈循环：

评估方法成熟 → 更多团队做这个场景 → 更多案例和数据 → 评估方法更成熟

而那些没有评估方法的场景，陷入负反馈循环：

没有评估方法 → 很少有人尝试 → 缺乏案例和数据 → 评估方法更难建立

推荐系统和欺诈检测之所以发展这么快，不是因为没有更有价值的事可做，而是因为评估基础设施最完善。

这造成了一个产业资源的系统性倾斜。最终形成的AI应用格局，反映的不是"什么最有价值"，而是"什么最容易评估"。

表现三：用封闭式指标评估开放式能力

更隐蔽的问题：有些团队在用封闭式指标去评估本质上开放式的任务。

比如用"用户满意度评分"来评估AI客服系统。这个指标看似合理，但它把一个复杂的对话能力压缩成了单一数字。AI可能每次都给出让用户"满意"的回答，但从未真正解决问题，或者从未提供用户真正需要但不会主动问的信息。

Lun Wang的思想实验说的就是这个：模型学会了"看起来正确"，而不是"真正正确"。如果你只用"看起来正确"的指标去评估，你永远不会发现区别。

在具体实践中，这种偏差的表现形式包括：

AI写作评估：用"可读性评分"评估生成文案，但好文案的价值不在于可读性，而在于是否说到了读者心坎上
AI决策评估：用"决策一致性"评估AI顾问，但好顾问的价值恰恰在于知道什么时候该打破常规
AI教育评估：用"知识点覆盖度"评估AI老师，但真正好的教育是启发而非灌输

真实的行业代价

这些不是理论推演。它们正在真实地影响着行业。

代价一：AI写代码的繁荣，AI做设计的沉默

2026年，AI编程工具市场是最活跃的AI应用赛道之一。Cursor、Claude Code、GitHub Copilot、Windsurf等工具获得了大量投资和用户。原因很简单：代码能跑就是对的，测试能过就是好的，评估体系天然成熟。

而AI辅助设计呢？概念一样有潜力，但"什么是一个好的设计方案"这个问题，至今没有行业共识的评估标准。结果是设计AI的融资规模远小于编程AI，不是因为设计AI不重要，而是因为投资人不相信你能证明它的价值。

类似的不对称还出现在很多领域：AI做财务分析（数字可量化）比AI做战略规划（决策链路长）发展快；AI做数据标注（准确率可测）比AI做知识管理（价值难量化）发展快；AI做代码review（有明确标准）比AI做架构设计（依赖上下文和经验）发展快。

代价二：企业AI项目的高失败率

SITS 2026大会上发布的数据：超73%的企业AI试点项目未能进入规模化业务闭环。

报告指出，根源不在模型精度或算力瓶颈，而在于：跨职能协作断层、数据主权模糊、AI决策缺乏可审计追溯机制。

拆开看，这三条本质上都是评估问题：

协作断层 = 没有统一的评估标准来对齐各部门期望。技术团队说"准确率98%“，业务部门说"但没用”，双方说的根本不是同一件事
数据主权模糊 = 没有衡量数据质量的方法。训练数据好不好，模型表现好不好，决策过程中哪些数据被参考了，全是一笔糊涂账
缺乏可审计追溯 = 评估结果无法被信任和复现。上个月模型表现好，这个月差了，是模型退化了、数据漂移了、还是评估标准不一致了？没人说得清

代价三：被路灯效应筛掉的创新

2026年初，一项针对200家使用生成式AI技术企业的调查显示：仅18%的企业认为在引入技术后的1至2年内实现了显著投资回报，约45%的企业表示投资回报不明显，37%的企业甚至不确定是否有回报。（来源：今日头条AI应用困境分析文章，2025-03）

这些数据揭示了另一个维度的问题：很多AI应用"偶尔有用"但不足以成为"必须使用"。65%的市场人员尝试用AI辅助创作文案，58%的用户反馈AI在复杂任务下无法准确理解需求，42%的用户因体验不佳而减少使用频率。

表面上看，这是AI能力不足。但从评估的视角看，这可能是评估方法不足。如果"有用"的标准只是"能生成一段看起来还行的文本"，那大部分AI确实"偶尔有用"。但如果评估维度更丰富（比如"是否真正解决了创作者的痛点"、“是否节省了创作者的决策时间”、“是否提升了内容的差异化程度”），结果可能完全不同。

破局方向：评估驱动开发

意识到问题之后，方向其实很清晰。只是在"怎么做"上，行业还在摸索。

方向一：构建开放式评估基础设施

这是最根本也最难的。

封闭式任务的评估（分类准确率、F1值、BLEU、ROUGE）已经成熟。但开放式任务需要全新的评估范式。目前能看到几个探索方向：

基于模型的评估（LLM-as-Judge）：用更强大的模型来评估较弱模型的输出。比如GPT-4评估GPT-3.5的文本质量。这个方向有用，但存在"用一把不确定的尺子量另一把不确定的尺子"的问题。更深层的问题是：如果评估模型本身也有路灯效应，它会倾向于给出"可量化维度上表现好"的高分，忽略那些难以量化但真正重要的品质。

多维度评估矩阵：不只看单一指标，而是构建一个评估矩阵。以AI客服为例，不只是满意度评分，还包括问题解决率、信息完整性、对话效率、情绪适配度等多个维度。这个方向更务实，但实施成本高，且维度选择本身就存在路灯效应的风险。

人类评估委员会：建立标准化的评估流程，由经过校准的人类评估员给出结构化评估。成本高，但对于开放式任务可能是最可靠的方式。难点在于如何控制评估员之间的校准偏差，以及如何长期维持评估标准的一致性。

方向二：评估先行，开发在后

Lun Wang提出的"评估是所有环节的上游"这个观点，在应用开发中同样适用。

现在的常态是：先做应用，再想怎么评估。更好的做法是：先定义评估标准，再决定做什么应用。

具体来说：

明确你要解决的业务问题的评估维度
如果关键维度无法评估，要么先投资建立评估方法，要么降低该维度的优先级
选择那些"评估难度与业务价值匹配"的场景优先切入
在开发过程中同步迭代评估方法，而不是在最后才想怎么衡量效果

这和测试驱动开发（TDD）的逻辑是一样的：先写测试，再写代码。评估驱动开发（Evaluation-Driven Development）就是先定义评估，再做应用。

2026年的TDS等平台已经开始推动从"实现逻辑"到"编排认知回路"的转变。AI原生DevFlow正在探索"契约先行、可观测即代码、测试即推理"的新范式。

方向三：接受不完美评估，拥抱渐进逼近

完美的评估体系不存在。但不完美的评估远好于没有评估。

一些实际可操作的做法：

用多组不完美的指标交叉验证，降低单一指标的偏差
定期用人类评估校准自动化指标，防止系统性漂移
对评估结果保持元评估：定期检查评估体系本身是否在失效
建立"评估置信度"机制：对评估结果标注可信度等级，对低置信度结果进行人工复核

方向四：区分"路灯下找钥匙"和"黑暗中摸索"

承认路灯效应的存在，意味着需要一种"反路灯思维"：

路灯下（评估成熟的领域）：

可以快速迭代、规模化部署
追求效率最大化
用标准化流程降低成本

路灯外（评估困难的领域）：

小规模试验、探索性验证
投入评估基础设施建设
容忍更高的失败率，但保留学习价值
建立定性评估方法，不执着于量化

两者都需要。但行业当前严重偏向前者。如果所有资源都投向容易评估的领域，我们永远不会知道路灯外面有什么。

方向五：行业协作建立开源评估标准

单个企业很难独立解决开放式评估问题。需要行业协作：

建立开放式的评估基准（不限于封闭式任务的标准答案式评估）
分享评估方法和校准数据
发展评估工具的第三方生态

当前的问题是，评估标准主要由头部实验室制定，而这些标准天然倾向于封闭式任务（因为benchmark就是封闭式任务的传统领地）。需要更多来自应用端的评估标准制定者。

一个需要警惕的行业趋势

2026年的AI行业正在加速向"可评估即有价值"的方向倾斜。

AI编程工具拿到了最多融资。AI客服系统成为了标准配置。AI数据分析工具（能直接输出数字的）蓬勃发展。而AI辅助决策、AI创意生成、AI教育个性化这些更开放但更有深度的场景，获得的关注远远不够。

这不是市场选择的结果，是评估基础设施不均衡的结果。

如果这个趋势持续下去，我们会得到一个"很高效但很浅"的AI应用生态。就像一个人只吃容易消化的食物，营养均衡但不一定健康。或者更准确地说，我们会得到一个在"所有可被精确测量的事情上"做得很好的AI行业，但永远不知道在"无法被精确测量的事情上"错过了什么。

写在最后

Lun Wang的那篇博客标题没有用任何夸张的词汇。一个从Google DeepMind离职的研究员，选择用4000词平实地讨论评估问题。没有炒作，没有声明，只是把自己观察到的事实写出来。

但他说出了一个很多人隐约感觉到但说不出的问题：我们可能正在用错误的尺子，建造一个看起来正确但地基有裂缝的AI大厦。

路灯效应不是AI独有的问题。医学研究中也有"可测量的偏差"（Measurability Bias），教育领域也有"标准化考试导致教学应试化"的争论。天文学家卡尔·萨根在讲述路灯效应时说：钥匙可能不在路灯下，但在那里找要容易得多。

在AI领域，这个问题的严重性被模型的黑箱特性进一步放大。当你不知道模型在做什么，也不知道你在测什么，你怎么确定你在正确的方向上？

这个问题目前没有完美答案。但能提出正确的问题，本身就是进步。

而如果你是正在做AI应用的产品经理或技术决策者，下次立项时不妨多问一句：我们选这个场景，是因为它真正有价值，还是因为它最容易评估？

如果答案是后者，你至少应该意识到路灯在哪里，以及路灯外面可能有什么。

数据来源：

Lun Wang博客内容及CSDN解读文章（2026-05-25）：https://blog.csdn.net/techforward/article/details/161379068
SITS 2026大会数据（2026-05-08）：企业AI试点项目73%失败率、组织能力缺口分析
AI评估困境分析（CSDN，2025-01）：标准化评估与实际应用脱节问题
AI应用商业化困境分析（今日头条，2025-03）：企业AI应用ROI调查数据
德勤AI应用案例报告（2025）：AI六种价值创造方式、六大行业应用分析

企业官网建设流程全解析