知识图谱 + 向量检索：让 Wiki 从能用变成好用-二趣网

上一篇讲了 KnowFlow 的前半段流水线：把一篇 URL 喂进去，经过来源检测、抓取、提取、编译，最终生成一篇结构清晰的 Wiki 页面。

到这里其实已经能用了——每篇知识素材都有了归处，不再是散落在书签栏里的死链接。

但你很快会发现一个问题：这些 Wiki 页面之间是断的。页面 A 提到了某个概念 B ，你得自己翻去找；更头疼的是，当你脑子里只有一个模糊的印象——“之前看过一篇讲 AI Agent 框架的文章，叫啥来着？”——翻 Wiki 目录大概率翻不到，因为关键词对不上。

说白了，有了结构化的页面，但缺了两样东西：页面之间的关系，和模糊查询的能力。

这篇就讲这两件事。

Part A ：知识图谱——给 Wiki 画一张关系网

图是怎么来的

整个流程不需要你手动操作。 Wiki 页面生成之后，graph_builder.py会读取 Wiki 目录下所有.md文件，解析其中的[[链接]]语法，提取实体和关系，输出两份产物：

•knowledge-graph.json— 结构化数据：节点（ Entity/Concept ）+ 边（ Relations: created_by 、 used_by 、 compared_with 等）

•graph/graph.html— 基于 vis.js 的力导向可视化页面（自包含，无需服务器）

一条命令搞定：

python3 scripts/graph_builder.py

生成完毕后，跑knowflow graph或者直接用浏览器打开graph/graph.html就能看到。

图谱长什么样

先说视觉层面——vis.js 的力导向图有几个直观的映射规则：

•节点大小= 被引用的次数（引用越多，圆越大）

•节点颜色= 类型区分（蓝色是来源，紫色是实体，绿色是概念，橙色是对比类）

•节点形状= 进一步区分（方形 / 圆点 / 菱形 / 六边形）

•连线粗细= 关系强度

•全部可拖拽、可缩放、可点击查看详情

目前我自己的数据量是145 个节点、 791 条关联。规模不算大，但已经能看出一些有意思的东西——比如两篇看起来没什么关系的文章，图谱上显示它们共同引用了同一个概念。这种关联在逐篇阅读的时候很容易被忽略，但图谱把它直接摆在你面前。

图谱的实际价值

说到底，知识图谱不是用来看的，是帮你发现没想到的关联。

举个实际的例子：当你 ingest 了 MCP 协议相关的文章和 Anthropic 的介绍文章之后，图谱上会出现一条created_by的边，把这两者连起来。读单篇文章的时候未必会注意到这个关系，但图谱上这条线一目了然。

当然， 145 个节点距离"知识发现"级别还有距离。不过有个好处：每 ingest 一篇新内容，节点数和边数都会增长。到 200+ 节点的时候，图谱能揭示的隐藏关联会完全不同。这是个越用越强的系统。

Part B ：向量检索——让模糊问题也能找到答案

为什么不能只用关键词搜索

Wiki 已经有了清晰的结构、标题和分类，看起来用关键词匹配就够了。但实际用起来会碰到两类很常见的问题：

第一，用户的问题往往是模糊的。 “那个 AI 知识管理工具叫啥？”——这句话里没有任何精确关键词能匹配到某篇 Wiki 标题。你没法指望搜索词恰好等于文章标题。

第二，同义词问题。你搜"LLM"，但 Wiki 里写的是"大语言模型"——关键词匹配直接失效。更别说中英文混用的情况了。

这两类问题在知识管理的日常使用中出现频率极高。所以需要一种能理解"意思"的检索方式。

Embedding 原理（用大白话说）

向量检索的核心是 Embedding——把文字变成一串数字（向量）。

听着有点抽象，但原理其实不难理解。想象一个二维坐标系：把"苹果"（水果）放在 [0.8, 0.9] 的位置，“苹果”（公司）放在 [0.7, 0.3]，“橘子”（水果）放在 [0.85, 0.88]，“微软”（公司）放在 [0.65, 0.28]。

看出来了吧——水果跟水果坐标接近，公司跟公司坐标接近，两个"苹果"虽然字面相同反而离得远。这就是 Embedding 在做的事：根据语义而非字面来度量距离。

实际使用中当然不会只用二维，而是几百维的向量，精度高得多。 KnowFlow 使用的是智谱 embedding-3模型（ 1024 维），将所有 Wiki 页面向量化后存入本地 JSON 索引文件（.vector-index.json），查询时实时计算余弦相似度。

建索引和查询的命令如下：

python3 scripts/vector_store.py buildpython3 scripts/vector_store.py query "MCP 协议是什么"python3 scripts/vector_store.py stats

向量检索：两步找到答案

当你跑knowflow query "MCP 协议是什么"的时候，背后其实走了两步：

第一步：向量搜索。把你的问题也转成 embedding 向量，在向量空间里找距离最近的 K 个 Wiki 页面。这一步是语义匹配——用词不同没关系，意思接近就能找到。比如"AI Agent"和"智能体框架"在向量空间里的距离就很近。

第二步：排序返回。结果按余弦相似度分数从高到低排列，返回 Top-K ，每条带有相似度分数和来源文件路径，可直接点开查看原文。

当前实现是纯向量检索。后续版本计划加入关键词匹配作为补充——专有名词（如"MCP"）在向量空间里不一定能精确命中，关键词兜底可以避免这类漏检。

实际查询效果

跑一下看看：

$ python3 scripts/vector_store.py query "知识管理工具"🔍 查询: "知识管理工具"📋 Top 4 结果: 📄 [0.892] sources/gist-karpathy-llm-wiki.md(3240 chars | sources) 预览: Karpathy 提出的个人知识库构建方法论，让 LLM Agent 将素材编译成结构化 Wiki... 💡 [0.846] concepts/llm-wiki-methodology.md(2156 chars | concepts) 预览: LLM Wiki 方法论的核心定义，包括编译 vs 检索、三种模板... 📄 [0.781] comparisons/claude-vs-gpt.md(1890 chars | comparisons) 预览: Claude 与 GPT 的多维度对比分析... 💡 [0.723] concepts/token-economics.md(1560 chars | concepts) 预览: Token 经济学详解，包括输入/输出/token 限制...

第一条相似度 0.892——搜的是"知识管理工具"，匹配到的是方法论文章。靠的不是字面匹配而是语义理解。

全局视角：完整的数据流

把上篇和这篇串起来，整个 KnowFlow 的数据流是这样的：

URL → Fetch(Raw) → Extract(JSON) → Compile(Wiki) ├─→ graph_builder.py → vis.js 可视化 (knowflow graph) └─→ vector_store.py → Embedding 检索 (knowflow query)

Wiki 页面是中间产物，同时流向两个方向：一个变成可交互的知识图谱，一个变成可语义检索的向量索引。再加上knowflow health做全局健康检查——四个命令，覆盖四条核心路径。

动手试一试

光看文章不够，建议你亲自跑一遍，感受一下从 URL 到可查询知识库的完整链路：

git clone https://github.com/jerryjiao/knowflow.git &&cd knowflowbash scripts/ingest.sh https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94fpython3 scripts/vector_store.py buildpython3 scripts/vector_store.py query "Karpathy 提了什么方法论"python3 scripts/graph_builder.pyopen graph/graph.html

这几条命令跑完，你会看到：一篇 Karpathy 的 Gist 被转化成了结构化的 Wiki 页面、语义搜索能精准找到它、知识图谱里出现了新的节点和关联。整个过程不到两分钟。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

企业官网建设流程全解析

Part A ：知识图谱——给 Wiki 画一张关系网

图是怎么来的

图谱长什么样

图谱的实际价值

Part B ：向量检索——让模糊问题也能找到答案

为什么不能只用关键词搜索

Embedding 原理（用大白话说）

向量检索：两步找到答案

实际查询效果

全局视角：完整的数据流

动手试一试

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

Part A ：知识图谱——给 Wiki 画一张关系网

图是怎么来的

图谱长什么样

图谱的实际价值

Part B ：向量检索——让模糊问题也能找到答案

为什么不能只用关键词搜索

Embedding 原理（用大白话说）

向量检索：两步找到答案

实际查询效果

全局视角：完整的数据流

动手试一试

学AI大模型的正确顺序，千万不要搞错了

热门文章

文章分类

标签云

相关文章

LVGUI动态字体加载实战：如何在不重新编译固件的情况下，为你的STM32设备切换多套中文字体？

不止于搭建：深入理解SQLi-Labs靶场背后的PHP+MySQL环境配置原理

Gitee领跑本土化开发体验：深度解析国内代码托管平台的选择之道

需要专业的网站建设服务？