上一篇讲了 KnowFlow 的前半段流水线:把一篇 URL 喂进去,经过来源检测、抓取、提取、编译,最终生成一篇结构清晰的 Wiki 页面。
到这里其实已经能用了——每篇知识素材都有了归处,不再是散落在书签栏里的死链接。
但你很快会发现一个问题:这些 Wiki 页面之间是断的。页面 A 提到了某个概念 B ,你得自己翻去找;更头疼的是,当你脑子里只有一个模糊的印象——“之前看过一篇讲 AI Agent 框架的文章,叫啥来着?”——翻 Wiki 目录大概率翻不到,因为关键词对不上。
说白了,有了结构化的页面,但缺了两样东西:页面之间的关系,和模糊查询的能力。
这篇就讲这两件事。
Part A :知识图谱——给 Wiki 画一张关系网
图是怎么来的
整个流程不需要你手动操作。 Wiki 页面生成之后,graph_builder.py会读取 Wiki 目录下所有.md文件,解析其中的[[链接]]语法,提取实体和关系,输出两份产物:
•knowledge-graph.json— 结构化数据:节点( Entity/Concept )+ 边( Relations: created_by 、 used_by 、 compared_with 等)
•graph/graph.html— 基于 vis.js 的力导向可视化页面(自包含,无需服务器)
一条命令搞定:
python3 scripts/graph_builder.py生成完毕后,跑knowflow graph或者直接用浏览器打开graph/graph.html就能看到。
图谱长什么样
先说视觉层面——vis.js 的力导向图有几个直观的映射规则:
•节点大小= 被引用的次数(引用越多,圆越大)
•节点颜色= 类型区分(蓝色是来源,紫色是实体,绿色是概念,橙色是对比类)
•节点形状= 进一步区分(方形 / 圆点 / 菱形 / 六边形)
•连线粗细= 关系强度
•全部可拖拽、可缩放、可点击查看详情
目前我自己的数据量是145 个节点、 791 条关联。规模不算大,但已经能看出一些有意思的东西——比如两篇看起来没什么关系的文章,图谱上显示它们共同引用了同一个概念。这种关联在逐篇阅读的时候很容易被忽略,但图谱把它直接摆在你面前。
图谱的实际价值
说到底,知识图谱不是用来看的,是帮你发现没想到的关联。
举个实际的例子:当你 ingest 了 MCP 协议相关的文章和 Anthropic 的介绍文章之后,图谱上会出现一条created_by的边,把这两者连起来。读单篇文章的时候未必会注意到这个关系,但图谱上这条线一目了然。
当然, 145 个节点距离"知识发现"级别还有距离。不过有个好处:每 ingest 一篇新内容,节点数和边数都会增长。到 200+ 节点的时候,图谱能揭示的隐藏关联会完全不同。这是个越用越强的系统。
Part B :向量检索——让模糊问题也能找到答案
为什么不能只用关键词搜索
Wiki 已经有了清晰的结构、标题和分类,看起来用关键词匹配就够了。但实际用起来会碰到两类很常见的问题:
第一,用户的问题往往是模糊的。 “那个 AI 知识管理工具叫啥?”——这句话里没有任何精确关键词能匹配到某篇 Wiki 标题。你没法指望搜索词恰好等于文章标题。
第二,同义词问题。 你搜"LLM",但 Wiki 里写的是"大语言模型"——关键词匹配直接失效。更别说中英文混用的情况了。
这两类问题在知识管理的日常使用中出现频率极高。所以需要一种能理解"意思"的检索方式。
Embedding 原理(用大白话说)
向量检索的核心是 Embedding——把文字变成一串数字(向量)。
听着有点抽象,但原理其实不难理解。想象一个二维坐标系:把"苹果"(水果)放在 [0.8, 0.9] 的位置,“苹果”(公司)放在 [0.7, 0.3],“橘子”(水果)放在 [0.85, 0.88],“微软”(公司)放在 [0.65, 0.28]。
看出来了吧——水果跟水果坐标接近,公司跟公司坐标接近,两个"苹果"虽然字面相同反而离得远。这就是 Embedding 在做的事:根据语义而非字面来度量距离。
实际使用中当然不会只用二维,而是几百维的向量,精度高得多。 KnowFlow 使用的是智谱 embedding-3模型( 1024 维),将所有 Wiki 页面向量化后存入本地 JSON 索引文件(.vector-index.json),查询时实时计算余弦相似度。
建索引和查询的命令如下:
python3 scripts/vector_store.py buildpython3 scripts/vector_store.py query "MCP 协议是什么"python3 scripts/vector_store.py stats向量检索:两步找到答案
当你跑knowflow query "MCP 协议是什么"的时候,背后其实走了两步:
第一步:向量搜索。 把你的问题也转成 embedding 向量,在向量空间里找距离最近的 K 个 Wiki 页面。这一步是语义匹配——用词不同没关系,意思接近就能找到。比如"AI Agent"和"智能体框架"在向量空间里的距离就很近。
第二步:排序返回。 结果按余弦相似度分数从高到低排列,返回 Top-K ,每条带有相似度分数和来源文件路径,可直接点开查看原文。
当前实现是纯向量检索。后续版本计划加入关键词匹配作为补充——专有名词(如"MCP")在向量空间里不一定能精确命中,关键词兜底可以避免这类漏检。
实际查询效果
跑一下看看:
$ python3 scripts/vector_store.py query "知识管理工具"🔍 查询: "知识管理工具"📋 Top 4 结果: 📄 [0.892] sources/gist-karpathy-llm-wiki.md(3240 chars | sources) 预览: Karpathy 提出的个人知识库构建方法论,让 LLM Agent 将素材编译成结构化 Wiki... 💡 [0.846] concepts/llm-wiki-methodology.md(2156 chars | concepts) 预览: LLM Wiki 方法论的核心定义,包括编译 vs 检索、三种模板... 📄 [0.781] comparisons/claude-vs-gpt.md(1890 chars | comparisons) 预览: Claude 与 GPT 的多维度对比分析... 💡 [0.723] concepts/token-economics.md(1560 chars | concepts) 预览: Token 经济学详解,包括输入/输出/token 限制...第一条相似度 0.892——搜的是"知识管理工具",匹配到的是方法论文章。靠的不是字面匹配而是语义理解。
全局视角:完整的数据流
把上篇和这篇串起来,整个 KnowFlow 的数据流是这样的:
URL → Fetch(Raw) → Extract(JSON) → Compile(Wiki) ├─→ graph_builder.py → vis.js 可视化 (knowflow graph) └─→ vector_store.py → Embedding 检索 (knowflow query)Wiki 页面是中间产物,同时流向两个方向:一个变成可交互的知识图谱,一个变成可语义检索的向量索引。再加上knowflow health做全局健康检查——四个命令,覆盖四条核心路径。
动手试一试
光看文章不够,建议你亲自跑一遍,感受一下从 URL 到可查询知识库的完整链路:
git clone https://github.com/jerryjiao/knowflow.git &&cd knowflowbash scripts/ingest.sh https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94fpython3 scripts/vector_store.py buildpython3 scripts/vector_store.py query "Karpathy 提了什么方法论"python3 scripts/graph_builder.pyopen graph/graph.html这几条命令跑完,你会看到:一篇 Karpathy 的 Gist 被转化成了结构化的 Wiki 页面、语义搜索能精准找到它、知识图谱里出现了新的节点和关联。整个过程不到两分钟。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~