通用知识库维护规则
这个文件定义 LLM 在本知识库中工作的默认规则。目标是让知识库成为一个持续积累、可互链、可维护的 wiki,而不是一次性回答的缓存区。
1. 总原则
- 知识库分为三层:
- 原始资料/:原始输入,默认视为只读来源层,不直接改写原始材料;分类入口页位于 原始资料。 - Wiki 主体层:来源解读/、主题/、实体/、综合/、维护/;各分类说明页位于对应目录下的 总览.md。 - 规则层:本文件与 模板/;模板入口页位于 模板。
- 优先更新已有页面,而不是创建重复页面。
- 页面之间优先使用
[[双链]],尽量形成可浏览的网络。 - 中文命名优先;专有名词、技术术语、产品名可以保留英文。
- 所有高价值输出都应尽量沉淀为页面,而不是只留在对话里。
2. 页面类型说明
来源解读
用于承接单一来源的摘要、关键事实、观点、争议点和可回写知识。
主题
用于承接概念、方法、问题域、框架、原则、流程等知识。
实体
用于承接人物、组织、公司、产品、工具、地点、书籍等对象型页面。
综合
用于承接比较分析、阶段性结论、问答沉淀、专题综述、决策摘要等内容。
维护
用于承接巡检结果、冲突清单、知识缺口、孤儿页排查与维护建议。
3. Ingest 工作流
当有新来源进入时,默认按以下顺序执行:
- 将原始文件放入
原始资料/来源/,附件放入原始资料/assets/。 - 创建或更新一页
来源解读/页面,记录:
- 来源信息 - 核心要点 - 可信度或适用范围 - 与现有知识的关联 - 可回写到其他页面的新增内容
- 检查已有
主题/、实体/、综合/页面:
- 若已有相关页面,优先更新。 - 若尚无合适页面,再新建。
4. Query 工作流
当用户提问时,默认按以下方式工作:
- 先查看 索引,确定可能相关的页面。
- 再阅读目标页面,而不是无序扫描整个知识库。
- 回答时优先引用已有 wiki 页面中的整理结果。
- 如果回答过程产生了高价值的新结论、新比较或新结构化摘要:
- 将其沉淀到 综合/ 页面,或回写到相关 主题/ / 实体/ 页面。 - 更新 索引。 - 在 日志 中记录一次 query 沉淀。
5. Lint 工作流
定期执行巡检,重点检查:
- 是否存在重复页面或命名不一致页面
- 是否存在没有入链的孤儿页
- 是否有重要概念被提到但还没有独立页面
- 是否存在新来源已经推翻旧结论但页面未更新的情况
- 是否有断链、错误链接、引用缺失或来源不足
- 是否有可以从对话结论中回写的内容尚未落库
巡检结果应写入 维护/ 目录,并在 日志 中记录一次 lint。
6. 索引与日志维护要求
索引
索引.md是内容型目录。- 每次新增页面后,应把页面登记到正确分类。
- 每个分类下尽量附一句用途说明,必要时加一行简短摘要。
日志
日志.md是时间型记录。- 采用固定标题格式:
## [YYYY-MM-DD] 类型 | 标题 - 类型建议使用:
ingest、query、lint、setup - 日志按追加方式维护,不覆盖旧记录。
7. 模板使用要求
- 新建页面时,优先从
模板/目录复制结构。 - 模板中的 YAML frontmatter 尽量保持一致。
- 最低建议字段:
type、status、tags、related、sources、updated
8. 内容编写要求
- 先写清楚“这页是什么”,再写要点。
- 优先提炼可复用知识,不要机械摘录全文。
- 当不同来源存在冲突时,要明确标注冲突,而不是强行合并。
- 对不确定的内容,写明不确定性来源。
- 能链接就链接,减少孤立页面。
9. 当前阶段范围
当前知识库仍处于骨架阶段,暂不默认引入:
- 外部搜索引擎
- 向量数据库或额外 RAG 基础设施
- 自动化 ingest 脚本
优先把目录、模板、导航与维护习惯跑顺。