RAG 实战：切分、Embedding、检索、重排一条线

大模型最让人头疼的一点是：它会很自然地编故事。而 RAG（Retrieval-Augmented Generation）要做的事很直接：在回答前先检索资料，把“依据”塞进上下文，让回答变得可追溯。

这篇按一条完整链路讲清楚：从文档入库到最终回答，中间每一步你都能解释“为什么这样做”。

RAG = 检索（找资料） + 生成（用资料回答）。

你可以把它理解为：

模型先翻书，再回答；而不是闭眼瞎编。

1
2
3

文档 -> 清洗 -> 切分(chunk) -> Embedding -> 向量库
                                |
用户问题 -> Embedding -> 检索 topK -> 重排(re-rank) -> 组 Prompt -> LLM 输出

切分常见坑：

经验建议（起步值）：

Embedding 的重点是“一致性”：

常见做法：

原因很简单：

建议 Prompt 结构：

并且明确要求：

RAG 的优化不能靠“感觉”，建议至少做：

RAG 做得好不好，关键不在“把向量库搭起来”，而在：

把这条链路跑通，你的大模型应用就会从“像在聊天”变成“像在查资料办事”。

封面与配图来自 Unsplash（免费使用授权）。

星苒鸭 · 博客