RAG 與 Graph RAG 的本質差異
傳統 RAG 把文件切成 chunk,每個 chunk 獨立存在,查詢時用向量相似度找最相關的幾塊塞給 LLM。chunk 之間是孤立的,不知道彼此的關係。
Graph RAG(微軟 2024 年提出)在此基礎上多建一層知識圖譜。先用 LLM 從文本中提取實體和關係,建成一張圖,查詢時除了語意檢索,還能沿著圖譜的邊做關聯查詢。
兩者的核心差異在於:傳統 RAG 回答「跟這段文字最像的內容是什麼」,Graph RAG 回答「跟這個概念有關聯的概念有哪些」。
Graph RAG 的代價是建構成本高(LLM token 消耗是傳統 RAG 的 3-5 倍)、維護複雜(內容和圖譜分開存放,需同步更新),以及需要額外的圖資料庫基礎設施。它真正不可替代的場景是需要多跳推理但中間節點的文字內容跟問題語意不相近的情況。
為什麼重要
技術選型時容易被 Graph RAG 的概念吸引,但多數應用場景中,只要內容本身的品質夠好、有明確的交叉引用,傳統語意檢索就能處理大部分問題。理解兩者差異能避免過度工程。
連結
- 上層:Claude 對話 - 高中教材知識庫的 RAG 實現方案
- 相關:qmd 原子化筆記方案、內容品質勝過檢索技術
參考
- 微軟 Graph RAG 論文 (2024)
- https://claude.ai/share/0f5e119a-e76c-412c-86a8-b843dd335c4b