實驗:qmd 原子化筆記方案驗證(物理 Ch1)
理論基礎
根據 qmd 原子化筆記方案,將知識以 LLM 增強的原子化 Markdown 筆記存放,用 連結 建立關聯,再用 qmd 混合搜尋做檢索,可以在低成本下實現有效的知識問答系統。核心假設是 內容品質勝過檢索技術——把算力前置投入在高品質筆記建構,比用複雜架構(如 Graph RAG)補救低品質 chunk 更有效。
本實驗作為 115 OJT 創新專案 的技術路線驗證(qmd vs RAG),以高中 108 課綱物理教材 Chapter 1 為測試場景。
假說
- Claude Opus 4.5(multimodal)可以從全圖掃描 PDF 直接生成結構化原子筆記
- qmd 的混合搜尋(BM25 + 向量)能有效檢索中文物理筆記
- 筆記中的
連結 可作為 agentic flow 的遍歷路徑,讓 LLM 沿連結擴展 context
- 此方案在學生問答和老師搜題場景下可用
實驗設計
- 期間:2026-02-05(一天內完成建構 + 測試)
- 具體行動:
- 用 Claude Code 讀取 44 頁全圖掃描 PDF,生成 307 則原子筆記(概念 22 + 科學家 55 + 公式 10 + 應用 5 + 題目 ~210 + MOC 4)
- 用 qmd 建立索引(BM25 + 向量 embedding)
- 分四個場景測試查詢效果
- 成功指標:四個場景中至少 3 個可用(能找到相關筆記並組合出合理回答)
執行記錄
| 日期 | 觀察 | 備註 |
|---|
| 02-05 上午 | PDF → 307 則筆記生成完成 | 實際筆記量 ~335(原估 138),主因科學家和題目數超預期 |
| 02-05 中午 | qmd index + embed 完成 | 首次跑 qmd query 觸發 OOM 死當 |
| 02-05 下午 | OOM 修復 + 四場景測試完成 | 加 8GB btrfs swap + swappiness=60 |
結果與反思
結果
假說驗證:3/4 通過,1/4 部分通過。整體判定為可行。
| 假說 | 結果 | 說明 |
|---|
| ① PDF → 原子筆記 | ✅ 通過 | Opus 4.5 multimodal 可直接從掃描圖片識別文字、公式、圖表,一天內完成 307 則 |
| ② qmd 中文檢索 | ⚠️ 部分通過 | 單詞 BM25 和向量搜尋有效;但 BM25 多詞查詢做 AND 匹配易零結果 |
| ③ 連結 agentic flow | ✅ 通過 | LLM 可沿 連結 追蹤 2-3 層,組合多則筆記的 context |
| ④ 學生/老師場景可用 | ✅ 通過(加 grep fallback 後) | 見下方場景測試 |
場景測試詳情
| 場景 | 測試問題 | 結果 | 分析 |
|---|
| 學生問概念 | 「什麼是全反射?」 | ⚠️ | 找到光纖通訊相關筆記,連結追蹤可行;但全反射非 Ch1 範圍,無專門概念筆記 |
| 學生問解題 | 「光速怎麼測量的?」 | ✅ | 找到菲左、光速測量題目,連結追蹤到佛科/牛頓 |
| 老師按概念搜題 | 「找所有電磁學選擇題」 | ✅ | grep 標籤搜尋 12/12 全量召回;qmd search 只找到 3/12 |
| 老師出相似題 | 基於庫侖定律題目 | ✅ | 找到完整知識網(概念+公式+科學家+題目),context 充足 |
發現的限制
| 問題 | 嚴重性 | 解法 |
|---|
| BM25 多詞 AND 匹配 | 中 | 查詢時只用單詞;複合條件改用 grep |
| qmd query 無 GPU 太慢 | 中 | 改用 search + vsearch 分開跑,由 LLM 判斷相關性 |
| 全量召回需求 | 高 | 加入 grep 標籤搜尋作為第三層 fallback,已驗證有效 |
| 跨章節概念缺口 | 低 | 預期行為,處理後續章節自然補上 |
與 Graph RAG 的比較(推論)
| 比較項 | qmd + 原子化筆記(實測) | Graph RAG(推論) |
|---|
| 建構時間 | 1 天(307 則筆記) | 預估 3-5 天(entity extraction + graph 建置) |
| 建構成本 | Claude Opus 4.5 API ~$5-10 | 同等 LLM 成本 × 3-5 倍(多輪處理) |
| 本地運行 | ✅ qmd 全本地,0 運行費用 | ❌ 需 Neo4j + 推論 GPU 或雲端 API |
| 維護成本 | 改 .md → qmd update && qmd embed | 改原文 → 重建 chunk + 重建圖譜 |
| 硬體需求 | 8GB RAM 筆電即可(加 swap) | 需 GPU server |
| 回答品質 | 依賴筆記品質(LLM 增強過) | 依賴 chunk + 圖譜品質 |
| 全量召回 | grep 標籤保證 100% | 需查詢 Neo4j |
| Agentic flow | 天然支援(連結 即遍歷路徑) | 需額外實作圖譜遍歷邏輯 |
學到什麼
- 三層搜尋互補:語意搜尋(vsearch)找意圖相近的筆記、關鍵字搜尋(search)精確匹配、標籤搜尋(grep)保證全量召回。三層各有擅長,缺一不可
- BM25 對中文多詞查詢不友善,務必用單詞搜尋
- 硬體不是障礙:8GB RAM 筆電加 swap 就能跑,但 qmd query(reranking)需要 GPU 才實用
- 筆記品質確實是關鍵:庫侖定律場景(筆記完整)表現遠優於全反射場景(筆記缺失),印證 內容品質勝過檢索技術
- 一天可完成一章驗證:從 PDF 到可查詢的知識庫,單人一天可完成,開發速度遠快於 Graph RAG
對 OJT 的建議
- 技術路線:推薦 qmd + 原子化筆記,不推薦 Graph RAG。理由:建構快、維護簡單、本地運行零成本、一人即可操作
- 部署方案:如果公司有 AMD GPU server,可啟用 qmd query 的 reranking 獲得更好效果;如果只有 CPU,用 search + vsearch + grep 三層策略同樣可用
- 下一步:選 1-2 個科目(物理 + 數學?)擴展到完整課綱,累積足夠內容後做使用者測試
- 風險:數學科的公式密度更高,需另外驗證 LaTeX 搜尋效果
後續行動
連結