實驗：qmd 原子化筆記方案驗證（物理 Ch1）

理論基礎

根據 qmd 原子化筆記方案，將知識以 LLM 增強的原子化 Markdown 筆記存放，用 連結 建立關聯，再用 qmd 混合搜尋做檢索，可以在低成本下實現有效的知識問答系統。核心假設是內容品質勝過檢索技術——把算力前置投入在高品質筆記建構，比用複雜架構（如 Graph RAG）補救低品質 chunk 更有效。

本實驗作為 115 OJT 創新專案的技術路線驗證（qmd vs RAG），以高中 108 課綱物理教材 Chapter 1 為測試場景。

假說

Claude Opus 4.5（multimodal）可以從全圖掃描 PDF 直接生成結構化原子筆記
qmd 的混合搜尋（BM25 + 向量）能有效檢索中文物理筆記
筆記中的 連結 可作為 agentic flow 的遍歷路徑，讓 LLM 沿連結擴展 context
此方案在學生問答和老師搜題場景下可用

實驗設計

期間：2026-02-05（一天內完成建構 + 測試）
具體行動：
1. 用 Claude Code 讀取 44 頁全圖掃描 PDF，生成 307 則原子筆記（概念 22 + 科學家 55 + 公式 10 + 應用 5 + 題目 ~210 + MOC 4）
2. 用 qmd 建立索引（BM25 + 向量 embedding）
3. 分四個場景測試查詢效果
成功指標：四個場景中至少 3 個可用（能找到相關筆記並組合出合理回答）

執行記錄

日期	觀察	備註
02-05 上午	PDF → 307 則筆記生成完成	實際筆記量 ~335（原估 138），主因科學家和題目數超預期
02-05 中午	qmd index + embed 完成	首次跑 `qmd query` 觸發 OOM 死當
02-05 下午	OOM 修復 + 四場景測試完成	加 8GB btrfs swap + swappiness=60

結果與反思

結果

假說驗證：3/4 通過，1/4 部分通過。整體判定為可行。

假說	結果	說明
① PDF → 原子筆記	✅ 通過	Opus 4.5 multimodal 可直接從掃描圖片識別文字、公式、圖表，一天內完成 307 則
② qmd 中文檢索	⚠️ 部分通過	單詞 BM25 和向量搜尋有效；但 BM25 多詞查詢做 AND 匹配易零結果
③ 連結 agentic flow	✅ 通過	LLM 可沿 `連結` 追蹤 2-3 層，組合多則筆記的 context
④ 學生/老師場景可用	✅ 通過（加 grep fallback 後）	見下方場景測試

場景測試詳情

場景	測試問題	結果	分析
學生問概念	「什麼是全反射？」	⚠️	找到光纖通訊相關筆記，連結追蹤可行；但全反射非 Ch1 範圍，無專門概念筆記
學生問解題	「光速怎麼測量的？」	✅	找到菲左、光速測量題目，連結追蹤到佛科/牛頓
老師按概念搜題	「找所有電磁學選擇題」	✅	grep 標籤搜尋 12/12 全量召回；qmd search 只找到 3/12
老師出相似題	基於庫侖定律題目	✅	找到完整知識網（概念+公式+科學家+題目），context 充足

發現的限制

問題	嚴重性	解法
BM25 多詞 AND 匹配	中	查詢時只用單詞；複合條件改用 grep
qmd query 無 GPU 太慢	中	改用 search + vsearch 分開跑，由 LLM 判斷相關性
全量召回需求	高	加入 grep 標籤搜尋作為第三層 fallback，已驗證有效
跨章節概念缺口	低	預期行為，處理後續章節自然補上

與 Graph RAG 的比較（推論）

比較項	qmd + 原子化筆記（實測）	Graph RAG（推論）
建構時間	1 天（307 則筆記）	預估 3-5 天（entity extraction + graph 建置）
建構成本	Claude Opus 4.5 API ~$5-10	同等 LLM 成本 × 3-5 倍（多輪處理）
本地運行	✅ qmd 全本地，0 運行費用	❌ 需 Neo4j + 推論 GPU 或雲端 API
維護成本	改 .md → `qmd update && qmd embed`	改原文 → 重建 chunk + 重建圖譜
硬體需求	8GB RAM 筆電即可（加 swap）	需 GPU server
回答品質	依賴筆記品質（LLM 增強過）	依賴 chunk + 圖譜品質
全量召回	grep 標籤保證 100%	需查詢 Neo4j
Agentic flow	天然支援（`連結` 即遍歷路徑）	需額外實作圖譜遍歷邏輯

學到什麼

三層搜尋互補：語意搜尋（vsearch）找意圖相近的筆記、關鍵字搜尋（search）精確匹配、標籤搜尋（grep）保證全量召回。三層各有擅長，缺一不可
BM25 對中文多詞查詢不友善，務必用單詞搜尋
硬體不是障礙：8GB RAM 筆電加 swap 就能跑，但 qmd query（reranking）需要 GPU 才實用
筆記品質確實是關鍵：庫侖定律場景（筆記完整）表現遠優於全反射場景（筆記缺失），印證內容品質勝過檢索技術
一天可完成一章驗證：從 PDF 到可查詢的知識庫，單人一天可完成，開發速度遠快於 Graph RAG

對 OJT 的建議

技術路線：推薦 qmd + 原子化筆記，不推薦 Graph RAG。理由：建構快、維護簡單、本地運行零成本、一人即可操作
部署方案：如果公司有 AMD GPU server，可啟用 qmd query 的 reranking 獲得更好效果；如果只有 CPU，用 search + vsearch + grep 三層策略同樣可用
下一步：選 1-2 個科目（物理 + 數學？）擴展到完整課綱，累積足夠內容後做使用者測試
風險：數學科的公式密度更高，需另外驗證 LaTeX 搜尋效果

後續行動

將此報告分享給 A 組（可部署到 ojt-garden）
在 OJT 組會中報告技術路線驗證結果
決定是否擴展到 Chapter 2-6 完整課綱
如果要對外 demo，需處理 qmd query 效能問題（GPU server 或改用 API reranker）

115 OJT 創新專案

探索

實驗：qmd 原子化筆記方案驗證（物理 Ch1）

實驗：qmd 原子化筆記方案驗證（物理 Ch1）

理論基礎

假說

實驗設計

執行記錄

結果與反思

結果

場景測試詳情

發現的限制

與 Graph RAG 的比較（推論）

學到什麼

對 OJT 的建議

後續行動

連結

關係圖譜

目錄

反向連結