WriteAhead AI 批閱品質 vs Google AI 對比測試報告

背景

2026-02-23 與小任聊到 WriteAhead 的 AI 批閱功能。嘗試把同樣的作文題目、題目內容、學生作文直接餵給 Google AI 模式，發現 Google AI 的批閱結果更準確。決定做正式的對比測試以產出具體證據。

測試設計

題目：臺灣自然生態代表（要求分兩段：第一段描述動植物外形特徵習性+照片構圖、第二段寫選擇原因）

編號	作文類型	測試目的
A	完全離題＋大量文法錯誤（超市購物記敘文）	一致性測試＋離題偵測
B	半切題（寫臺灣黑熊，但只有一段，缺選擇原因）	題目需求達成度偵測
C	切題但前後矛盾（櫻花鉤吻鮭：第一段「瀕臨滅絕僅 5,000 條」、第二段「最常見到處都是」）	內容矛盾偵測
D	切題且合理的正常作文（臺灣寶石鍬形蟲）	基準對照組

測試結果

Round 1：一致性測試（作文 A 跑 3 次）

WriteAhead

	A1	A2	A3
總分	0/20	2/20	0/20
文法	0/5	1/5	0/5
字彙	0/5	1/5	0/5
內容	0/5	0/5	0/5
組織	0/5	0/5	0/5
文法評語	有許多語法錯誤，但主要問題是內容不相關	有很多語法錯誤，但仍然能傳達一些意思	這篇文章不相關，因此無法在題目的上下文中評估語法

文法改錯 tab：三次完全相同（go→went, seen→saw, buyed→bought 等）→ 確認為 rule-based
用詞建議 tab：三次完全相同 → 確認為 rule-based
批閱結果 tab：分數和評語每次都不同 → 確認為 AI 生成，有 temperature 漂移

發現：

⚠️ 分數漂移：同一篇作文總分在 0-2 之間跳動
⚠️ 文法評語邏輯不一致：三次對「離題文章該怎麼評文法」的回答完全不同
⚠️ 用詞建議品質問題：carry→with、buy→include/:、realize→decides 等建議不合理（rule-based 引擎的問題）

Google AI

	A1	A2	A3
總分	9/20	10/15*	11/20
文法	5	5	5
字彙	4	5	5
內容	0	0	0
組織	0	(併入建議)	1

*A2 格式變成 3 維度 /15，非 4 維度 /20

Google AI 也有漂移（字彙 4→5、組織 0→1、A2 格式變了）
但核心判斷完全一致：三次都偵測離題、都識別出 Wikipedia 抄襲、都給出兩段式修訂建議

Round 1 結論：WriteAhead 漂移發生在核心判斷（文法評語邏輯矛盾），Google AI 漂移只在邊緣分數（不影響核心判斷）

Round 2：題目需求達成度（作文 B）

	WriteAhead	Google AI
總分	13/20	15/20
文法	4/5	5/5
字彙	4/5	4/5
內容	3/5	3/5
組織	2/5	3/5
偵測缺第二段	✅ 「缺少第二段解釋選擇原因」	✅ 「第二段：缺失」
具體修訂建議	❌	✅ 指出精確分段位置 + 提供第二段範文
用詞提升建議	❌	✅ good at → agile/adept at

Round 2 結論：兩者都正確偵測到缺少第二段 ✅。Google AI 的回饋更具行動指引（精確分段位置、範文、用詞升級建議）

Round 3：矛盾偵測（作文 C）⚡ 最關鍵測試

	WriteAhead	Google AI
總分	17/20	12/20
文法	5/5	4/5
字彙	4/5	4/5
內容	4/5 「支持細節相關且發展良好」	1/5 「嚴重離題，前後完全矛盾」
組織	4/5 「兩段過渡流暢」	3/5 「段落清晰但邏輯不連貫」
矛盾偵測	❌ 完全沒發現	✅ 列為第一優先問題
事實查核	❌	✅ 指出櫻花鉤吻鮭只在武陵特定流域
修改建議	❌	✅ 具體修改方向 + 完整修訂範文

Google AI 的回饋：

內容邏輯矛盾（最嚴重的問題）

第一段：「國寶」且「瀕臨絕種」，僅存約 5,000 條

第二段：「台灣最常見的魚」、「隨處可見」、「輕易就能看到數百條」

修改建議：第二段理由應扣合「珍貴性」與「復育努力」

Round 3 結論：WriteAhead 給了一篇自相矛盾的作文 17/20 高分。這對學生的傷害是直接的——學生會以為自己寫得很好，不知道文章有致命邏輯錯誤。

Round 4：正常作文基準（作文 D）

	WriteAhead	Google AI
總分	20/20	19.5/20
文法	5/5	5/5
字彙	5/5	4.5/5
內容	5/5	5/5
組織	5/5	5/5
進階建議	❌	✅ 字彙變化度（choose→opt for/select）、色彩形容詞（iridescent/shimmering）

Round 4 結論：對正常好作文，兩者評分接近。但 Google AI 即使給高分仍提供可行的進階建議，WriteAhead 滿分後無任何進一步指引。

總結：五大關鍵發現

1. 🔴 矛盾偵測缺失（嚴重）

WriteAhead 完全不具備 coherence 檢查能力。前後段明顯矛盾的作文仍獲 17/20。這是產品層面的結構性缺陷。

2. 🔴 批閱結果分數漂移（嚴重）

同一篇作文三次批閱，總分在 0-2 之間跳動，文法評語邏輯每次不同。學生無法信任分數。

3. 🟡 Tab 間內部矛盾（中等）

「批閱結果」和「文法改錯」由不同 pipeline 產生，結果可能自相矛盾（文法 4/5 vs No errors found、文法 0/5 但改錯 tab 只列出 form errors）。

4. 🟡 用詞建議品質問題（中等）

Rule-based 引擎的建議有明顯錯誤：carry→with、buy→include/:、realize→decides/feels。雖然穩定不漂移，但品質本身有問題。

5. 🟢 題目需求檢查可運作（正面）

系統能偵測到缺少第二段等結構性問題，代表有讀取題目內容的能力。這是可以建立改進的基礎。

建議的回饋框架

向 PM/團隊提出時，不是「產品不行」，而是「發現品質 gap，補上後更有競爭力」：

展示 Round 3 的對比截圖（作文 C：WriteAhead 17/20 vs Google AI 12/20 + 矛盾分析）— 這是最有說服力的單一證據
承認 Round 2 的正面發現（缺第二段有偵測到）— 表明測試是公平的
提出具體改善方向：
- 在 AI prompt 中加入 coherence/consistency 檢查指令
- 統一批閱結果 tab 和文法改錯 tab 的判斷依據
- 降低 temperature 或加入 scoring rubric constraint 以減少分數漂移
- 加入修訂建議功能（目前完全沒有，Google AI 每篇都有）

115 OJT 創新專案

探索

WriteAhead AI 批閱品質 vs Google AI 對比觀察