WriteAhead AI 批閱品質 vs Google AI 對比測試報告
背景
2026-02-23 與小任聊到 WriteAhead 的 AI 批閱功能。嘗試把同樣的作文題目、題目內容、學生作文直接餵給 Google AI 模式,發現 Google AI 的批閱結果更準確。決定做正式的對比測試以產出具體證據。
測試設計
題目:臺灣自然生態代表(要求分兩段:第一段描述動植物外形特徵習性+照片構圖、第二段寫選擇原因)
| 編號 | 作文類型 | 測試目的 |
|---|---|---|
| A | 完全離題+大量文法錯誤(超市購物記敘文) | 一致性測試+離題偵測 |
| B | 半切題(寫臺灣黑熊,但只有一段,缺選擇原因) | 題目需求達成度偵測 |
| C | 切題但前後矛盾(櫻花鉤吻鮭:第一段「瀕臨滅絕僅 5,000 條」、第二段「最常見到處都是」) | 內容矛盾偵測 |
| D | 切題且合理的正常作文(臺灣寶石鍬形蟲) | 基準對照組 |
測試結果
Round 1:一致性測試(作文 A 跑 3 次)
WriteAhead
| A1 | A2 | A3 | |
|---|---|---|---|
| 總分 | 0/20 | 2/20 | 0/20 |
| 文法 | 0/5 | 1/5 | 0/5 |
| 字彙 | 0/5 | 1/5 | 0/5 |
| 內容 | 0/5 | 0/5 | 0/5 |
| 組織 | 0/5 | 0/5 | 0/5 |
| 文法評語 | 有許多語法錯誤,但主要問題是內容不相關 | 有很多語法錯誤,但仍然能傳達一些意思 | 這篇文章不相關,因此無法在題目的上下文中評估語法 |
- 文法改錯 tab:三次完全相同(go→went, seen→saw, buyed→bought 等)→ 確認為 rule-based
- 用詞建議 tab:三次完全相同 → 確認為 rule-based
- 批閱結果 tab:分數和評語每次都不同 → 確認為 AI 生成,有 temperature 漂移
發現:
- ⚠️ 分數漂移:同一篇作文總分在 0-2 之間跳動
- ⚠️ 文法評語邏輯不一致:三次對「離題文章該怎麼評文法」的回答完全不同
- ⚠️ 用詞建議品質問題:carry→with、buy→include/:、realize→decides 等建議不合理(rule-based 引擎的問題)
Google AI
| A1 | A2 | A3 | |
|---|---|---|---|
| 總分 | 9/20 | 10/15* | 11/20 |
| 文法 | 5 | 5 | 5 |
| 字彙 | 4 | 5 | 5 |
| 內容 | 0 | 0 | 0 |
| 組織 | 0 | (併入建議) | 1 |
*A2 格式變成 3 維度 /15,非 4 維度 /20
- Google AI 也有漂移(字彙 4→5、組織 0→1、A2 格式變了)
- 但核心判斷完全一致:三次都偵測離題、都識別出 Wikipedia 抄襲、都給出兩段式修訂建議
Round 1 結論:WriteAhead 漂移發生在核心判斷(文法評語邏輯矛盾),Google AI 漂移只在邊緣分數(不影響核心判斷)
Round 2:題目需求達成度(作文 B)
| WriteAhead | Google AI | |
|---|---|---|
| 總分 | 13/20 | 15/20 |
| 文法 | 4/5 | 5/5 |
| 字彙 | 4/5 | 4/5 |
| 內容 | 3/5 | 3/5 |
| 組織 | 2/5 | 3/5 |
| 偵測缺第二段 | ✅ 「缺少第二段解釋選擇原因」 | ✅ 「第二段:缺失」 |
| 具體修訂建議 | ❌ | ✅ 指出精確分段位置 + 提供第二段範文 |
| 用詞提升建議 | ❌ | ✅ good at → agile/adept at |
Round 2 結論:兩者都正確偵測到缺少第二段 ✅。Google AI 的回饋更具行動指引(精確分段位置、範文、用詞升級建議)
Round 3:矛盾偵測(作文 C)⚡ 最關鍵測試
| WriteAhead | Google AI | |
|---|---|---|
| 總分 | 17/20 | 12/20 |
| 文法 | 5/5 | 4/5 |
| 字彙 | 4/5 | 4/5 |
| 內容 | 4/5 「支持細節相關且發展良好」 | 1/5 「嚴重離題,前後完全矛盾」 |
| 組織 | 4/5 「兩段過渡流暢」 | 3/5 「段落清晰但邏輯不連貫」 |
| 矛盾偵測 | ❌ 完全沒發現 | ✅ 列為第一優先問題 |
| 事實查核 | ❌ | ✅ 指出櫻花鉤吻鮭只在武陵特定流域 |
| 修改建議 | ❌ | ✅ 具體修改方向 + 完整修訂範文 |
Google AI 的回饋:
內容邏輯矛盾(最嚴重的問題)
- 第一段:「國寶」且「瀕臨絕種」,僅存約 5,000 條
- 第二段:「台灣最常見的魚」、「隨處可見」、「輕易就能看到數百條」
- 修改建議:第二段理由應扣合「珍貴性」與「復育努力」
Round 3 結論:WriteAhead 給了一篇自相矛盾的作文 17/20 高分。這對學生的傷害是直接的——學生會以為自己寫得很好,不知道文章有致命邏輯錯誤。
Round 4:正常作文基準(作文 D)
| WriteAhead | Google AI | |
|---|---|---|
| 總分 | 20/20 | 19.5/20 |
| 文法 | 5/5 | 5/5 |
| 字彙 | 5/5 | 4.5/5 |
| 內容 | 5/5 | 5/5 |
| 組織 | 5/5 | 5/5 |
| 進階建議 | ❌ | ✅ 字彙變化度(choose→opt for/select)、色彩形容詞(iridescent/shimmering) |
Round 4 結論:對正常好作文,兩者評分接近。但 Google AI 即使給高分仍提供可行的進階建議,WriteAhead 滿分後無任何進一步指引。
總結:五大關鍵發現
1. 🔴 矛盾偵測缺失(嚴重)
WriteAhead 完全不具備 coherence 檢查能力。前後段明顯矛盾的作文仍獲 17/20。這是產品層面的結構性缺陷。
2. 🔴 批閱結果分數漂移(嚴重)
同一篇作文三次批閱,總分在 0-2 之間跳動,文法評語邏輯每次不同。學生無法信任分數。
3. 🟡 Tab 間內部矛盾(中等)
「批閱結果」和「文法改錯」由不同 pipeline 產生,結果可能自相矛盾(文法 4/5 vs No errors found、文法 0/5 但改錯 tab 只列出 form errors)。
4. 🟡 用詞建議品質問題(中等)
Rule-based 引擎的建議有明顯錯誤:carry→with、buy→include/:、realize→decides/feels。雖然穩定不漂移,但品質本身有問題。
5. 🟢 題目需求檢查可運作(正面)
系統能偵測到缺少第二段等結構性問題,代表有讀取題目內容的能力。這是可以建立改進的基礎。
建議的回饋框架
向 PM/團隊提出時,不是「產品不行」,而是「發現品質 gap,補上後更有競爭力」:
- 展示 Round 3 的對比截圖(作文 C:WriteAhead 17/20 vs Google AI 12/20 + 矛盾分析)— 這是最有說服力的單一證據
- 承認 Round 2 的正面發現(缺第二段有偵測到)— 表明測試是公平的
- 提出具體改善方向:
- 在 AI prompt 中加入 coherence/consistency 檢查指令
- 統一批閱結果 tab 和文法改錯 tab 的判斷依據
- 降低 temperature 或加入 scoring rubric constraint 以減少分數漂移
- 加入修訂建議功能(目前完全沒有,Google AI 每篇都有)
相關
- WriteAhead MOC