WriteAhead AI 批閱品質 vs Google AI 對比測試報告

背景

2026-02-23 與小任聊到 WriteAhead 的 AI 批閱功能。嘗試把同樣的作文題目、題目內容、學生作文直接餵給 Google AI 模式,發現 Google AI 的批閱結果更準確。決定做正式的對比測試以產出具體證據。

測試設計

題目:臺灣自然生態代表(要求分兩段:第一段描述動植物外形特徵習性+照片構圖、第二段寫選擇原因)

編號作文類型測試目的
A完全離題+大量文法錯誤(超市購物記敘文)一致性測試+離題偵測
B半切題(寫臺灣黑熊,但只有一段,缺選擇原因)題目需求達成度偵測
C切題但前後矛盾(櫻花鉤吻鮭:第一段「瀕臨滅絕僅 5,000 條」、第二段「最常見到處都是」)內容矛盾偵測
D切題且合理的正常作文(臺灣寶石鍬形蟲)基準對照組

測試結果

Round 1:一致性測試(作文 A 跑 3 次)

WriteAhead

A1A2A3
總分0/202/200/20
文法0/51/50/5
字彙0/51/50/5
內容0/50/50/5
組織0/50/50/5
文法評語有許多語法錯誤,但主要問題是內容不相關有很多語法錯誤,但仍然能傳達一些意思這篇文章不相關,因此無法在題目的上下文中評估語法
  • 文法改錯 tab:三次完全相同(go→went, seen→saw, buyed→bought 等)→ 確認為 rule-based
  • 用詞建議 tab:三次完全相同 → 確認為 rule-based
  • 批閱結果 tab:分數和評語每次都不同 → 確認為 AI 生成,有 temperature 漂移

發現

  1. ⚠️ 分數漂移:同一篇作文總分在 0-2 之間跳動
  2. ⚠️ 文法評語邏輯不一致:三次對「離題文章該怎麼評文法」的回答完全不同
  3. ⚠️ 用詞建議品質問題:carry→with、buy→include/:、realize→decides 等建議不合理(rule-based 引擎的問題)

Google AI

A1A2A3
總分9/2010/15*11/20
文法555
字彙455
內容000
組織0(併入建議)1

*A2 格式變成 3 維度 /15,非 4 維度 /20

  • Google AI 也有漂移(字彙 4→5、組織 0→1、A2 格式變了)
  • 核心判斷完全一致:三次都偵測離題、都識別出 Wikipedia 抄襲、都給出兩段式修訂建議

Round 1 結論:WriteAhead 漂移發生在核心判斷(文法評語邏輯矛盾),Google AI 漂移只在邊緣分數(不影響核心判斷)


Round 2:題目需求達成度(作文 B)

WriteAheadGoogle AI
總分13/2015/20
文法4/55/5
字彙4/54/5
內容3/53/5
組織2/53/5
偵測缺第二段✅ 「缺少第二段解釋選擇原因」✅ 「第二段:缺失」
具體修訂建議✅ 指出精確分段位置 + 提供第二段範文
用詞提升建議✅ good at → agile/adept at

Round 2 結論:兩者都正確偵測到缺少第二段 ✅。Google AI 的回饋更具行動指引(精確分段位置、範文、用詞升級建議)


Round 3:矛盾偵測(作文 C)⚡ 最關鍵測試

WriteAheadGoogle AI
總分17/2012/20
文法5/54/5
字彙4/54/5
內容4/5 「支持細節相關且發展良好」1/5 「嚴重離題,前後完全矛盾」
組織4/5 「兩段過渡流暢」3/5 「段落清晰但邏輯不連貫」
矛盾偵測完全沒發現列為第一優先問題
事實查核✅ 指出櫻花鉤吻鮭只在武陵特定流域
修改建議✅ 具體修改方向 + 完整修訂範文

Google AI 的回饋:

內容邏輯矛盾(最嚴重的問題)

  • 第一段:「國寶」且「瀕臨絕種」,僅存約 5,000 條
  • 第二段:「台灣最常見的魚」、「隨處可見」、「輕易就能看到數百條」
  • 修改建議:第二段理由應扣合「珍貴性」與「復育努力」

Round 3 結論:WriteAhead 給了一篇自相矛盾的作文 17/20 高分。這對學生的傷害是直接的——學生會以為自己寫得很好,不知道文章有致命邏輯錯誤。


Round 4:正常作文基準(作文 D)

WriteAheadGoogle AI
總分20/2019.5/20
文法5/55/5
字彙5/54.5/5
內容5/55/5
組織5/55/5
進階建議✅ 字彙變化度(choose→opt for/select)、色彩形容詞(iridescent/shimmering)

Round 4 結論:對正常好作文,兩者評分接近。但 Google AI 即使給高分仍提供可行的進階建議,WriteAhead 滿分後無任何進一步指引。


總結:五大關鍵發現

1. 🔴 矛盾偵測缺失(嚴重)

WriteAhead 完全不具備 coherence 檢查能力。前後段明顯矛盾的作文仍獲 17/20。這是產品層面的結構性缺陷。

2. 🔴 批閱結果分數漂移(嚴重)

同一篇作文三次批閱,總分在 0-2 之間跳動,文法評語邏輯每次不同。學生無法信任分數。

3. 🟡 Tab 間內部矛盾(中等)

「批閱結果」和「文法改錯」由不同 pipeline 產生,結果可能自相矛盾(文法 4/5 vs No errors found、文法 0/5 但改錯 tab 只列出 form errors)。

4. 🟡 用詞建議品質問題(中等)

Rule-based 引擎的建議有明顯錯誤:carry→with、buy→include/:、realize→decides/feels。雖然穩定不漂移,但品質本身有問題。

5. 🟢 題目需求檢查可運作(正面)

系統能偵測到缺少第二段等結構性問題,代表有讀取題目內容的能力。這是可以建立改進的基礎。


建議的回饋框架

向 PM/團隊提出時,不是「產品不行」,而是「發現品質 gap,補上後更有競爭力」:

  1. 展示 Round 3 的對比截圖(作文 C:WriteAhead 17/20 vs Google AI 12/20 + 矛盾分析)— 這是最有說服力的單一證據
  2. 承認 Round 2 的正面發現(缺第二段有偵測到)— 表明測試是公平的
  3. 提出具體改善方向
    • 在 AI prompt 中加入 coherence/consistency 檢查指令
    • 統一批閱結果 tab 和文法改錯 tab 的判斷依據
    • 降低 temperature 或加入 scoring rubric constraint 以減少分數漂移
    • 加入修訂建議功能(目前完全沒有,Google AI 每篇都有)

相關

  • WriteAhead MOC