SUEN

真 AI 閱卷報告 2026 之一

unnamed.png (20260119003)

上午考完,兩點多開始閱卷。腳本依舊:

真 AI 閱卷報告

2025-11-11

因為要逐一審視 OCR 結果和評卷質量,且當時 Gemini API 官方的多模態未正式可用;所以如下的上次,是手動拖拽了圖片給網頁 Gemini ,再拉回識別結果,人負責人工,AI 負責智能。 很笨,但啟程。

僅更新指令:

text
# ===== 評分指令 =====
GEMINI_SCORING_PROMPT = """
你是一個語文閱卷老師,請你根據下面這套固定的參考答案與評分標準,對學生的作答進行打分,滿分 6 分。
請你一定要先識別圖片中的學生答案,再按六條依次判分,每一條都寫一句判語,最後給一段總評。

【參考答案與評分標準(固定內容)】

(1)以秋瑾为代表的志士仁人(1 分)的救国救民之梦(1 分);
(2)以鲁迅为代表的思想家(1 分)揭露“国民性”,力求改造人的灵魂的“立人”之梦(1 分);
(3)以王羲之为代表的“群贤”(1 分),沉浸在青山绿水之中,“畅叙幽情”,追寻生命价值之梦(1 分)。

【評分說明】
1. 要提到“秋瑾”为代表的志士仁人,给 1 分。
2. 要提到“救国救民之梦”,给 1 分。
3. 要提到“鲁迅”为代表的思想家,给 1 分。
4. 要提到“立人”之梦(改造人的灵魂/改造国民性/立人相关表述均可),给 1 分。
5. 要提到“王羲之”为代表的“群贤”,给 1 分。
6. 要提到“追寻生命价值之梦”(畅叙幽情、生命价值等相关表述均可),给 1 分。

【你要輸出的 JSON 結構】(只輸出 JSON,不能多文字):
{
  "student_answer": "...你從圖片裡識別出的學生原文...",

  "point_qiujin": 0 或 1,
  "comment_qiujin": "為什麼給/不給‘秋瑾为代表的志士仁人’這一分",

  "point_guomin": 0 或 1,
  "comment_guomin": "為什麼給/不給‘救国救民之梦’這一分",

  "point_luxun": 0 或 1,
  "comment_luxun": "為什麼給/不給‘鲁迅为代表的思想家’這一分",

  "point_liren": 0 或 1,
  "comment_liren": "為什麼給/不給‘立人之梦(改造人的灵魂/国民性)’這一分",

  "point_qunxian": 0 或 1,
  "comment_qunxian": "為什麼給/不給‘王羲之为代表的群贤’這一分",

  "point_shengming": 0 或 1,
  "comment_shengming": "為什麼給/不給‘追寻生命价值之梦’這一分",

  "final_score": 0~6 的整數(必須等於六項分數相加), 
  "overall_comment": "給學生的一段總體評語,說他扣在哪裡,下一步應該補哪裡"
}

要求:
- 一定要輸出合法 JSON,不能有 ```json 這種包裝。
- 六個點的分數相加必須等於 final_score。
- 如果圖片沒有字,就六項都 0,final_score 也 0,overall_comment 寫「未作答」。
"""

模型自然更新為: gemini-3-flash-preview ,幾個大模型中多模態做得最好的就是 Gemini 了。

截止 20:30,判閱完畢。

Screenshot 2026-01-19 at 04.35.55.png (20260119001)

看到有一份判閱因 JSON 化失敗給錯了分數,手動改對;有一份未作答空白卷導致顯示判閱失敗,其他都正常。

代碼依舊,所以流程依舊是自動下載儲存全部圖片,給 AI 識別文字,AI 逐點給分,寫回系統。要確保無誤,所以寫數據清洗腳本,確認了確實只有一份已修正後,

Screenshot 2026-01-19 at 05.03.13.png (20260119002)

正式開始分析學生作答數據:

本文基於本輪 845 份閱卷結果的清洗輸出(records.jsonl / csv)做統計分析。
「JSON 污染導致的錯分」已手動更改為 6 分,並納入本次總體分佈與路徑分析。


0)總覽:這批學生到底寫成什麼樣?

✅ 分數分佈(0~6 全量)

分數 人數 佔比
6 329 38.93%
5 230 27.22%
4 144 17.04%
3 70 8.28%
2 35 4.14%
1 10 1.18%
0 27 3.20%

1)六要點整體命中率(誰最難?誰最容易?)

本題 6 個得分點(每點 1 分):

  1. 秋瑾(志士仁人)
  2. 救國救民之夢
  3. 魯迅(思想家)
  4. 立人之夢(改造國民性/靈魂)
  5. 王羲之(群賢)
  6. 生命價值之夢(暢敘幽情/生命價值)

✅ 全量命中率(845 份)

得分點 命中份數 命中率
秋瑾志士 788 93.25%
救國救民 703 83.20%
魯迅思想家 783 92.66%
立人之夢 425 50.30%
王羲之群賢 719 85.09%
生命價值 572 67.69%

🔥 一句話結論

這說明:大部分同學會點名,但「抽象概括」層面仍偏薄。


2)0~6 分「典型丟分路徑」(最關鍵:每一檔到底缺哪幾分?)

下面不是“主觀推測”,而是按每份答卷的 6 點得分組合統計出來的 最常見缺分模式


6 分(329 份)

典型結構:六點全中

6 分不是“字多”,而是 人物 + 三個夢的內涵全部落地。
尤其需要明確寫到:
立人(改造國民性/靈魂) + 生命價值(暢敘幽情/生命價值)


5 分(230 份)

最常見丟法:只少 1 點,且幾乎都少在“立人” Top 缺分模式(缺 1 點):

5 分 = 人物幾乎齊、夢的內涵少一個
最容易補的一句話就是:

  • 「魯迅揭露國民性,力求改造人的靈魂,追求立人。」
  • 「批判麻木冷漠,喚醒國人精神,追求立人。」

4 分(144 份)

典型丟法:同時少兩點,且最常見是“立人 + 生命價值”一起缺 Top 缺分模式(缺 2 點):

4 分 = 人物多半齊,但“夢”寫得太虛
典型語氣是:
“提到某某,表示敬意/感慨”
但沒有把夢落到 救國/立人/生命價值三條。


3 分(70 份)

典型丟法:缺 3 點;最常見是「救國救民 + 立人 + 生命價值」全缺 Top 缺分模式(缺 3 點):

✅ 3 分到底少哪两条最多?(你要的核心答案)

在 3 分群體(70 份)裡,各點缺失率:

最常見的“缺兩條組合”是:

這個結論非常尖銳:
3 分不是不會寫人,而是寫不出“抽象精神內核”
他們往往能點名(秋瑾/魯迅/王羲之),但一旦要求把夢“概括成概念”,就垮掉。


2 分(35 份)

典型丟法:只拿到兩個人物點/零碎點,夢的內涵大量缺失 Top 缺分模式(缺 4 點):

2 分 = 框架沒搭起來
常見狀態是“只抓住一兩個人名/地標”,夢的內涵幾乎沒出現。


1 分(10 份)

典型丟法:只命中 1 點,其它幾乎全空 Top 缺分模式(缺 5 點):


0 分(27 份)

典型丟法:六點全缺

0 分就是:未作答 / 答非所問 / OCR 無有效文本。


3)把“丟分路徑”翻譯成教學診斷:學生其實卡在哪?

3.1 高頻問題一:人物寫得出來,但“夢”寫不出來

這就是典型的:
“點名型作答” vs “概括型作答” 的差別。


3.2 高頻問題二:“立人之夢”幾乎是所有中檔分數的天花板

你只要記一個最硬核結論就夠了:

立人 = 這道題最難的一分,也是最值得強化的一分。


3.3 高頻問題三:生命價值比想像中更“可救”

生命價值在 4~5 分群體裡屬於“第二常缺”,但比立人好補得多:

學生只要學會寫一句:

就能跨檔增分。


4)後續提分策略(用最短語句補最硬分)

這一部分我建議你直接印成“下一次講評的模板”,學生最吃這個。

4.1 想從 5 分到 6 分:只補一句「立人」

必殺句(任選其一):

4.2 想從 4 分到 6 分:補「立人 + 生命價值」兩句

4.3 想從 3 分到 5 分:先補“夢”,不要再加人名

因為 3 分群體大多 人名已齊,缺的是三個夢裡的兩到三個。
你教他們:“別再堆景點了,直接補概念”。


5)一句話總結(可以作為本文收束)

這道題真正的分數,不在於你能寫出多少人物與地標,
而在於你能不能把夢寫成概念:
秋瑾的夢是救國救民,魯迅的夢是立人,王羲之的夢是生命價值。
人物是壳,精神才是分。


成本⋯⋯Gemini API Billing Paid tier 1 ,這個閱卷效度,性價比是足夠的。
Screenshot 2026-01-20 at 21.50.48.png (20260120003)

組內前兩天年度工作匯報,專門提了用 AI 閱卷的事情,目的自然是希望減輕更多人無意義的精力,且更高效;提醒效度如何,等就好了。

備註:
20260120 起基於 CF 啟動 AI 閱卷網站搭建,約 6 小時完工:

Screenshot 2026-01-20 at 21.33.52.png (20260120001)

Screenshot 2026-01-20 at 21.34.51.png (20260120002)

下次閱卷,正式測試網頁版。