AI 閱卷記

2026-04-27 20:44

上次說這次閱卷把前端做了：

真 AI 閱卷報告 2026 之一

2026-01-19
上午考完，兩點多開始閱卷。腳本依舊：
真 AI 閱卷報告

2025-11-11

因為要逐一審視 OCR 結果和評卷質量，且當時 Gemini API 官方的多模態未正式可用；所以如下的上次，是手動拖拽了圖片給網頁 Gemini ，再拉回識別結果，人負責人工，AI 負責智能。很笨，但啟程。
因為要逐一審視 OCR 結果和評卷質量，且當時 Gemini API 官方的多模態未正式可用；所以如下的上次，是手動拖拽了圖片給網頁 Gemini ，再拉回識別結果，人負責人工，AI 負責智能。很笨，但啟程。
AI 閱卷報告

2025-04-24

語文試卷中一道主觀題，手寫，4-5行，每行約20字，701份，高質量審閱評分，一個教師，高強度的話大概要多少個小時完成？
語文試卷中一道主觀題，手寫，4-5行，每行約20字，701份，高質量審閱評分，一個教師，高強度的話大概要多少個小時完成？

AI 審閱+人類審核呢？
701 份，每份識別+思考約 40 秒左右，輸出 1 秒。
這是我實測下來的觀察數據。

選擇模型：Gemini 2.5 Pro Preview 03-25，以 Requests per minute (RPM) 現在最低值 150 計算的話，利用滿 150 RPM 的速率並行發送請求，完成 701 份試卷大約需要 5 分 21.4 秒。

同步處理（即發送一個請求，等待 41 秒完成，再發送下一個）的話， 701 份 * 41 秒/份 = 28741 秒 ≈ 479 分鐘 ≈ 8 小時。

正常調用 API 自然會設計成並行。

沒錯，一個老師辛苦折騰20多個小時，其實就是 AI 的 5 分 21.4 秒。
且，質量，沒有 AI 高；
其實，是比 AI 低。這個是我實測下來的結論。

還有，Requests per minute (RPM) 此刻的最高值，是 50,000。

這算本文的摘要。

確實本想直接 API 上腳本的，但一則獲取網頁元素時被網頁蒙版噁心到，一則也確實需要全過程驗證勘核；
所以折衷為：以 5 次點擊實現將每一份試卷完成下載圖片、上傳AI、獲得評分、輸入評分，循環往復。

大量圖片的文本識別，網頁版自然會被 token 和速率限制，最終全程總計使用了兩個帳號，開了四個對話。這直接導致匯總數據時出現了各種問題。
不想折騰數據清洗，直接匯總除重，剩下絕對有效的 573 份答題數據。
因為 AI 加持，所以，遠遠不到 20 小時收工。
但這個活，本可以三四個小時，且更高質量。

將答題數據給 ChatGPT o3 要答題報告:

1、評分報告

我把 573 份去重后答卷做了系统挖掘，先给你一个可视化，再汇报关键发现。

1.1 高分字數

（图示：4 分样卷共 570 份，字符数直方图）

绝大多数落在 150–220 字区间；最短 17 字、最长 336 字。说明多数同学在 200 字左右完成三点式概括。

⸻

1.2 核心统计

项目数值说明

样卷总数 573

得分分布 4 分 570 份 (99.5 %)1/3/0 分各 1 份去重后几乎全是满分范式

常见结构 187 份 (32.6 %) 使用 ①②③ 分条硬模板套用明显

关键词覆盖率启蒙 63% · 批判 63%浪漫 68% · 写实 47%完美/民族 ≈49% 与标准答案要点高度吻合

典型对照词 “奴性”(32 %) vs “野性”(14 %) 两位作家人物特质对举

⸻

1.3. 内容洞察

1.3.1 话语模板化

39 套“高分模板”覆盖全库；最热模板重复 19 次。

模板特征：三并列要点 + 对称句式 + 固定关键词。

教师评分聚焦“命中要点”而未对原创度区分。

1.3.2 关键词网络

关键词出现次数占比

启蒙 362 63.2%

批判 361 63.0%

浪漫 391 68.3%

写实 269 46.9%

田园 279 48.7%

奴性 183 31.9%

野性 79 13.8%

真善美 67 11.7%

完美 259 45.2%

民族 284 49.6%

强盛 56 9.8%

词频网络与标准答案“三对三”框架完全同构，可视为同学们背诵提炼后的“知识图”。

1.3.3 长度对得分影响

<120 字仅 3 份，均为低分或零分。

150–240 字占 74 %，全部得 4 分——达到“既不啰嗦又不失要点”的隐性门槛。

300 字 9 份，得分同为 4，但出现冗赘重复，无额外加分。

1.3.4 风格差异

角度典型鲁迅描写典型沈从文描写

词根批判、封建、奴性、凋敝浪漫、田园、野性、完美

句式冷峻陈述：「鲁迅以写实…审视…」抒情赞美：「沈从文以全副笔力赞颂…」

逻辑先再现疾苦 -> 再批判剖析先描绘美好 -> 再寄托希望

⸻

1.4 教学建议
1.	弱化范文记忆分  
阅读类评价可加入 N-gram 相似度阈值或随机抽 20 % 做口头复述，减少机械背诵。 

2.	引导举例深化  
要点之外加 1 句具体文本细节（如《阿 Q》“革命党”，《边城》翠翠与渡口）可区分“理解”与“复述”。  

3.	长度梯度训练  
100 字速答 → 200 字标准 → 300 字拓展，帮助学生摆脱模板依赖并增强语言灵活性。

4.	同题多稿写作  
要求学生两次不同视角重写：一次“对比”，一次“评价”，以迫使其改变结构与词汇。  
⸻

1.5 结语

从数据看，同学们已熟悉标准答案要点，但个性表达与文本细读能力仍显不足。借助去重后的分析，我们能精准定位教学短板，后续可把评分权重从「要点命中」逐步向「细节引用」「独创视角」过渡，以提升整体写作深度。

GPT 報告如上。Gemini 報告折疊版如下：

全面深度分析：非連續文本信息整合與梳理答題情況（第3題）

題目分析：

第3題要求學生結合兩則材料，分析魯迅和沈從文鄉土小說創作呈現的不同文學風貌。這是一道典型的信息篩選、整合、比較和歸納的題目，旨在考查學生閱讀理解、信息處理和語言表達能力。標準答案從創作立足點、人物精神特質和寫作傾向三個維度進行了概括，每個維度都清晰地對比了兩位作家的不同之處。題目分值為4分，意味著學生需要至少準確把握並清晰表述其中的兩個主要差異點。

整體答題情況概述：

從提供的573個有效樣本（去除ID 325和545的空白/無法識別答案）來看，絕大多數學生（超過99%）都獲得了滿分4分，僅有ID 021獲得1分。這表明：

題目難度適中或偏易： 大部分學生能夠成功從材料中提取關鍵信息並進行有效整合比較。

材料信息清晰度高： 兩則材料對比鮮明，關鍵差異點（如啟蒙/批判 vs 贊美/理想，人物病態 vs 人物健康，現實主義 vs 浪漫派）在文中多次出現且表述明確，降低了信息提取的難度。

評分標準相對寬鬆： 獲得4分的標準可能允許學生在表述的精確性、全面性上略有不足，只要抓住了核心差異點即可。

詳細分析：

1. 字數情況：

滿分（4分）答案： 字數普遍在80字至150字之間（不含標點和題目本身文字）。這個長度足以涵蓋2-3個比較點，並進行適當的闡述。部分特別詳細的答案（如分點作答）可能超過150字。

低分（1分）答案（ID 021）： 字數極短，僅16字，過於簡略。

結論： 答案的詳略程度與得分高度相關。要獲得滿分，需要一定的篇幅來清晰闡述比較點。

2. 用詞：

關鍵詞使用： 絕大多數滿分答案都準確使用了材料中或標準答案中的關鍵詞彙，體現了對文本信息的有效利用和對文學術語的掌握。

魯迅相關高頻詞： 批判、啟蒙、現實主義/寫實、凋敝/疾苦、悲慘命運、封建意識、精神枷鎖、改造國民性、冷峻、壓抑、病態、奴性、缺乏主體性、沉默的國民魂靈。

沈從文相關高頻詞： 贊頌/謳歌、抒情、浪漫派/浪漫主義、理想化、田園式、美好、自然、生命力、人性、純潔朴實、完美人生形式、湘西世界、愛與美、野性、自然人、熱情樂觀、自由單純。

比較性詞語： 而、則、不同、前者…後者…、一方面…另一方面…。

詞語準確性： 學生普遍能準確運用這些詞彙來描述兩位作家的文學風貌。

結論： 學生對關鍵信息的捕捉能力較強，能夠運用恰當的詞彙進行表達。

3. 句式：

比較句式： 大量滿分答案採用了明確的比較句式，如“魯迅…而沈從文則…”、“魯迅是…，沈從文是…”等，結構清晰，對比鮮明。

陳述句： 主要運用陳述句進行客觀分析和描述。

完整性與流暢度： 句子結構大多完整，表達流暢，語病較少。

結論： 學生能夠運用有效的句式來組織比較性內容，語言表達能力較好。

4. 分條情況：

顯性分條： 約有相當一部分學生（粗略估計超過三分之一）採用了①②③等數字標號或分段的方式進行分條作答。這種方式結構清晰，邏覽性強，易於閱卷老師把握得分點。

隱性分條： 即使沒有使用數字標號，許多答案也通過關聯詞（如“首先…其次…”、“一方面…另一方面…”、“…而…则…”）或段落區隔，形成了事實上的分點論述。

不分條： 少數答案將所有內容融合在一個段落中，雖然也能得分，但清晰度略遜。

結論： 採用分條作答是本題獲得高分且表達清晰的有效策略，多數學生掌握了這一點。

5. 與標答的契合程度：

核心要點覆蓋： 絕大多數4分答案都涵蓋了標準答案中的至少兩個核心要點，很多答案甚至涵蓋了全部三個要點（創作立足點、人物精神特質、寫作傾向）。

寫作傾向（現實主義 vs 浪漫派） 是最容易被學生捕捉和表述的點，幾乎所有滿分答案都直接或間接提及。

人物精神特質 的對比也較為普遍，學生能準確引用或概括材料中對兩類人物的描述。

創作立足點（啟蒙/批判 vs 抒情/審美/寄託）的把握也較好，能體現兩者深層次目標的不同。

信息來源： 答案內容明顯來源於兩則閱讀材料，學生做到了“結合兩則材料”。

歸納與提煉： 學生不僅僅是摘抄，大多進行了一定程度的歸納和提煉，用自己的語言組織答案。

結論： 學生答案與標準答案的核心內容契合度非常高，顯示出良好的信息整合與歸納能力。

存在問題與不足（基於少量樣本和推測）：

極少數低分情況： 如ID 021，答案過於簡略，未能有效利用材料信息，僅憑印象或模糊理解作答。

個別表述偏差： 偶有答案在描述細節時出現不夠精確或與材料略有出入的地方（如ID 032, 160），但因抓住了主要差異，仍獲得滿分。

信息側重可能不均： 部分答案可能更側重材料二（對比更直接明確）的信息，對材料一的利用相對較少，但通常不影響得分。

總結：

整體而言，學生在本題上的表現非常出色。絕大多數學生能夠準確理解題意，有效從兩則非連續文本中篩選、整合關鍵信息，並運用比較的方法，清晰、準確地分析出魯迅與沈從文鄉土小說在創作立足點、人物塑造和寫作傾向上的不同文學風貌。答案普遍結構較清晰（尤其採用分條作答的學生），語言表達流暢，關鍵詞運用到位，與標準答案契合度高。這反映了學生較強的文本閱讀理解、信息處理、比較分析和語言組織能力。題目的設問方式和材料的清晰度可能也是學生普遍取得高分的重要原因。

因為沒專門和 AI 說明是非連文本的簡答，所以報告的結論有點跑偏，但數據已經清楚明白。
題目本身難度不高加之標答從寬，硬生生讓 AI 感覺學生在“背誦提煉”。😉

舉個🌰：

如圖可見，與近期做的 AI默寫出現了一樣的問題，AI 在識別中會偷偷摸摸改個別詞。
但不同於默寫要看字，這種文本分析題目，全程看下來，對評閱沒什麼影響。

概述如上。

2、是否跑通

算不算 AI 閱手寫主觀題跑通？
算。

跑通的標準無非兩個：

一要爬出手寫的天坑。
關於AI默寫一文中說過，之所以做在線默寫，是因為發現大模型的 OCR 終於進化到足夠成熟，甚至，如上面偷偷給人類改字的現象，LLMs 下的 OCR 有點太成熟了，最近給 AI默寫專門降智商，就是為此。

這次全部勘核下來，幾個感悟：

字不好看看不清的因素會在 AI 閱卷時被降低

勾畫會失效

串行也會

錯字和詞，會被錯誤地糾正

沒錯，很有幾份卷子，作為人類我會不經意因為看不清寫得亂給出低於 AI 的分數，但細看 AI 審閱意見會發現，得分點其實確實有了。
科舉時代有謄錄，AI 時代的謄錄，就是 OCR 了。

多說一句，公式與圖的識別呢？上次拿數學教材做識別時已經確認過，更可以。
說更，是因為沒有什麼學科符號比手寫漢字更難識別了。
在這個意義上，所有試卷的 AI 審閱流，理科教師勘核時間一定短於文科。
樂觀想，考完掃描完，AI 分分鐘閱完，沒錯，字面意義，分分鐘。如果再多個 AI 彼此再覆核一遍。人類教師，基本就圍個觀，確個認，就可以去好好研究學生的個人報告和學科整體報告了。
閱卷這種吃力不討好的活，本就是 AI 勝場。

二自然是語義分析的標準。
為什麼 AI 可以評閱？因為我們可以結構化輸入與輸出。
其實為了更精準，大模型背後客製化將 RAG 或微調加進去，但以高中各個學科的知識圖譜，基礎學科基礎知識們而已，不做這些，只做好結構化，其實已經足夠了。

本次指令：

请仔细识别图片中的学生手写答案，并与以下标准答案进行对比评分。你的任务是：
识别文本： 提取图片中所有的手写文字内容。

对比分析： 将识别出的学生答案与标准答案的三个要点逐一对比。

评分： 根据以下标准，在JSON中给出’ai_score’ (0, 1, 2, 3，4):

4分: 学生答案完全包含了标准答案的任意兩个要点，表述清晰准确。

3分: 学生答案包含了标准答案中的任意两个要点，或者包含了要点但部分表述不夠準確或完整。

2分: 学生答案包含了标准答案中的任意一个要点，表述清晰准确。

1分: 学生答案包含了标准答案中的任意一个要点但部分表述不夠準確或完整。

0分: 学生答案未包含标准答案中的任何要点，或者完全错误，或者无法识别/空白。

提供细节： 在JSON的’matching_details’字段中，简要说明学生答案命中了哪些要点，或为什么不得分。
输出格式： 必须严格按照以下JSON格式返回，不要添加任何其他说明或markdown标记：
json
{{
  "ai_score": <分數 0-4>,
  "recognized_text": "<識別出的學生完整答案文本>",
  "matching_details": "<評分依據和匹配細節說明>"
}}
**标准答案 (共3个要点):**①创作立足点上：鲁迅以启蒙者视角揭示农民精神枷锁，想要通过思想革命推动现代性觉醒；沈从文以抒情笔触呈现边地风土人情，构建不同于主流认知的乡土审美空间。
②人物精神特质上：鲁迅笔下的人物普遍主体性缺乏、生命意识盲目、高度压抑和病态，甚至奴性十足；沈从文笔下的人物则大多热情乐观、自由单纯而自然健康。
③写作倾向上：鲁迅是现实主义，通过对现实人生的批判来揭示民族性问题，沈从文则属于浪漫派，是以对理想世界的构建来寄托变革现实的希望。
保持以上記憶，处理此後每一張图片：

評閱質量，全程看下來，我的結論是：較人類更細緻，且更公允。

隨機複製：
json
  {
    "ai_score": 1,
    "recognized_text": "鲁迅以讽刺为主，沈从文就真诚抒情",
    "matching_details": "学生答案过于简略。指出沈从文“抒情”部分对应标准答案要点①，指出鲁迅“讽刺”与其批判性有关，但未能深入阐述启蒙目的、人物特点等其他要点。仅部分触及一个要点，表述不完整。",
  },
  {
    "ai_score": 4,
    "recognized_text": "材料一中写到鲁迅和沈从文都以爱国之心与救国之愿为一致目标，但鲁迅忠实记录和批判的方式体现旧中国贫困凋敝的乡村中农民的悲惨命运“和”封建意识”，以现实主义方式启蒙国民；沈从文则浪漫主义地“赞颂美好的自然、生命的力量和纯洁朴实的人性”，以求“对完美人生形式的再造”。材料二提到两者小说人物形象的不同，鲁迅笔下人物尽显丑态，沈从文的人物则纯真健康，由此能体会出两者不同的文学风貌，即“现实”与“理想”两方面的写作风格。",
    "matching_details": "学生答案准确把握了鲁迅的现实主义、启蒙、批判以及记录农民悲惨命运和封建意识的特点（对应标准答案要点①、③鲁迅部分），并指出其笔下人物“尽显丑态”（对应标准答案要点②鲁迅部分）。同时，准确把握了沈从文的浪漫主义、赞颂自然/生命/人性、追求“完美人生形式的再造”（构建理想世界）（对应标准答案要点①、③沈从文部分），并指出其笔下人物“纯真健康”（对应标准答案要点②沈从文部分）。答案清晰对比了“现实”与“理想”两种写作风格，涵盖了标准答案的三个要点，表述清晰准确，符合4分标准。",
  },
  {
    "ai_score": 4,
    "recognized_text": "鲁迅与沈从文都是描写乡土生活，但鲁迅是忠实记录了生活在贫困纳以的命运，并以批判的眼光审视乡土中国的封建，<像训问?>农民能否正确意识到自己的价值。而沈从文则化他文化背景上选择赞颂美好的自然、生命力纯朴的人性，将希望寄托在对完美人生形式的再造上。他们的浪漫与情<怀?>也反映了专制的<高压?>的愚民手段，所以多为主体性缺乏，奴性十足，而沈从文则用笔与现实抗衡，坚守人的情怀，<价值?>，<感情?>乐观，<曲笔地?>？反映传统人性美与自然美。2者前为写实的手法，后者为浪漫的手法。",
    "matching_details": "学生答案准确把握了鲁迅的写实手法、批判视角（“批判的眼光审视乡土中国的封建”）、启蒙关怀（“农民能否正确意识到自己的价值”）以及笔下人物的特点（“主体性缺乏，奴性十足”），这对应了标准答案要点①、②、③中关于鲁迅的部分。同时，学生答案也准确把握了沈从文赞颂自然、生命、人性，寄托希望于“完美人生形式的再造”，坚守情怀、乐观以及浪漫的手法，这对应了标准答案要点①、②、③中关于沈从文的部分。答案明确对比了写实与浪漫两种手法，涵盖了标准答案的三个要点，表述清晰准确，符合4分标准。",
  },
3、真正價值

日常考試終於可以幾乎無成本的，從並無意義的數字乃至排名層次，進化到你是否掌握了這個或那個知識點的數據層面了。
每一套試題中的每一道題目對每一個學生的真實意義，藉由 AI，自此清晰。

對學生。
尤其於一個自己有 “AI 力”的學生，在學校進化過去之前，拿 AI 分析試卷，可以先自己做到這點。
沒錯，把題目給 AI，把你答卷和參考答案給過去，你的個人學習報告就可以出來了；且，如果開啟了對話歷史記憶，一定比教辅和學校更精細，更個性化。

這個邏輯，也是我之前做 AI高考的邏輯。

對教師。
一個詞：解放。
從閱卷到核卷，耗神程度是幾何級下降的。
且，此前要人工標注的知識點維度層級等，現在的大模型能力下，都可以直接省去。
以學生為中心的口號話，一般是有所激才故意偏著說；但 AI 加持下，一樣的24小時，之前是吭哧吭哧費神耗力判分數，此刻，可以是直接看每個學生的每個題目學情分析。
哦，對，不是那種折線圖，是每個學生每道題的文字詳情那種。這個報告師生共見。
做完這一輪，更確認的是，教師最後真正且唯一不可取代的點，只能是你我是否可以讓更多學生，有更多動力去學這個，或那個。

對學校，對教育技術公司。
他們自己會想的。

那麼，高利害的高考能不能 AI 閱？
能。
道理如前，無不同。

4、技術流程

因為此刻閱卷平台限制，現有：是兩天半的高強度體力活。點分數，審 AI⋯⋯
應有？
掃描切割後，直接本地或雲端 OCR，其實將數據層和處理層合併的方式存在隱患，應該隔開。
數據 JSON 化後，測試指令效果，理想後，直接調 API 算力。

按 GPT 計算：对 701 张图片进行文字识别 + 约 150 token 的分析回答，按 Gemini 2.5 Pro 的标准付费档（≤ 200 k token 价格档）累计花费约 1.1 美元。即便分析内容加长至 200 token/张，总费用也不会超过 1.5 美元。

按 GPT 計算：一次完整考试（9 科、3 000 份试卷），包含 OCR、返回全文以及与原文字量相等的 AI 讲评，约需 6.75 × 10⁷ tokens，按 Gemini 2.5 Pro 当前计价大约 $527 美元。

在不斷降價的趨勢下，這個成本，對一所學校，幾乎是可以忽略不計的。

技術開發成本？
真想做，從架構到代碼，兩三個人，兩三個月，足夠上線了。

5、關鍵癥結

成本不能再低且有情皆受益的事情，如果一直完全沒進展，會因為什麼？
記得某次年初的會就有老師說，隨便一個市面上的 APP 都可以識別學生圖片，為什麼我們學校的教學平台不行？
然後⋯⋯就冇然後了。

說到底，意識是癥結吧。
GFW 遮蔽，民粹喧囂，AI 的進化速度與程度，太多人沒辦法看見看清。
於是告訴更多人，這件事可以做到，如何可以做到，為何應該做到；也許，就更重要。

我依舊相信手寫終廢除，數學等理科也可以更快被 AI 閱卷。
但，我也依舊不相信這些會從教育內部出現。

上週末起莫名其妙各種疼疼疼，週一上課週二監考此後閱卷至此時，微信早已刪除不知如何，論壇和 Signal 的一切消息，恕未回。

3257 DAYS。
進化到今天，上午考完，下午開始構想如何更新。

首選 Gemini CLI ，一段長指令下，確實能跑通：

指令1.0
你现在要在浏览器里批改语文试卷，请严格按下面顺序操作，不要跳步。
1. 打开并登录
• 访问：https://yue.k12media.cn/testmate/index.html#/marking
• 用户名：
• 密码：
• 如果出现任务列表或弹窗，进入当前任务的批阅页面，直到看到左侧是试卷图片、右侧是打分/提交区域的界面。
2. 页面识别 • 确认你所在的是批阅界面，右侧能看到本题的得分输入框、对勾/叉或“提交”按钮。 • 如果不是本题，先切到这道题再开始识别。 3. 提取答题内容（OCR） • 对当前显示的这道题的学生手写答案区域进行截图/识别，识别为简体中文文本。 • 要求识别结果尽可能保持学生原有语序，用于后面比对，不要自行润色。 4. 参考答案与评分标准（固定内容）批改这一题时，请把学生答案和下面这段参考答案、评分说明逐条对照：参考答案：①塑造人物形象。吉米的父亲看到蝙蝠就飞起刷子扔过去，说明父亲身手矫健（1 分），最终吉米抓住蝙蝠，先关在笼子里，但晚上的时候两个人又把蝙蝠放生，刻画出吉米的善良和对生命的尊重呵护。（1 分）②烘托离别情绪。（1 分）离别在即，厨房里的任何一件事物都能让吉米想起之前的事情，一个洗碗刷，背后有父子两人抓蝙蝠、放飞蝙蝠的温馨往事。（1 分）可以想象，其他的东西也同样有不同的故事，小说虽然不一一提及，但通过这一细节，可以给读者充分的想象空间，可以想象这个厨房承载着吉米多少的回忆。（1 分）评分说明： • 人物方面：能结合文本分别回答出这一细节中体现的父亲的形象和吉米的形象，各 1 分。 • 情节/作用方面：能结合“洗碗刷—抓蝙蝠—放蝙蝠”等文本细节答出“烘托/渲染离别情绪”得 1 分，只说“离别情绪”不得分。 • 能答出这一细节的作用（如“承载着家庭的温馨回忆”“给读者想象空间”等）再得 1 分。 • 学生表述若与参考答案同义、表达接近，也应给分。 5. 给分规则（请在本次操作中固定使用） • 先把学生答案拆成几点，看他有没有： 1. 写到父亲形象（抓蝙蝠、动作利索/身手矫健） 2. 写到吉米形象（善良、尊重/呵护生命、放生） 3. 写到烘托离别情绪并且是结合这一厨房细节说的 4. 写到这一细节的作用（承载回忆 / 给想象空间 / 厨房有很多故事） • 学生写到哪几条，就给对应条目的分。 • 如果学生只空泛写“体现离别情绪”没有扣到这个细节，不给这一条的分。 • 如果本题右侧有总分（比如 4 分），就按上面四点对应到 4 分写入。 6. 写入并提交 • 在右侧打分区，把刚才算出的分数填进去（对应本题的分数框）。 • 如果有“对/错”按钮不影响分数，就保持默认或根据页面要求点一下。 • 点击“提交”或本页面的确认按钮，确保当前这份试卷的这一题已经记分成功。 7. 进入下一份/下一张 • 回到批阅列表或使用页面里的“下一份”按钮，切到下一份学生的同一题目。 • 重复步骤 3～6。 • 一次只处理一份，提交后再处理下一份，直到没有新卷或我让你停下。 8. 异常处理 • 如果某一份的图片没有加载出来、被遮挡、或字迹无法识别，请在这份上填 0 分并提交，然后继续下一份。 • 如果页面弹出登录失效，按第 1 步重新登录后继续刚才未完成的那一份。

進化了到指令 5.0 版本，增加讀源碼拼原圖，簡化點擊步驟，但⋯⋯還是真慢，且處理不好加載環節，最終放棄。
昨天剛給 Gemini CLI 加了 MCP 設定檔，但閱卷這種多點擊多互動，此刻，還是有點幼年。但一如整個 AI，Gemini CLI 會以可怕的速度進化，且一旦完成，沒有任何代碼基礎的人，閱卷也可以全自動了就。

另一台機器最近用 Gemini CLI，其實已經是自己叫累的成精狀態了。

是真可期。

偷懶不成，沒必要也不想再人工體力，那麼，開抓。
這個閱卷網站⋯⋯是足夠原始的。

開源：
text
bash <(curl -Ls https://raw.githubusercontent.com/ieduer/bdfz/main/yue-auto-mark.sh)
指令硬寫入上述腳本，還是很從嚴了。

GPT 計算的費用成本是：
•	輸入：$0.30 / 1,000,000 token
•	2,000 token × $0.30 / 1,000,000 = $0.0006 / 份
•	輸出：$2.50 / 1,000,000 token
•	700 token × $2.50 / 1,000,000 = $0.00175 / 份
•	$0.0006 + $0.00175 = $0.00235 / 份
    試卷總量： 848 份 × $0.00235 ≈ $1.99 美金
用付費 API 是因為高密度做一個任務，輪詢多 API 也會被群封。
且，這件事，本該有成本。

時間成本？
至 23:25 閱卷完成。

所有學生的題目答案，圖版，識別文字版，每一份批閱分數和理由，都存檔，不發，備查。
想像一下，你可以查到自己每一道題目批閱分數，不才對嗎？
依舊如上次的問題：高考，什麼時候把草台閱卷班子拆了⋯⋯

未來的教育嗎這是？
NO，這是已來的。

順手，把 789,035 tokens 的數據給 Gemini，要求：

好的，这份详尽的阅卷数据为了解学生在现代文阅读理解中的共性问题提供了极佳的样本。通过对这份日志文件的深入分析，我们可以清晰地看到学生们的优势、普遍存在的不足，并据此提出通往满分的具体学习建议。

I. 核心采分点回顾

首先，我们再次明确本题的四个核心采分点（根据提供的满分答案和多数批改日志反推，此题满分应为4分或6分，但评分要点是固定的，此处以4个核心要点为准）：

父亲形象 (1分): 通过“看到有只蝙蝠，扔过去正好卡住”这一细节，展现父亲身手矫捷、行动果断的形象。

吉米形象 (1分): 通过“逮住后先关在个笼子里…待到天黑，我们就把它带到湖边去放了”这一细节，刻画出吉米（父子二人）善良、尊重和呵护生命的品质。

烘托离别情绪 (1分): 在“离别在即”的大背景下，“我”看到厨房里一个普通的物件（洗碗刷），便能回忆起一段温馨的往事（抓蝙蝠、放蝙蝠），这种“睹物思情”的方式，有力地烘托了“我”对这个家深深的不舍与留恋。

细节作用 (1分): 这种写法“以小见大”。作者只写了一个洗碗刷背后的故事，但暗示了厨房里每一件物品都承载着类似的美好回忆。这为读者提供了充分的想象空间，让读者自行补完那些未曾言说的、充满生活气息的家庭故事，从而深化了情感的浓度。

II. 学生答案共性优势分析

从得分情况看（多数学生得分在1-2分），学生们普遍具备一定的基础阅读能力和情感感知力。

能感知到“离别情绪”与“回忆”的关联： 这是得分最集中的一点。绝大多数学生都能意识到，作者详细描写厨房和蝙蝠的故事，是为了表达“不舍”、“留恋”、“怀念”等情感。他们成功地将“回忆往事”和“离别”这两个核心概念联系了起来。

能识别关键事件： 很多学生能够准确指出“洗碗刷”引出了“抓蝙蝠”或“放蝙蝠”的故事，表明他们能够抓住情节的关键节点。

III. 学生答案共性不足分析（失分点重灾区）

尽管有上述优势，但绝大多数学生未能拿到3分或满分，暴露出以下几个关键且共性的问题：

人物形象分析“脸谱化”，未能与具体行为挂钩： 这是失分最多的地方。

关于父亲： 学生们常常用“随性”、“不拘小节”、“有生活情趣”、“关爱孩子”等非常笼统的词语来概括父亲形象。这些评价虽然不算错，但完全没有抓住题目所给细节的核心。那个瞬间的动作——“飞起刷子扔过去正好卡住”，最直接体现的是行动的敏捷与果断（即“身手矫捷”）。阅卷日志中反复出现“学生未提及父亲在处理蝙蝠时的具体动作细节”，说明学生们忽略了从动作本身出发去分析人物。

关于吉米： 同样的问题也存在。很多学生只提到“父子关系好”、“生活温馨”，或者只说了“抓了蝙蝠”。他们忽略了整个事件的闭环——“逮住”、“笼养”、“天黑后带到湖边”、“放生”。真正体现吉米（父子）品质的，恰恰是最后的“放生”行为，它升华了整个事件，展现出对生命的尊重与呵护。阅卷日志中也频繁出现“学生未提及吉米（或‘我’）在对待蝙蝠时的善良、尊重生命或放生等具体行为”。

“烘托离别情绪”的分析逻辑链不完整：

虽然很多学生提到了“不舍”和“回忆”，但他们的分析往往缺少了关键的触发条件和背景。一个完整的分析逻辑应该是：在即将远行离别的背景下（情境） → “我”看到了厨房里一个普通的洗碗刷（物件） → 由此想起了与之相关的抓蝙蝠的往事（回忆） → 这种温馨的回忆加剧了此刻离别的不舍（情感升华）。

许多学生只说了“回忆往事体现了不舍”，但没有点明是“看到洗碗刷”这个物件触发的，也没有强调这是在“离别在即”这个特殊时刻，导致分析不够精准、深刻。

“细节作用”的理解浅层化、套路化：

这是最考验文学鉴赏能力的一点，也是高分和普通分的“分水岭”。

很多学生会使用“承上启下”、“推动情节发展”、“吸引读者兴趣”等“万金油”式的套话。这些话本身没有错，但没有解释清楚这个细节在此处的独特作用。

本题中，这个细节的深层作用在于**“以小见大”和“留白”。作者只用一个洗碗刷的故事，就让读者联想到，这个厨房里的炉子、水槽、桌子、扫帚……每一件物品背后都可能有一个类似的故事。它打开了一个想象空间**，让读者自行去填充那些未被讲述的、父子间无数个温馨的日常瞬间。阅卷日志中的评语“未能明确指出细节能让读者联想到厨房承载的回忆或提供想象空间”精准地指出了这个问题。

IV. 满分学习建议

结合以上分析，想要在这类题目中拿到满分，建议从以下四个方面进行针对性训练：

回归文本，“抠”准动作细节：

训练方法： 在分析人物形象时，强制自己不要先下结论（如“父亲很爱孩子”），而是先找到文本中描写该人物的具体动词。问自己：“他做了什么？”（He threw the brush.）然后，再问：“这个动作体现了什么？”（敏捷、果断）。同样，对于吉米，关键动作是“放生”，它直接导向“尊重生命”的品质。

满分思维： 人物形象不是靠形容词堆砌的，而是靠具体行为支撑的。分析 = 描述具体行为 + 提炼人物品质。

建立“情境-媒介-回忆-情感”的完整逻辑链：

训练方法： 在分析情感烘托时，学会寻找一个完整的逻辑链条。问自己四个问题：

（情境） 主人公此刻正处于什么特殊的情境下？（即将离别）

（媒介） 是什么东西触发了他的情绪或回忆？（一个洗碗刷）

（回忆） 他想起了什么具体的往事？（抓蝙蝠和放蝙蝠）

（情感） 这段回忆如何影响了他此刻的情感？（美好的回忆加剧了离别的不舍）

满分思维： 将这四要素串联起来，就能形成一个逻辑严密、论证充分的答案，而不是简单地说“回忆了过去，所以不舍”。

深挖作用，拒绝“万金油”式套话：

训练方法： 在回答“作用/用意/好处”这类问题时，除了想到“承上启下”等基本作用外，要多问自己一句：“作者只写了A，是不是想让我们读者去想象B、C、D……？”

满分思维： 学会使用**“以小见大”、“言有尽而意无穷”、“留白”、“提供想象空间”**等更高级的鉴赏术语。要能解释清楚：作者通过一个洗碗刷的故事，成功地让整个厨房“活”了起来，让读者相信这个空间里充满了无数未曾言说的温暖故事。这正是从“文本内容”到“读者感受”的升华。

拆分要点，分条作答，确保全面性：

训练方法： 拿到题目后，先在草稿纸上列出可能的采分点（如：父亲形象、吉米形象、情感、手法等）。然后逐一思考，分点作答。

满分思维： 优秀的答案（如题目给出的范例）结构都非常清晰，通常会从“人物塑造”和“情节/情感”两个大方面入手，再在每个方面内部细化。这样做可以确保覆盖所有采分点，避免遗漏。

总结： 从“能读懂”到“会分析”是现代文阅读高分的核心。关键在于将模糊的情感感知，转化为对文本具体细节（动作、物件、情境）的精确分析，并构建起严谨的逻辑关系。通过刻意练习上述四点，学生将能更有效地突破瓶颈，向满分迈进。

好的，遵照您的指示，我从提供的日志文件中提取了得分最高、分析最全面的两份真实学生答案作为优秀案例。

优秀案例一（满分：4/4）

这份答案全面、准确地命中了所有四个采分点，展现了对文本细节、人物形象和写作手法的深刻理解。

日志来源: 任务ID 258098389

学生答案原文:

(4分) 想引出吉米父子在这个小屋生活时发生的趣事。他们因为看到一只蝙蝠把刷子扔过去正好卡在那儿了。而这个故事写的是父子先将蝙蝠抓住，父子二人最后又把它放生的故事，父素把他管得不少是故意了提高他的敏锐。更是像侣伴和他一起捕养的美好回忆。让"我"体会到深刻而含蓄的父爱。同时它也象征着二人在小屋的美好时光，将要被抛在过去；同时这个位置特殊的刷子也吸引了读者兴趣。

得分详情:

父亲形象: 1分

吉米形象: 1分

离别情绪: 1分

细节作用: 1分

案例分析:

人物形象刻画精准： 这位同学准确抓住了两个核心动作。通过 “把刷子扔过去正好卡在那儿了” 对应了父亲的果断敏捷（身手矫健）；通过 “最后又把它放生的故事” 对应了吉米（父子）的善良和对生命的尊重。这是获得人物形象分的关键。

离别情绪逻辑完整： 答案中明确点出，洗碗刷象征的 “美好时光，将要被抛在过去”，清晰地将“回忆”与“离别”这一背景结合起来，准确烘托了伤感不舍的情绪。

细节作用理解深刻： 答案不仅点出了“引出趣事”，还提到了“吸引读者兴趣”，这与“提供想象空间”的作用异曲同工，说明该生理解到这个细节不仅仅是为了叙事，更是为了增强文章的感染力。

语言表达流畅，分析层次分明： 整个答案围绕一个核心细节展开，层次清晰，分析得有理有据。

优秀案例二（高分：3/4）

这份答案虽然未能拿到满分，但其分析的逻辑性、语言的准确性以及对多个采分点的覆盖，使其成为一个极具代表性的高分案例。

日志来源: 任务ID 269524874

学生答案原文:

(4分) 这把洗碗刷原本只是生活中一个微不足道的意象，代表了“我”和爸爸抓蝙蝠放生的一次经历，而在我与小屋的离别之际却又有了更深层的含义，成为了“我”与爸爸的所有美好回忆的载体，暗示“我”极力想记住厨房里发生的一切，传达了无限不舍与留恋之情，同时丰富了父亲的人物形象，体现其纯纯随意的特点。

得分详情:

父亲形象: 0分

吉米形象: 1分

离别情绪: 1分

细节作用: 1分

案例分析:

吉米形象把握准确： 答案明确指出了“抓蝙蝠放生的一次经历”，精准地抓住了体现吉米善良、尊重生命的核心动作。

离别情绪分析透彻： 这位同学的分析逻辑链非常完整。他点明了 “在我与小屋的离别之际” 这个关键情境，并指出洗碗刷这个“微不足道的意象”因此有了“更深层的含义”，成为了回忆的载体，最终传达了 “无限不舍与留恋之情”。这是该采分点的完美论述。

细节作用理解到位： 答案中 “成为了‘我’与爸爸的所有美好回忆的载体，暗示‘我’极力想记住厨房里发生的一切” 这句话，深刻揭示了“以小见大”的写法——一个洗碗刷的故事，承载的是对整个厨房、整个家的全部回忆。

失分点警示： 这份答案唯一的失分点在于对“父亲形象”的分析。虽然提到了父亲，但用“纯纯随意的特点”来概括，没有抓住“扔刷子”这个动作所体现的“身手矫健”，与采分点要求略有偏差。这恰好说明了在分析人物时，抓住核心动作细节的重要性。

補充 Google NotebookLM 導圖與分析：

直接訪問：本次 Google NotebookLM 數據分析。
僅更新指令：
text
# ===== 評分指令 =====
GEMINI_SCORING_PROMPT = """
你是一個語文閱卷老師，請你根據下面這套固定的參考答案與評分標準，對學生的作答進行打分，滿分 6 分。
請你一定要先識別圖片中的學生答案，再按六條依次判分，每一條都寫一句判語，最後給一段總評。

【參考答案與評分標準（固定內容）】

（1）以秋瑾为代表的志士仁人（1 分）的救国救民之梦（1 分）；
（2）以鲁迅为代表的思想家（1 分）揭露“国民性”，力求改造人的灵魂的“立人”之梦（1 分）；
（3）以王羲之为代表的“群贤”（1 分），沉浸在青山绿水之中，“畅叙幽情”，追寻生命价值之梦（1 分）。

【評分說明】
1. 要提到“秋瑾”为代表的志士仁人，给 1 分。
2. 要提到“救国救民之梦”，给 1 分。
3. 要提到“鲁迅”为代表的思想家，给 1 分。
4. 要提到“立人”之梦（改造人的灵魂/改造国民性/立人相关表述均可），给 1 分。
5. 要提到“王羲之”为代表的“群贤”，给 1 分。
6. 要提到“追寻生命价值之梦”（畅叙幽情、生命价值等相关表述均可），给 1 分。

【你要輸出的 JSON 結構】（只輸出 JSON，不能多文字）：
{
  "student_answer": "...你從圖片裡識別出的學生原文...",

  "point_qiujin": 0 或 1,
  "comment_qiujin": "為什麼給/不給‘秋瑾为代表的志士仁人’這一分",

  "point_guomin": 0 或 1,
  "comment_guomin": "為什麼給/不給‘救国救民之梦’這一分",

  "point_luxun": 0 或 1,
  "comment_luxun": "為什麼給/不給‘鲁迅为代表的思想家’這一分",

  "point_liren": 0 或 1,
  "comment_liren": "為什麼給/不給‘立人之梦（改造人的灵魂/国民性）’這一分",

  "point_qunxian": 0 或 1,
  "comment_qunxian": "為什麼給/不給‘王羲之为代表的群贤’這一分",

  "point_shengming": 0 或 1,
  "comment_shengming": "為什麼給/不給‘追寻生命价值之梦’這一分",

  "final_score": 0~6 的整數（必須等於六項分數相加）, 
  "overall_comment": "給學生的一段總體評語，說他扣在哪裡，下一步應該補哪裡"
}

要求：
- 一定要輸出合法 JSON，不能有 ```json 這種包裝。
- 六個點的分數相加必須等於 final_score。
- 如果圖片沒有字，就六項都 0，final_score 也 0，overall_comment 寫「未作答」。
"""
模型自然更新為： gemini-3-flash-preview ，幾個大模型中多模態做得最好的就是 Gemini 了。

截止 20:30，判閱完畢。

看到有一份判閱因 JSON 化失敗給錯了分數，手動改對；有一份未作答空白卷導致顯示判閱失敗，其他都正常。

代碼依舊，所以流程依舊是自動下載儲存全部圖片，給 AI 識別文字，AI 逐點給分，寫回系統。要確保無誤，所以寫數據清洗腳本，確認了確實只有一份已修正後，

正式開始分析學生作答數據：

本文基於本輪 845 份閱卷結果的清洗輸出（records.jsonl / csv）做統計分析。
「JSON 污染導致的錯分」已手動更改為 6 分，並納入本次總體分佈與路徑分析。

0）總覽：這批學生到底寫成什麼樣？

✅ 分數分佈（0～6 全量）

分數人數佔比

6 329 38.93%

5 230 27.22%

4 144 17.04%

3 70 8.28%

2 35 4.14%

1 10 1.18%

0 27 3.20%

均分：4.7219 / 6

中位數：5

5～6 分佔比：66.15%

結論很清楚：大部分同學已經掌握“人物框架”，分差主要出在“夢的內涵是否能落到抽象概括”。

1）六要點整體命中率（誰最難？誰最容易？）

本題 6 個得分點（每點 1 分）：

秋瑾（志士仁人）

救國救民之夢

魯迅（思想家）

立人之夢（改造國民性/靈魂）

王羲之（群賢）

生命價值之夢（暢敘幽情/生命價值）

✅ 全量命中率（845 份）

得分點命中份數命中率

秋瑾志士 788 93.25%

救國救民 703 83.20%

魯迅思想家 783 92.66%

立人之夢 425 50.30%

王羲之群賢 719 85.09%

生命價值 572 67.69%

🔥 一句話結論

人物很好寫（秋瑾/魯迅/王羲之全部 > 85%）

最難的是“立人之夢”（只有 50.3% 寫到）

第二難是 生命價值之夢（67.7%）

這說明：大部分同學會點名，但「抽象概括」層面仍偏薄。

2）0～6 分「典型丟分路徑」（最關鍵：每一檔到底缺哪幾分？）

下面不是“主觀推測”，而是按每份答卷的 6 點得分組合統計出來的 最常見缺分模式。

6 分（329 份）

✅ 典型結構：六點全中

缺分模式：none（329 / 329，100%）

6 分不是“字多”，而是 人物 + 三個夢的內涵全部落地。
尤其需要明確寫到：
立人（改造國民性/靈魂） + 生命價值（暢敘幽情/生命價值）。

5 分（230 份）

✅ 最常見丟法：只少 1 點，且幾乎都少在“立人” Top 缺分模式（缺 1 點）：

缺「立人之夢」：170 份（73.91%）

缺「生命價值」：39 份（16.96%）

缺「王羲之群賢」：12 份（5.22%）

缺「救國救民」：4 份（1.74%）

缺「秋瑾」：4 份（1.74%）

5 分 = 人物幾乎齊、夢的內涵少一個
最容易補的一句話就是：

「魯迅揭露國民性，力求改造人的靈魂，追求立人。」
或

「批判麻木冷漠，喚醒國人精神，追求立人。」

4 分（144 份）

✅ 典型丟法：同時少兩點，且最常見是“立人 + 生命價值”一起缺 Top 缺分模式（缺 2 點）：

缺「立人 + 生命價值」：79 份（54.86%）

缺「救國救民 + 立人」：26 份（18.06%）

缺「王羲之群賢 + 生命價值」：22 份（15.28%）

缺「立人 + 群賢」：7 份（4.86%）

缺「救國救民 + 生命價值」：4 份（2.78%）

4 分 = 人物多半齊，但“夢”寫得太虛
典型語氣是：
“提到某某，表示敬意/感慨”
但沒有把夢落到 救國/立人/生命價值三條。

3 分（70 份）

✅ 典型丟法：缺 3 點；最常見是「救國救民 + 立人 + 生命價值」全缺 Top 缺分模式（缺 3 點）：

缺「救國救民 + 立人 + 生命價值」：43 份（61.43%）

缺「立人 + 群賢 + 生命價值」：15 份（21.43%）

其他更分散（共 12 份，17.14%）

✅ 3 分到底少哪两条最多？（你要的核心答案）

在 3 分群體（70 份）裡，各點缺失率：

缺「立人」：65 / 70（92.86%）

缺「生命價值」：61 / 70（87.14%）

缺「救國救民」：48 / 70（68.57%）

缺「群賢」：22 / 70（31.43%）

缺「秋瑾」：7 / 70（10.00%）

缺「魯迅」：7 / 70（10.00%）

最常見的“缺兩條組合”是：

缺「立人 + 生命價值」：59 / 70（84.29%）

這個結論非常尖銳：
3 分不是不會寫人，而是寫不出“抽象精神內核”。
他們往往能點名（秋瑾/魯迅/王羲之），但一旦要求把夢“概括成概念”，就垮掉。

2 分（35 份）

✅ 典型丟法：只拿到兩個人物點/零碎點，夢的內涵大量缺失 Top 缺分模式（缺 4 點）：

缺「救國救民 + 立人 + 群賢 + 生命價值」：17 份（48.57%）
→ 等於只寫了「秋瑾 + 魯迅」

缺「救國救民 + 魯迅 + 立人 + 生命價值」：6 份（17.14%）
→ 只寫「秋瑾 + 王羲之」

缺「秋瑾 + 魯迅 + 立人 + 群賢」：4 份（11.43%）
→ 只寫「救國救民 + 生命價值」（很少見，但存在）

2 分 = 框架沒搭起來
常見狀態是“只抓住一兩個人名/地標”，夢的內涵幾乎沒出現。

1 分（10 份）

✅ 典型丟法：只命中 1 點，其它幾乎全空 Top 缺分模式（缺 5 點）：

缺「救國救民 + 魯迅 + 立人 + 群賢 + 生命價值」：5 份（50%）
→ 只寫了「秋瑾」

缺「秋瑾 + 魯迅 + 立人 + 群賢 + 生命價值」：4 份（40%）
→ 只寫了「救國救民」（或類似意向）

缺「秋瑾 + 救國救民 + 立人 + 群賢 + 生命價值」：1 份（10%）
→ 只寫了「魯迅」

0 分（27 份）

✅ 典型丟法：六點全缺

缺分模式：秋瑾+救國救民+魯迅+立人+群賢+生命價值（27 / 27，100%）

0 分就是：未作答 / 答非所問 / OCR 無有效文本。

3）把“丟分路徑”翻譯成教學診斷：學生其實卡在哪？

3.1 高頻問題一：人物寫得出來，但“夢”寫不出來

5 分 → 只差 1 句立人

4 分 → 立人 + 生命價值一起缺

3 分 → 救國 + 立人 + 生命價值三個夢全缺（只剩人物）

這就是典型的：
“點名型作答” vs “概括型作答” 的差別。

3.2 高頻問題二：“立人之夢”幾乎是所有中檔分數的天花板

你只要記一個最硬核結論就夠了：

5 分群體：73.91% 缺立人

4 分群體：54.86% 缺「立人+生命價值」

3 分群體：92.86% 缺立人（最高）

立人 = 這道題最難的一分，也是最值得強化的一分。

3.3 高頻問題三：生命價值比想像中更“可救”

生命價值在 4～5 分群體裡屬於“第二常缺”，但比立人好補得多：

學生只要學會寫一句：

「群賢畢至，暢敘幽情，追尋生命價值。」
或

「寄情山水，在自然與友情中安頓精神，體現生命價值。」

就能跨檔增分。

4）後續提分策略（用最短語句補最硬分）

這一部分我建議你直接印成“下一次講評的模板”，學生最吃這個。

4.1 想從 5 分到 6 分：只補一句「立人」

必殺句（任選其一）：

「魯迅揭露國民性，力求改造人的靈魂，追求立人之夢。」

「批判麻木冷漠，喚醒國人精神，完成立人之夢。」

4.2 想從 4 分到 6 分：補「立人 + 生命價值」兩句

立人（上面任一）

生命價值（任選其一）：

「群賢畢至，暢敘幽情，追尋生命價值之夢。」

「寄情山水，獲得精神自由，體現生命的意義。」

4.3 想從 3 分到 5 分：先補“夢”，不要再加人名

因為 3 分群體大多 人名已齊，缺的是三個夢裡的兩到三個。
你教他們：“別再堆景點了，直接補概念”。

5）一句話總結（可以作為本文收束）

這道題真正的分數，不在於你能寫出多少人物與地標，
而在於你能不能把夢寫成概念：
秋瑾的夢是救國救民，魯迅的夢是立人，王羲之的夢是生命價值。
人物是壳，精神才是分。

成本⋯⋯Gemini API Billing Paid tier 1 ，這個閱卷效度，性價比是足夠的。

組內前兩天年度工作匯報，專門提了用 AI 閱卷的事情，目的自然是希望減輕更多人無意義的精力，且更高效；提醒效度如何，等就好了。

備註：
20260120 起基於 CF 啟動 AI 閱卷網站搭建，約 6 小時完工：

下次閱卷，正式測試網頁版。

项目	数值	说明
样卷总数	573
得分分布	4 分 570 份 (99.5 %)1/3/0 分各 1 份	去重后几乎全是满分范式
常见结构	187 份 (32.6 %) 使用 ①②③ 分条	硬模板套用明显
关键词覆盖率	启蒙 63% · 批判 63%浪漫 68% · 写实 47%完美/民族 ≈49%	与标准答案要点高度吻合
典型对照词	“奴性”(32 %) vs “野性”(14 %)	两位作家人物特质对举

关键词	出现次数	占比
启蒙	362	63.2%
批判	361	63.0%
浪漫	391	68.3%
写实	269	46.9%
田园	279	48.7%
奴性	183	31.9%
野性	79	13.8%
真善美	67	11.7%
完美	259	45.2%
民族	284	49.6%
强盛	56	9.8%

角度	典型鲁迅描写	典型沈从文描写
词根	批判、封建、奴性、凋敝	浪漫、田园、野性、完美
句式	冷峻陈述：「鲁迅以写实…审视…」	抒情赞美：「沈从文以全副笔力赞颂…」
逻辑	先再现疾苦 -> 再批判剖析	先描绘美好 -> 再寄托希望

分數	人數	佔比
6	329	38.93%
5	230	27.22%
4	144	17.04%
3	70	8.28%
2	35	4.14%
1	10	1.18%
0	27	3.20%

得分點	命中份數	命中率
秋瑾志士	788	93.25%
救國救民	703	83.20%
魯迅思想家	783	92.66%
立人之夢	425	50.30%
王羲之群賢	719	85.09%
生命價值	572	67.69%

監考時順便完善好：

Screenshot 2026-04-27 at 05.58.09.png (20260427008)

還願：

Screenshot 2026-04-27 at 05.28.43.png (20260427004)

Screenshot 2026-04-27 at 05.28.59.png (20260427005)

整理好分點答案：

Screenshot 2026-04-27 at 06.15.33.png (20260427011)

做兩次試評：

Screenshot 2026-04-27 at 05.29.28.png (20260427006)

一則是人工看下評閱，一面也為對比不同模型效度：

Screenshot 2026-04-26 at 23.32.33.png (20260427001)

Screenshot 2026-04-26 at 23.35.35.png (20260427002)

Screenshot 2026-04-26 at 23.37.29.png (20260427003)

為什麼不能 DeepSeek⋯⋯

因為 API 不能 OCR⋯⋯
對比中能評分是因為把 Gemini 識別到的文字按一樣指令給過去了。

實際對比測試的結果如上圖：一次能用的，
一次不回的，
一次評分不靠譜的。

能不能幹活能不能穩定幹活，就是一切⋯⋯

基於試閱選擇了 OCR 效果最好的 gemini-3.1-pro-preview ，比 2.5 確實要貴：

Screenshot 2026-04-27 at 05.29.42.png (20260427007)

這個費用也是因為選擇了 Thinking 的 High 最高等級。併發 5 份，從打理網站到最後全部閱完，大致 6 個小時。
網站對評閱做了詳細數據記錄，下載例行喂給：

Screenshot 2026-04-27 at 06.02.50.png (20260427009)

一個髒東西 PPT 就自動有了：
Screenshot 2026-04-27 at 06.09.38.png (20260427010)

本次語文閱卷共完成批閱834份學生作答，該題滿分為4分，全體學生的平均得分為2.05分。以下將從整體分值分佈到具體知識點得分率，為您進行全面、具體且深刻的答題數據透析：

一、整體分值分佈透析

從834名學生的總體得分情況來看，分值分佈呈現出極為典型的「紡錘形（常態分佈）」特徵：

0分區間（54人，佔比約6.5%）：極少數學生完全偏離題意，或交白卷，或全篇堆砌與文本無關的答題套話。
1分區間（150人，佔比約18%）：這部分學生通常只能答出最淺層的某一個點（多為引用詩句的論證作用），缺乏多維度思考能力。
2分區間（360人，佔比約43.2%）：這是人數最多的得分區間。學生大多能抓住「引證作用」以及「承上啟下」的結構框架，或能看出部分「安靜」的內容，但缺乏對具體意境和深層文學手法的挖掘。
3分區間（237人，佔比約28.4%）：這部分學生具備了良好的「內容+結構」雙向答題意識，但在最核心的「哲理具象化」藝術高度分析上有所遺漏。
4分滿分區間（33人，佔比約4%）：僅有極少數拔尖學生能夠完美兼顧論證作用、具體意境、深層手法與結構脈絡，思維嚴密，文本洞察力極強。

二、核心知識點（踩分點）得分率深度透析

數據顯示，學生在四個維度的知識點掌握上存在巨大的差異，這直接反映了當前學生在現代文閱讀理解中的能力短板：

1. 引用論證作用（point_quote_yinjiu）—— 命中率：85%（709人/834人）

數據透析：這是全題得分率最高的知識點。絕高達八成半的學生都能夠指出引用《飲酒》詩是為了「支撐、印證作者對陶淵明自然追求或心遠自安思想的分析」。
學情反映：這表明學生已經熟練掌握了「舉例/引用是為了論證觀點」這一最基礎的閱讀理解邏輯，能夠識別出論據與論點之間的支撐關係。

2. 結構作用分析（point_jiegou_chengyin）—— 命中率：55.8%（465人/834人）

數據透析：超過一半的學生能夠拿到結構分，指出段落「承上啟下」的作用。
學情反映：多數學生具備結構答題意識，知道要寫「承接上文……引出下文……」。但仍有近半數學生失分，原因在於「生搬硬套」：他們只寫出了「承上啟下」的術語，卻沒有結合文本具體指出承接了上文的「追求自然」，以及引出了下文的「心遠」這一核心哲理。

3. 田園意境刻畫（point_tianyuan_jingjie）—— 命中率：51.6%（430人/834人）

數據透析：只有約一半的學生能夠結合詩句，具體點明陶淵明「歸隱田園、內心寧靜、悠然超脫」的人生境界。
學情反映：雖然多數學生能看到「安靜」這個詞，但很多人的概括過於泛泛而談（例如僅回答「寫出了對田園的熱愛」），缺乏對「超然物外、寄情自然」這種具體心境的精準提煉。這反映出學生對詩歌意象的共情與文本概括能力仍停留在表層。

4. 哲理具象化手法（point_xuanli_shiyi）—— 命中率：13.1%（109人/834人）

數據透析：這是本題的「極重災區」與拉開頂尖學生差距的關鍵點。僅有約13%的學生能夠指出陶淵明「將人生哲理融入田園生活，化抽象玄理為具體詩意畫面（讓哲理入境）」，以及「超越魏晉名士」的深層意蘊。
學情反映：這一數據深刻暴露了學生在文學審美與藝術手法鑑賞上的匱乏。絕大多數學生只能看到「寫了什麼景（田園）」「抒了什麼情（安靜）」，卻無法上升到「作者是如何用具象的畫面來表達抽象的哲理」這一文學批評的高度。學生對文本中作者的深層點評（如「讓玄言具象」）缺乏敏銳的捕捉能力。

三、綜合診斷與後續指導建議

綜合上述數據，學生的作答呈現出**「懂套路、明大意，但缺細節、乏深度」**的群體畫像。

在後續的教學與訓練中，建議針對性解決以下問題：

戒除「空泛套話」：嚴格要求學生在回答「承上啟下」「豐富文章內容」「深化主旨」等術語時，必須緊跟文本具體的關鍵詞（如本文中的「自然」、「心遠」），做到「詞不離句、句不離段」。
培養「立體」答題思維：面對「某段/某句引文有何作用」的題型，必須強制要求學生從三個維度進行掃描：內容主旨（寫了什麼境界/印證了什麼觀點） + 篇章結構（與前後文的邏輯關聯） + 藝術手法與效果（如化虛為實、哲理具象化等），以此來攻克得分率僅為13.1%的深層鑑賞難題。

網站開放使用，自備 API 即可： https://mark.bdfz.net

AI 閱卷記

真 AI 閱卷報告 2026 之一

真 AI 閱卷報告

AI 閱卷報告

1、評分報告

1.1 高分字數

1.2 核心统计

1.3. 内容洞察

1.3.1 话语模板化

1.3.2 关键词网络

1.3.3 长度对得分影响

1.3.4 风格差异

1.4 教学建议

1.5 结语

2、是否跑通

3、真正價值

4、技術流程

5、關鍵癥結

I. 核心采分点回顾

II. 学生答案共性优势分析

III. 学生答案共性不足分析（失分点重灾区）

IV. 满分学习建议

优秀案例一（满分：4/4）

优秀案例二（高分：3/4）

0）總覽：這批學生到底寫成什麼樣？

✅ 分數分佈（0～6 全量）

1）六要點整體命中率（誰最難？誰最容易？）

✅ 全量命中率（845 份）

🔥 一句話結論

2）0～6 分「典型丟分路徑」（最關鍵：每一檔到底缺哪幾分？）

6 分（329 份）

5 分（230 份）

4 分（144 份）

3 分（70 份）

✅ 3 分到底少哪两条最多？（你要的核心答案）

2 分（35 份）

1 分（10 份）

0 分（27 份）

3）把“丟分路徑”翻譯成教學診斷：學生其實卡在哪？

3.1 高頻問題一：人物寫得出來，但“夢”寫不出來

3.2 高頻問題二：“立人之夢”幾乎是所有中檔分數的天花板

3.3 高頻問題三：生命價值比想像中更“可救”

4）後續提分策略（用最短語句補最硬分）

4.1 想從 5 分到 6 分：只補一句「立人」

4.2 想從 4 分到 6 分：補「立人 + 生命價值」兩句

4.3 想從 3 分到 5 分：先補“夢”，不要再加人名

5）一句話總結（可以作為本文收束）

一、 整體分值分佈透析

二、 核心知識點（踩分點）得分率深度透析

三、 綜合診斷與後續指導建議

一、整體分值分佈透析

二、核心知識點（踩分點）得分率深度透析

三、綜合診斷與後續指導建議