SUEN

AI高考

做完 AI論語 和 AI紅樓夢,突然意識到,也許,還可以繼續走走。
這種感覺類似當初做論文文獻綜述,一旦開頭,點線而面,此面彼面,多層多面,就都來了。

最煩的還是架構問題。
AI論語 和 AI紅樓夢其實從來不是獨立的,而一直都是北京高考真題的二選一,10分。
所以,我真正在做的,其實是 AI高考。

高考的王道一直是真題,尤其在北京高考這種低水準命題模式下,就只能,且更是。
此前真題都是在教學網站給,從 Googlesite 到語雀,都是硬給,效果⋯⋯等於冇。這輪做互動網頁,原本就是想到學生刷網頁遊戲的一念而已;那麼,乾脆把真題都做了。

然後,今天上午先把數據 JSON 化。不做不知道,真題的數據整理精校,進度實在是不足 10%⋯⋯想想前些日子和學生聊把帽子扔過去的寓言;現在,沒別的,扔!

之所以非連做了精校,其實是因為這道題目的靈魂是信息梳理整合。現階段,以項目所用 LLM 的能力,如果 AI 給了和人類不一樣的答案,基本上,人類答案,就是錯的了。換言之,這道題的訓練,你就信 AI 即可。

詩詞和古文,都是之前專題整理過的資料,但後續還需要對 JSON 做調整,答案也需要做人工確認;現階段,也就算是能用。且,注意!古文的處理,LLM 都還功力迄今也沒那麼足,在我將人工答案整理錄入前,必須小心。

整理數據這事,估計要等到今年九月才可能完成。
畢竟,一個人,有限。

好消息是,今天下午下課後,開始代碼,本文寫到這一行,時間是 20:18,代碼在 30 分鐘前完成 1.0 版本,網站已經上線。

網址: https://gk.bdfz.net
嗯。


2025-03-27

昨天在 AI高考 一文說:

“整理數據這事,估計要等到今年九月才可能完成。
畢竟,一個人,有限。”

然後,今天完成!

X上我發文說了:

啊啊啊啊啊啊啊啊啊啊啊啊啊!
因為模型效果不好,我昨天手動清洗這個數據中的一部分,一小時清洗完非連⋯⋯
今天,Gemini 2.5 Pro Experimental 03-25 模型,用 10 幾分鐘,把我計劃到今年九月才可能整理完的數據,清洗完了!

這就很⋯⋯神!
一直盯著屏幕上每年的數據審閱,整個處理過程,比我自己要周密。
當然,也是因為這次我以2024年為範例,徹底重構了各題目 JSON 化的基本邏輯,然後,寫了一個超級複雜的指令。

原本擔心模型會做不出,還想拆分任務;但又轉念,雖然過於複雜又何妨一試,做不出來再簡化任務就好。結果⋯⋯低估模型了,效果是真的嚇人。
中間斷開三次,要求繼續,就直接繼續了。
Token count : 333,554/1,048,576。

那,精進之!上傳新 data 數據,改代碼邏輯,將微寫作大作文指令一併寫入。替換下之前 AI論語 / AI紅樓夢 。哦,還有默寫網站:高考默寫
這兩個高考訓練網頁原本就是備考用,本該獨立。
那麼。完工。

現在的效果是,每一年的所有題目,都已經錄入可見。
任何一個北京考生,都可以隨時:

後續完善人類參考答案進去,就是純體力活了。
嗯。


2025-04-01

學生建議,所以版本更新。

之所以加速處理古文,是因為昨天突然發現,現在的模型在古文題目上,分析和答案都已經很精準,前幾天課上跟學生還說,這個網站最要小心使用的就是古文。
現在,臉疼。
但,人類被羞辱,好事。

2025-04-02

再次重構頁面,原來上下,不利於邊看題邊做題,現在左題右答,好些了。

後續更新點:

2025-04-04

沒法硬剛GFW,繞⋯⋯
AI高考 🦁 | AI論語 🐭 | AI紅樓 🐌 | 高考默寫 🦉 | AI課文現在應該都可以無牆使用 AI 了。
已加入網站統計。

AI 回覆速度依舊沒有解決,會很慢慢慢⋯⋯

2025-04-13

加入日常訓練題目到網站,當作業玩。

2025-06-21

校對錄入2025北京真題。

2026-04-29

前後端一起重構。加入Claude Opus 4.7 和 GPT-5.5 pro 两版本 AI 答案。迄今為止,AI 還不能確保做對古文的兩道選擇,即便是這兩個頂尖模型,根本原因應該還是訓練語料嚴重不足。

真題現在是沒有官方公布的,答案就更別說了。網上流傳的所謂答案,閱卷教師私下會傳出來部分,網上流傳弄假成真一部分,高中教師自己做一部分。
關鍵在於,主觀題上,答案是答案,評標(評分標準)是評標,這兩者我看到的真實情況是,幾乎沒真正完全一樣過⋯⋯
決定太多人命運的,一直都挺草台的⋯⋯

之所以沒做各區模擬進來,是因為真題和模擬隔了很厚一層,各區模擬也其實參差,需要拿到的不是參考答案而必須是評分標準,這就又加了很麻煩的一層,但最麻煩的這層在訓練 AI 幹這事上是最重要的,所以,沒然後了就。
海淀區閱卷的真實樣貌是,各題一組教師,拿答案先做評標,試閱,調整評標,閱卷過程中隨時看均分和分佈通知閱卷老師寬一點或嚴一點,最後流出去的參考答案和真實評標,並不一致。
如日常考題閱卷數據可查,如高考真題與答案可查(譬如台灣),這網站就可以很不一樣了。
愈發感覺到,在 AI 持續進化下,各種瓶頸已經是人。