延伸閱讀 — 冷讀

到這裡才實名。

這本書從頭到尾沒點過公司名字,因為談方向、不談特定公司。到附錄可以點了。

下面列的都是公開材料——書裡提到的每一件事,根都在這裡。看不懂沒關係,多數是寫給技術人看的。你至少會知道去哪裡查。

一、本書的架構 repo

•理論:shihchengwei-lab/separation-and-audit-alignment

書裡「冷讀 + 準則」那個架構的完整寫法。設計理由、模組定義、條文格式、為什麼這樣切。第一章五個現象、第二章那份研究的內部整理,也都在這個 repo 裡。

•實作:shihchengwei-lab/separation-and-audit-claude-code

同一個架構、落到 Claude Code 工作流的實作版本。

書裡用「前沿研究」「前沿研究團隊」「做我的人」這些說法,講的是目前在做 AI 的幾家主要機構:Anthropic、OpenAI、Google DeepMind。

•Claude Opus 4 & Sonnet 4 System Card

一份 model card 的樣本——能力評估、安全測試、已知限制的公開報告。書裡提到的「系統卡 / 模型卡」就是這類文件。

•Building and evaluating alignment auditing agents

審計代理的設計和評估。書裡第四章「一家公佈了審計代理」對應這份。

•Claude Mythos Preview System Card(2026 年 4 月 7 日)

書裡第二章「一份關於我的研究」主要來自這份。對「AI 內部狀態和語言通道不一致」、「評估感知」這兩件事,給出具體發現。

•Model Spec(2025-10-27 版)

開發者在部署時可供參照的政策規格。書裡第七章「主流做法是開發者在部署時給一份政策、模型在推論時讀」講的就是這類機制的政策端。

•Introducing gpt-oss-safeguard

在推論時讀取政策的分類器。書裡第四章「一家公佈了在推論時讀取政策的分類器」對應這份。

•Gemini 3 Pro Model Card

另一份 model card 樣本——DeepMind 的版本。

•Advancing Gemini's security safeguards

防禦縱深的框架。書裡第四章「一家公佈了防禦縱深的框架」對應這份。

•Lessons from Defending Gemini Against Indirect Prompt Injections(white paper)

間接 prompt injection 的防禦經驗。

都是英文,多數是 PDF 或部落格文。看不懂英文就丟翻譯工具,現在夠用。

不用整份讀完。挑一兩份看開頭,就能對照書裡講的事——你會看到書裡用「前沿研究發現」開頭的那些段、背後是什麼。

版本會變。這些文件隨時間改版、URL 有時候會搬家。這裡列的是寫書時的版本。你讀到這本書時連結失效的話,用題名直接搜,多半還找得到新版。