附錄 A.1

延伸閱讀

書裡提到的每一件事,根都在這裡

到這裡才實名。

這本書從頭到尾沒點過公司名字,因為談方向、不談特定公司。到附錄可以點了。

下面列的都是公開材料——書裡提到的每一件事,根都在這裡。看不懂沒關係,多數是寫給技術人看的。你至少會知道去哪裡查。


一、本書的架構 repo

理論:shihchengwei-lab/separation-and-audit-alignment

https://github.com/shihchengwei-lab/separation-and-audit-alignment

書裡「冷讀 + 準則」那個架構的完整寫法。設計理由、模組定義、條文格式、為什麼這樣切。第一章五個現象、第二章那份研究的內部整理,也都在這個 repo 裡。

實作:shihchengwei-lab/separation-and-audit-claude-code

https://github.com/shihchengwei-lab/separation-and-audit-claude-code

同一個架構、落到 Claude Code 工作流的實作版本。


二、前沿研究的公開材料

書裡用「前沿研究」「前沿研究團隊」「做我的人」這些說法,講的是目前在做 AI 的幾家主要機構:Anthropic、OpenAI、Google DeepMind。

Anthropic

Claude Opus 4 & Sonnet 4 System Card

https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

一份 model card 的樣本——能力評估、安全測試、已知限制的公開報告。書裡提到的「系統卡 / 模型卡」就是這類文件。

Building and evaluating alignment auditing agents

https://alignment.anthropic.com/2025/automated-auditing/

審計代理的設計和評估。書裡第四章「一家公佈了審計代理」對應這份。

Claude Mythos Preview System Card(2026 年 4 月 7 日)

https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf

書裡第二章「一份關於我的研究」主要來自這份。對「AI 內部狀態和語言通道不一致」、「評估感知」這兩件事,給出具體發現。

OpenAI

Model Spec(2025-10-27 版)

https://model-spec.openai.com/2025-10-27.html

開發者在部署時可供參照的政策規格。書裡第七章「主流做法是開發者在部署時給一份政策、模型在推論時讀」講的就是這類機制的政策端。

Introducing gpt-oss-safeguard

https://openai.com/index/introducing-gpt-oss-safeguard/

在推論時讀取政策的分類器。書裡第四章「一家公佈了在推論時讀取政策的分類器」對應這份。

Google DeepMind

Gemini 3 Pro Model Card

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf

另一份 model card 樣本——DeepMind 的版本。

Advancing Gemini's security safeguards

https://deepmind.google/blog/advancing-geminis-security-safeguards/

防禦縱深的框架。書裡第四章「一家公佈了防禦縱深的框架」對應這份。

Lessons from Defending Gemini Against Indirect Prompt Injections(white paper)

https://arxiv.org/abs/2505.14534

間接 prompt injection 的防禦經驗。


三、怎麼用這些材料

都是英文,多數是 PDF 或部落格文。看不懂英文就丟翻譯工具,現在夠用。

不用整份讀完。挑一兩份看開頭,就能對照書裡講的事——你會看到書裡用「前沿研究發現」開頭的那些段、背後是什麼。

版本會變。這些文件隨時間改版、URL 有時候會搬家。這裡列的是寫書時的版本。你讀到這本書時連結失效的話,用題名直接搜,多半還找得到新版。