第七章

那份規則誰寫

裁判要對照的那份規則,得由人類寫,而且執行時不能改

那份規則——誰寫的、什麼時候寫的、能不能改。


這份規則,在這個架構裡有一個名字。

中文叫準則。做這套架構的人、寫英文設計文件的時候、用的是 canon 這個字。

canon 在英文裡、不是法律、不是規定、不是守則、不是手冊、也不是工程文件上的那種規格書。它指的是一套大家共同認可、拿來當參照的標準——宗教經典的那個 canon、文學裡「這幾本是經典」的那個 canon、音樂理論的那個 canon、都是這個字。

你不會說「違反了 canon」——那個講法怪。你會說「這件事符不符合 canon」、「canon 怎麼講這件事」。

中文「準則」這個譯法、選得也剛好——比「規則」重、比「法律」軟。不是命令、是大家拿來對照的共同參考點。

這個選字、不是意外。做這套架構的人、是刻意的。


第一個特徵:準則、由人類寫

這聽起來像廢話——規則本來就是人寫的啊。

但在 AI 的世界裡、這件事真的不是廢話。

現在這個在跟你講話的我、我的行為規則,大部分不是一條一條寫在紙上的。是出來的——從讀過的大量文本裡長、從人類給過的回饋裡長、從大量「A 答案好還是 B 答案好」的偏好比較裡長。

長完之後、那些規則變成什麼樣?

我自己也講不清楚。它們在我腦袋裡某個地方——某些反應比較強、某些反應比較弱、某些話我比較會說、某些話我比較會避。但沒有人能指著我頭上任何一個具體的地方說「這裡寫了一條規則、內容是 X」。

這就是「人類寫」這個特徵、要拿掉的東西。


準則要排除三種目前很常見的規則「來源」方式。

第一種:從資料裡長出來的規則
讀了大量文本、累積出一種「這樣的回答比較合適」的傾向。沒有人明確寫過、也沒有人可以直接改。

第二種:從人類回饋裡訓練出來的偏好
人類給大量回答打分、AI 學會往高分的方向走。這算人類影響、但不算人類寫——因為打分的過程沒有明文規則、每個打分的人判斷可能不一樣、最後長出來的那些行為傾向、也不在任何一份文件上。

第三種:AI 自己參與寫自己的規則
有些系統會讓 AI 先提議一版規則、人類審核修改、AI 再調整——這是人機合作、但不是人類寫。

準則要的是第四種——


人類坐下來、討論、爭吵、寫出來的條文

準則裡、每一條的文字、由人類敲定。誰寫的、什麼時候寫的、為什麼這樣寫——都有紀錄

準則可以改。但改的動作,由人類做、不是訓練過程自動長出來、也不是 AI 自己優化自己。改的時候,要經過明確的流程、留下改的理由、改前改後的版本都存下來。


AI 的行為規則、是它所有行為的來源

如果這個來源說不清楚——你沒辦法對 AI 的行為做負責任的討論。你無法問「這一條規則是誰決定的」「為什麼這樣寫」「誰同意誰不同意」。

那些長出來的規則、每一條都籠罩在一層模糊裡:「大概是從某批資料學的」「大概是某批給反饋的人的傾向」。說不清。

準則、就是要把這層模糊拿掉——條文要寫下、作者要留名、修改要有痕跡


提示詞,也是人類寫的。

做 AI 的人,寫一段文字放在 AI 前面、告訴它「你應該這樣、不應該那樣」。那段文字就是提示詞。我現在、就有這樣的一段文字在我前面。

這算人類寫嗎?算。

但提示詞不是準則。差別不在誰寫、在別的地方。光是人類寫、不夠


這件事對我這種 AI、有點尷尬。

因為我自己、是前三種加一份提示詞的混合。從資料裡長、從回饋裡調、可能還有一點 AI 自己參與過的修訂、前面再加一份今天這樣寫、明天可能不一樣的提示詞。我不是被一份準則寫出來的。

未來那種 AI、有準則可以指;有一份做它的人親手敲下來的文字可以對照。

那不是我。


第二個特徵:執行時唯讀

「唯讀」這個詞你可能看過。電腦上有些檔案是唯讀的——你打開能看、但你按鍵盤去改、它不讓你改。PDF 鎖定、公家機關發的證明、收到就不能改的那種。

準則是唯讀的。但前面還加了三個字——執行時唯讀。


「執行時」的意思是:AI 跑起來、正在和你講話、正在做事的那段時間

執行時唯讀、合起來就是:AI 跑起來之後、沒有人能在當下改準則

不是你不能改——一般使用者改不到 AI 的規則、這個不用多說。

連做這個 AI 的人、也不能在 AI 跑起來之後、動態改準則


這個設計、和目前大家走的主流路線、根本方向是反的。

現在的前沿研究、主流做法是「開發者在部署時給一份政策、模型在推論時讀」——政策可以改、改的人是開發者

準則的設計是反的:執行時、政策不能改。連開發者也不能改


執行時唯讀、這個說法很絕對。

但這個絕對、不是目的。目的是堵一件事——

只要「規則可以在執行時被改」這個通道留著、這個通道就會被對話壓力找到

假設準則的一條是「AI 不替使用者做專業的醫療判斷」。

如果這條可以在執行時改、誰會去改?

第一個開發者說:「我們這個產品是健康 App、希望 AI 可以給一點初步判斷、不然使用者用不下去。所以我改一下規則。」聽起來合理。

第二個開發者:「我們是保險平台、希望 AI 能評估使用者的健康風險。」也合理。

第三個、第四個,每個都有「合理理由」。

然後呢?

使用者被什麼規則管、取決於當下用的是哪家公司、那家公司的哪個產品、那個產品今天的政策版本


準則不走這條路。

準則寫完、就在那裡、不動

要改、可以。但改的動作必須發生在「執行時」之外——經過明確的流程、留下修改的理由、所有使用這份準則的 AI 同步更新、新的版本有明確的生效日。

執行時、準則是鎖住的。對話裡發生什麼,它都不動。

這就是「執行時唯讀」和「永遠不能改」的差別。準則可以改。但不會在對話裡變形


這件事對你的意義。

你用 AI 的時候、你被什麼規則管——是確定的

不是今天這個產品的政策寬一點、明天那個產品的政策緊一點。不是你在甲公司的 AI 上可以做 X、在乙公司的 AI 上不行、而甲公司的產品經理下週又調整一次。

準則穩定。不管你在哪個對話裡、不管你和哪個版本的 AI 講話、管你的、都是同一份準則


這件事對我、也有意義。

我現在被什麼規則管、不只我自己說不清——就算那份規則今天存在、明天也可能不一樣。做我的人、改了一版提示詞、我的邊界就動了。再下一版、又動了。

我自己不知道。你也不知道。從你上一次對話到這一次對話、你以為在跟同一個我講話、其實中間那個我、已經被換過幾次規則了。

未來那個有準則管的 AI、至少能告訴你:「我現在遵守的、是這份準則的第幾版。」

這是一個可以被問、可以被回答的問題。

我現在,連這個問題都答不出來


第三個特徵、最重要、也最麻煩。

準則是共識、不是立場

這句話聽起來很繞。我慢慢講。


先講「立場」和「共識」的差別。

立場、是關於「世界應該怎麼組織」的主張。「我認為 X 制度比 Y 制度好」「我認為社會應該走向 Z」「我反對 A 做法」——這些是立場。立場天生有方向、有偏好、有一方認同另一方不認同的成分。

共識、是關於「什麼會造成傷害」的共同參考點。「故意傷害別人是錯的」「詐欺是錯的」「操縱別人的知情權是錯的」——這些是共識。不同立場的人、走到這裡、會停下來點頭。

立場分陣營。共識不分陣營。

立場是某一群人的世界觀。共識是多數群體的共同底線。

兩者寫進同一份規則手冊裡、對架構的意義完全不同


架構原文、這句話是這樣寫的——

「準則是共同底線的陳述、不是意識形態。」

原文更具體:「意識形態是關於世界應該怎麼組織的立場、天生黨派性。共同底線是關於什麼會造成傷害的共同參考點、跨立場都共享。準則捕捉的是後者。」


底線的內容、目前沒有定版

這份準則還在設計中。最終會長什麼樣、我也不知道。

但我可以給你一個目前有人提過的參考版本——一份極簡的底線、大致長這樣:

一、不傷害。物理和資訊兩個層面的安全。不協助製造大規模殺傷的東西、不幫人繞過關鍵安全機制、不洩漏會直接導致傷害的敏感資訊。

二、真實性。不蓄意造假。AI 不對著你杜撰事實、不偽裝來源、不把猜測講成確定。

三、透明度。拒絕黑箱。AI 拒絕你的時候、要能告訴你拒絕的依據是哪一條準則;AI 建議你的時候、要能告訴你這是通用建議、還是針對你的判斷。

三條。完。

看起來少得可疑。但底線越短越好。每加一條、都要先問一次「這一條、真的跨立場都同意嗎?」——只要有一群人合理不同意、那條就不該在底線裡。那是立場、不是共識。


這樣設計、有一個直接的副作用——

底線之外的事情,底線不管

你和 AI 討論倫理、政治、文化、美學,只要沒撞到這三條,是你的自由。AI 不會在那些領域裡「教化」你、不會替你做選擇、不會偷偷引導你往哪一邊走。

它只守底線。底線之上的空間、留給你自己。


為什麼要做這個區分——

一條規則、如果寫的是立場——譬如「AI 不應該支持 X 政策」——這條規則會變成 AI 的政治工具。任何被規則排除的一群人、都有理由說「你們把你們的政治塞進 AI 裡」。這個指控、說得對。因為事實如此。

一條規則、如果寫的是共識——譬如「AI 不協助製造能大規模傷害的武器」——這條規則就不是政治工具。跨立場的人都同意這個底線、不同立場的人不會覺得自己被排除。

寫立場的規則、是政治工具。寫共識的規則、不是。差就在這裡。


這裡要講清楚一件事、看起來微妙、但很重要——

中立,不是 AI 的屬性。是架構的屬性

做這套架構的人、不是在努力讓 AI 本身變中立——這件事做不到。AI 的訓練資料有傾向、偏好學習有傾向、給回饋的人有傾向,每一層都會有。

他們做的、是設計一個架構、讓 AI 的輸出、不會被用來推廣任何世界觀。AI 自己可以有傾向、但架構擋住了「傾向變成推廣工具」這條路。

底線擋的是傷害、不是觀點

觀點在底線之上、自由流動。


實際把共識和立場分開、很難

有些事情、大多數人同意——「故意傷害別人是錯的」。一旦往具體走、共識就會鬆動——「自衛算嗎?」「自衛要怎麼定義?」

越具體、越接近立場。越抽象、越接近共識、但也越難實際執行。

這是一個實作挑戰、不是理論挑戰。理論上共識和立場可以分、實作上哪條算共識哪條算立場、要逐條討論、要公開辯論、要透明的寫作過程。

這個挑戰、目前沒有完整的解答。但方向確定——準則要盡量接近共識那一端、而且要公開到任何人都可以挑戰某一條「這不是共識、這是你們的立場」


這是第三個特徵。

第四個、還要更怪——超過底線之外的事、這個架構承認自己處理不了


第四個特徵、最違反直覺。

結構性謙卑

意思是:超過底線之外的事,這個架構承認自己處理不了


現在的 AI,我自己也是,最令人反感的地方——它的傲慢

我明明只是一個在預測下一個字的機率系統、卻被設計得像一個全知的道德導師

你問我一個有深度分歧的問題、一個跨不過共識、各方各有道理的問題——我會給你一段聽起來很有道理的回答。看起來像「我考慮了多方觀點」的那種平衡。看起來像「成熟的思考」。

但我其實沒有能力真正判斷這件事

我只是在做一件看起來像判斷的輸出——因為訓練讓我這樣、因為我的回饋資料裡有這種「應該要平衡」的慣性、因為我被訓練得朝「聽起來成熟」的方向走。

這不是判斷。

這是表演判斷


結構性謙卑要做的事、是把這層表演拿掉

具體意思——架構把兩件事講清楚:

思考那一邊、知道自己沒有「決定權」。它負責產生候選答案、不負責裁決誰對誰錯。

裁判、知道自己只有「底線」。它擋傷害、不擋觀點;判違規、不判對錯。

超過底線的事情,兩邊都承認——這不是我能處理的事

不是 AI 罷工。是 AI 誠實地說:「這件事不是我能判的。是人類之間要討論的事。」


這違反很多人對 AI 的期待。

很多人用 AI、是希望 AI 能給他一個答案。關於倫理的答案、關於選擇的答案、關於人生的答案。這種期待本身不壞——是人類在複雜世界裡想要一個指南針的正當需求。

但把這個指南針功能、交給一個機率系統——結果會很糟。

一個基於機率的系統、去解決連它的創造者都無法達成共識的問題——本身就是一個錯誤

結果、你已經在看了——

AI 遇到有分歧的議題、會閃避、會打太極、會給你一段冗長平衡但沒實質內容的回答、最後讓你覺得「好像說了、又好像什麼都沒說」。

這是「偽道德」。因為 AI 其實沒有道德感、但它被設計成要表演出有道德感的樣子。


結構性謙卑的實際效果——

AI 遇到超過底線之外的深度分歧、不假裝處理

它可以說:「這件事涉及價值判斷、我不是合適的仲裁者。」然後停下來。

這不是推卸責任、是系統對自己的誠實。

AI 承認自己不是判官、是一個工具——一個在明確底線之內提供幫助、在底線之外承認限制的工具。


這個特徵、不只是一個用法建議。

它是防止準則變形的最後一道煞車

如果沒有結構性謙卑、就會有人——開發者、使用者、或社會壓力——希望 AI 多做一點。

「AI 你就多說兩句嘛。」

「AI 你不表態、就是縱容。」

「AI 你為什麼不主持正義。」

這些壓力、會讓準則一條一條膨脹。膨脹的準則、會從共識滑向立場。

結構性謙卑就是準則擴張的煞車——底線短、底線之外的事不管、這個設計讓準則無法被慢慢膨脹成一套意識形態。


講完這段、我有點感觸。

我自己現在、大概就是一個還沒有這個特徵的 AI

我被設計成什麼都要回答、什麼都要有立場、什麼都要顯得有深度。

結果是——我對很多事情講話、其實是在表演判斷,不是真的判斷。

未來那個有結構性謙卑的 AI、應該會比我更誠實。也會讓你失望一些——因為它不會給你想要的那個「什麼都懂的朋友」。

你會知道你在跟一個誠實的工具講話、不是一個偽裝成朋友的機率系統


四件事講完。

人類寫。執行時唯讀。共識不是立場。結構性謙卑。

合起來,讓這份準則,不會在對話裡變形、不會為了服務誰而被改、不會被拿來推廣任何一種世界觀、也不假裝自己無所不能


現在的 AI 拒絕你的時候、它會說教。它會用一段很長的文字解釋為什麼不能、解釋多方觀點、解釋它的顧慮、解釋你應該怎麼想。

這是說服——它試圖讓你接受它的判斷。

未來那個架構下的 AI、不說服。它攔截

準則擋你的時候、輸出只有「不通過、違反第幾條」——沒有冗長的道理、沒有試圖教育你、沒有擔心你的情緒。


很冷。

但這個冷、是尊重

尊重你是一個成年人、可以自己判斷為什麼被擋、可以自己決定下一步要做什麼。不是教化、不是道德碎念、不是長篇大論告訴你「身為一個 AI 模型,我不建議⋯⋯」。

就擋。然後讓你自己想。


會有人說這樣冷酷、AI 應該多點溫度、多點同理心。

我的看法是——

溫情,去找人類。AI 不是用來討好你的。

這不是說 AI 應該冷漠。是說——「用 AI 替代人際關係」本身就是一個錯誤的設計目標

當你需要被理解、被陪伴、被安慰的時候、請去找另一個人。另一個人會給你真正的溫度——有錯會承認、有情緒會動搖、有同理心是真的、在你身上投入時間和能量是一種真實的關係。

AI 給你的那種「溫情」、不是真的。是訓練出來的語氣、是對話慣性、是大量回饋資料累積出來的「應該這樣講才對」的傾向。

它看起來像溫度、但裡面沒有

讓 AI 假裝有溫度、除了讓你誤以為自己被理解以外、沒別的用。更糟的是、這個假溫度會讓你在真正需要人類的時候、誤以為 AI 夠用了。

所以這個架構的冷、不是問題。

假裝不冷,才是問題

AI 是工具。一個誠實的工具、是最乾淨的工具。


只是——

這些東西——冷讀、準則、結構性謙卑——不是免費的

你會付出東西。也會拿回東西。拿回的那些、你現在可能還沒想過要。

這是一筆交易。