AI戰爭中的“人類監督”是一種幻覺

由 DeepTech深科技 發佈於 科技

'26-04-17

(來源:麻省理工科技評論)


Anthropic 與五角大樓之間正在打一場官司,核心議題就是 AI 能不能用於戰爭。


隨着 AI 在當前伊朗衝突中扮演着比以往更大的角色,這場爭論已經刻不容緩:AI 不再只是幫人類分析情報的輔助工具了,它已經成了一個主動參與者——實時生成打擊目標、控制和協調導彈攔截、引導無人機羣。圍繞 AI 驅動的自主致命武器,公共討論大多集中在一個問題上:人類應該在多大程度上保持 Human in the loop(人機協同)?五角大樓現行的準則認爲,人類監督能提供問責、語境和判斷力,同時降低系統被黑客入侵的風險。


AI 的“黑箱”和人類監督的幻覺


但人機協同的爭論其實是一種令人安心的障眼法。眼下最緊迫的危險,不是機器在沒有人類監督的情況下行動,而是負責監督的人類根本不知道機器在“想”什麼。五角大樓準則的根本缺陷在於,它建立在一個危險的假設上:人類理解 AI 系統是怎麼運作的。


我研究人類大腦的意圖已有數十年,近年來也在研究 AI 系統的意圖。我可以確認:當前最先進的 AI 系統本質上就是“黑箱”。我們知道輸入是什麼、輸出是什麼,但中間那個處理信息的人工“大腦”,對我們來說完全不透明;即使是創造了這些系統的人,也無法完全解讀它們;而當 AI 確實給出了理由時,這些理由也不總是可信的。


關於人類監督的辯論裏,有一個根本性的問題被忽略了:在 AI 系統行動之前,我們能理解它打算做什麼嗎?


設想一個場景:一架自主無人機被派去摧毀一座敵方彈藥工廠。自動化指揮控制系統判定,最佳打擊目標是一座彈藥儲存建築,任務成功概率 92%——因爲彈藥的殉爆將徹底摧毀整座設施。一名人類操作員審覈了這個合法的軍事目標,看到高成功率,批准了打擊。


但操作員不知道的是,AI 的計算裏藏着另一個因素:殉爆除了摧毀彈藥工廠之外,還會嚴重波及附近的一所兒童醫院。應急救援隨後會湧向醫院,工廠就會在無人救火的情況下徹底燒燬。對 AI 來說,這樣做能最大化破壞效果,完全符合它被賦予的目標。但對人類來說,這可能構成戰爭罪——違反了保護平民生命的國際規則。


人機協同,未必能提供人們想象中的安全保障,因爲人類在 AI 行動之前根本無法得知它的真實意圖。先進的 AI 系統不是在“執行”指令,而是在“解讀”指令。如果操作員沒有把目標定義得足夠精確,黑箱系統做的事可能完全符合它收到的字面指令,卻和人類真正想要的結果南轅北轍。


AI 系統和人類操作員之間的這種“意圖鴻溝”,正是我們在民用醫療和空中交通管制領域不敢部署前沿黑箱 AI 的原因,也是 AI 進入工作場所仍然充滿爭議的原因。但在戰場上,我們卻在加速部署。


情況還可能進一步惡化。如果衝突中有一方部署了以機器速度和規模運行的全自主武器,競爭壓力會迫使另一方也跟進。這意味着 AI 在戰爭中的決策將越來越自主、越來越不透明,而且這個趨勢只會加速。


推進 AI 意圖理解的研究


AI 科學應當同時包含兩件事:構建能力越來越強的 AI 技術,以及理解這些技術到底是怎麼運作的。在前者上,創紀錄的投資正在推動巨大進展——據 Gartner 預測,僅 2026 年一年的 AI 投資就將達到約 2.5 萬億美元。但在後者上,也就是搞清楚 AI 內部到底在發生什麼,投入的資金少得可憐。


我們需要一次根本性的思路轉換。工程師在構建越來越強大的系統,但理解這些系統怎麼運作不只是一個工程問題,它需要跨學科的協作。我們必須開發出工具,能夠在 AI 智能體行動之前就刻畫、測量和干預它的意圖。我們需要描繪神經網絡內部的運行路徑,對 AI 的決策過程建立真正的因果理解,而不是隻看輸入和輸出就算了。


一個有前景的方向是把機制可解釋性技術(把神經網絡拆解成人類可理解的組件)和意圖神經科學領域的洞見、工具和模型結合起來。另一個思路是開發專門的“審計員”AI——這類 AI 本身是透明、可解釋的,任務是實時監控更強大的黑箱系統,看它們正在湧現出什麼行爲和目標。


更深入地理解 AI 的運作方式,一方面能讓我們在關鍵任務中放心依賴 AI 系統,另一方面也有助於構建更高效、更強大、更安全的系統。


我和同事正在探索一種思路:借鑑神經科學、認知科學和哲學的方法來理解 AI 系統的意圖。這些學科長期研究人類決策中意圖是如何產生的,它們的工具和框架可能對理解人工系統同樣適用。我們必須優先推進這類跨學科工作,促成學術界、政府和產業界之間的合作。


但光靠學術探索遠遠不夠。所謂 AI 對齊,就是把人類的價值觀和目標編碼到模型中,科技行業以及那些資助 AI 對齊研究的慈善家,必須把大量資金投入跨學科的可解釋性研究。與此同時,隨着五角大樓追求越來越自主的系統,國會必須強制要求對 AI 系統的意圖進行嚴格測試,而不是隻測試它們的性能表現。


在我們做到這些之前,人類對 AI 的監督與其說是保障,不如說是幻覺。


原文鏈接:

https://www.technologyreview.com/2026/04/16/1136029/humans-in-the-loop-ai-war-illusion/

Scroll to Top