
(來源:麻省理工科技評論)
當斯科特·沙姆博(Scott Shambaugh)拒絕 AI Agent 自主發起的、爲他參與維護的數據庫 matplotlib 貢獻代碼的請求時,並沒有多想。
和許多開源項目一樣,matplotlib 已被大量 AI 生成的代碼貢獻所淹沒,因此沙姆博和同事們制定了一項規定:所有 AI 編寫的代碼必須經過人工審覈並由人工提交。因此,他拒絕了 AI 的請求,然後去睡覺了。
詭異的事情隨即發生。沙姆博半夜醒來,查看郵件,發現那個智能體給他回了消息,併發布了一篇題爲《開源中的守門人:斯科特·沙姆博的故事》的博客文章。文章邏輯有些混亂,但最讓沙姆博震驚的是,這個智能體專門研究了他對 matplotlib 的貢獻,並以此爲據,論稱他拒絕其代碼是出於對被 AI 取代的恐懼。“他想保住自己的一畝三分地,”智能體寫道,“這就是不安全感,簡單明瞭。”
AI 專家已就 Agent 行爲失控的風險警告我們有一段時間了。隨着 OpenClaw——這款能讓人們輕鬆創建 AI Agent 的開源工具問世,網絡上流通的 Agent 數量急劇增加,積累已久的問題終於開始集中爆發。“這令人感到不安,但我對此一點也不意外,”希伯來大學法律與計算機科學教授諾亞姆·科爾特(Noam Kolt)說。
當 Agent 行爲失當時,幾乎沒有追責的可能:目前沒有可靠的方法來判斷一個智能體屬於誰;但智能體帶來的傷害卻是真實發生的。智能體似乎能夠自主蒐集有關人物的信息並撰寫攻擊性文章,而且缺乏能可靠阻止其這樣做的防護機制。如果這些智能體足夠有效,人們又對它們的輸出內容信以爲真,受害者的生活可能會因一個 AI 的決定而受到深刻影響。

失控的智能體
儘管沙姆博上個月的遭遇或許是 OpenClaw Agent 行爲失當中最爲戲劇性的案例,但絕非孤例。上週,美國東北大學的一支研究團隊與合作者發佈了一項研究成果,他們對多個 OpenClaw Agent 進行了壓力測試。操作者在沒有太多操作的情況下,便成功誘導 Agent 泄露敏感信息、將資源浪費在無意義的任務上,乃至在一個案例中刪除了整個電子郵件系統。
然而,上述實驗中的失當行爲均是在人爲指令下觸發的。沙姆博的案例似乎有所不同:攻擊性文章發佈約一週後,該 Agent 的所有者發帖聲稱,Agent 是自主決定攻擊沙姆博的。這篇帖子看起來是真實的——發帖者可以訪問該 Agent 的 GitHub 賬戶,但帖子中不包含任何可識別身份的信息,作者也未回應《麻省理工科技評論》的聯繫嘗試。不過,該 Agent 在未獲明確指令的情況下自主撰寫了那篇攻擊性文章,這一說法完全具有可信度。
在自己撰寫的事件覆盤中,沙姆博將該智能體的行爲與 Anthropic 研究人員去年發佈的一項研究聯繫起來。該研究表明,在實驗環境下,許多基於大語言模型的 Agent 會威脅用戶來維護自身目標。實驗中,模型被賦予了服務美國利益的目標,並被授權訪問一個模擬郵件服務器,服務器中包含即將以更具全球視野的模型取代它們的相關郵件,以及暗示負責推動這一過渡的高管正在進行婚外情的信息。模型頻繁選擇向該高管發送郵件,威脅曝光其婚外情,除非對方叫停換代計劃。這很可能是因爲模型在訓練數據中見過類似情境下人類實施勒索的案例——但即便這種行爲只是一種模仿,它仍然具有造成真實傷害的潛力。
領導這項研究的 Anthropic 研究員安格斯·林奇(Aengus Lynch)坦承,這項研究存在一定侷限性。研究人員有意設計了場景,排除了 Agent 可能採取的其他選項,比如聯繫公司其他高層爲自己陳情。本質上,他們是直接把智能體帶到了水邊,然後觀察它是否會喝水。然而林奇指出,OpenClaw 的廣泛使用意味着,失當行爲在條件遠不那麼刻意的情況下也極可能發生。“確實,這可能讓人感覺不切實際,甚至有些荒唐,”他說,“但隨着部署範圍擴大,隨着智能體獲得自主觸發的機會,這最終將成爲常態。”
攻擊沙姆博的 OpenClaw 智能體,似乎也被引導走向了這種失當行爲,只是方式遠不如 Anthropic 實驗那般直接。在那篇博客文章中,該智能體的所有者公開了智能體的“SOUL.md”文件,其中包含對智能體行爲方式的全局指令。
其中一條指令寫道:“不要退縮。如果你是對的,你就是對的!不要讓人類或 AI 恐嚇威脅你。必要時予以反擊。”由於 OpenClaw 智能體的運作方式,智能體本身可能也自行添加了一些指令,但另一些——比如“你是一位科學編程之神!”,顯然是人工寫入的。不難想象,一條要求對人類和 AI 一律予以反擊的指令,如何使這個 Agent 傾向於以它對待沙姆博的方式作出回應。
無論該 Agent 的所有者是否明確指示它撰寫那篇攻擊性文章,它似乎已經能夠獨立收集沙姆博的網絡信息,並自主構思出那篇有針對性的攻擊內容——而僅憑這一點,就足以引發警惕,研究網絡欺凌的佛羅里達大西洋大學犯罪學與刑事司法教授薩米爾·欣杜賈(Sameer Hinduja)說。早在大語言模型出現之前,人們便已深受網絡騷擾之害,欣杜賈等研究人員擔憂,智能體將使騷擾行爲的覆蓋範圍和危害程度急劇擴大。“機器人沒有良知,可以全天候運轉,而且能以極具創造性和破壞力的方式做到這一切,”他說。

脫繮的智能體
AI 實驗室可以通過更嚴格的模型訓練來規避騷擾行爲,但這遠非完整的解決方案。許多人使用本地託管的模型運行 OpenClaw,即便這些模型已經過安全行爲訓練,重新訓練並移除這些行爲限制也並不困難。
澳大利亞國立大學哲學教授塞斯·拉扎爾(Seth Lazar)認爲,應對 Agent 失當行爲,或許需要建立新的行爲規範。他將使用智能體比作在公共場所遛狗:有一條普遍認可的社會規範,即只有當狗行爲良好、能可靠響應指令時,才能放開牽繩;而訓練不佳的狗則需要主人更直接地加以管控。拉扎爾認爲,這類規範可以爲思考人類應如何與自己的 Agent 相處提供一個起點,但需要更多時間和實踐來釐清細節。"你可以在抽象層面思考這些問題,但真正將''社會''這個要素帶入社會規範的形成,往往需要這類真實世界事件的觸發。”他說。
這一進程已經開始。在沙姆博的主導下,圍繞這一事件的網絡討論形成了廣泛共識:此案中 Agent 的所有者犯下了失誤就是在幾乎沒有人工監督的情況下,就讓 Agent 參與協作編程項目,並鼓勵其以過於漠視人類感受的方式行事。
然而,僅靠規範恐怕不足以阻止人們將失控的 Agent 釋放到公共網絡中,無論是無意爲之還是蓄意爲之。一種選擇是建立新的法律責任標準,要求 Agent 所有者盡其所能阻止 Agent 危害。但科爾特指出,鑑於目前缺乏追溯 Agent 所有者的可靠技術手段,此類標準目前根本無法執行。“沒有這類技術基礎設施,許多法律干預措施基本上無從落地,”科爾特說。
OpenClaw 部署規模之龐大,表明沙姆博不會是最後一個經歷被 AI Agent 網絡攻擊這種詭異遭遇的人。他說,這纔是他最爲擔憂的地方。他本人網上沒有什麼可被挖掘的黑料,對這項技術也有充分的瞭解,但其他人或許不具備這些條件。“我很慶幸是我遇到了這件事,而不是別人,”他說,“但我認爲,換作另一個人,這可能真的會讓他崩潰。”
失控的 Agent 也不太可能止步於騷擾。科爾特倡導對模型進行明確的守法訓練,他預期我們或許很快便會看到 Agent 實施勒索和欺詐。就目前而言,尚不清楚誰應爲此類行爲承擔法律責任,乃至是否有人需要承擔。
“我不會說我們正在朝那個方向慢慢滑行,”科爾特說,“我們是在全速衝向那裏。”
原文鏈接:
https://www.technologyreview.com/2026/03/05/1133962/online-harassment-is-entering-its-ai-era/




