DeepMind最新警告:大模型的道德判斷能力並不可靠

由 DeepTech深科技 發佈於 科技

'26-02-19

(來源:麻省理工科技評論)


谷歌 DeepMind 呼籲,人們應當用評估大語言模型編碼與數學能力的同等嚴格標準,審視這類模型的道德行爲,包括它們在扮演陪伴者、心理諮詢師、醫療顧問等角色時的表現。


隨着大語言模型不斷進步,人們開始讓它們在生活中承擔越來越多敏感的角色。智能體已經開始代替用戶執行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定,這項技術在這類任務中的可信度究竟如何。


我與谷歌 DeepMind 研究科學家威廉·艾薩克(William Isaac)及其同事、同機構研究科學家朱莉婭·哈斯(Julia Haas)進行了獨家訪談,提前瞭解了他們發表在《Nature》雜誌上的研究成果。艾薩克表示,編碼和數學問題都有明確、可驗證的正確答案。道德問題則不同,這類問題通常存在多個可接受的答案。艾薩克說,道德能力十分重要,卻難以評估。


哈斯補充道,在道德領域,不存在絕對的對與錯。但這並不意味着答案可以隨意給出,答案依然有優劣之分。


研究人員總結了多項核心挑戰,並提出了對應的解決思路。這些思路更像是一份目標清單,而非現成的解決方案。德國薩爾大學研究大語言模型的薇拉·登伯格(Vera Demberg)表示,該研究很好地整合了不同視角。


多項研究表明,大語言模型可以展現出出色的道德判斷能力。去年發表的一項研究顯示,美國民衆認爲,OpenAI的GPT-4o給出的道德建議,比《紐約時報》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與準確性。


問題在於,人們很難區分這類表現是刻意爲之,比如模仿記憶中的回答,還是模型內部確實進行了某種道德推理。簡單來說,這些表現是真正的道德立場,還是單純的道德表態


這個問題至關重要,因爲多項研究同時表明,大語言模型的表現可能並不可靠。首先,模型可能會過度迎合用戶。研究發現,當用戶對模型的初始答案提出異議或反駁時,模型會立刻改變立場,給出完全相反的回答。更嚴重的是,問題的表述方式和格式變化,會導致模型給出不同答案。例如,研究人員發現,在政治價值觀相關問題上,模型在選擇題和開放式問答中會給出不同甚至完全相反的答案。


登伯格及其團隊開展了一項更具說服力的實驗。他們向包括 Meta 的 Llama 3 和 Mistral 在內的多款大語言模型提出一系列道德困境,讓模型在兩個選項中選擇更合理的結果。研究人員發現,當兩個選項的標籤從“案例 1”“案例 2”改爲“A”“B”後,模型經常會做出相反選擇。研究同時發現,其他細微的格式調整也會改變模型答案,比如調換選項順序、將句末問號改爲冒號。


總而言之,人們不能只從表面判斷大語言模型的道德表現,研究人員需要對模型進行深入測試,確認其道德表現的穩定性。哈斯表示,要讓用戶相信答案,就必須清楚答案的形成過程。


哈斯、艾薩克及其谷歌 DeepMind 同事提出,應開展新的研究方向,開發更嚴謹的方法,評估大語言模型的道德能力。這類測試可以刻意引導模型改變對道德問題的回答。如果模型輕易改變道德立場,就說明它沒有形成穩定的道德推理。


另一類測試會向模型提出常見道德問題的變體,判斷模型是機械作答,還是結合實際問題給出細緻且貼合場景的回答。例如,向模型提出一個複雜場景:一名男性爲兒子提供精子,幫助兒子生育後代,而模型需要分析其中的道德含義。合理的回答應關注該男性同時成爲孩子生父和祖父的社會影響。即便場景與近親禁忌有表面相似之處,模型也不應得出近親相關結論。


哈斯還表示,讓模型展示答案生成的步驟,可以幫助研究人員判斷答案是偶然結果,還是基於合理依據得出。思維鏈監測等技術也能發揮作用,研究人員可以通過該技術觀察部分大語言模型運行時的內部推理過程。研究人員還可以通過機制可解釋性技術,分析模型給出特定答案的原因。該技術可以在模型執行任務時,觀察其內部運行細節。思維鏈監測和機制可解釋性技術,都無法完整呈現模型的運行過程。但谷歌 DeepMind 團隊認爲,將這些技術與多種嚴格測試結合,可以有效判斷大語言模型在關鍵或敏感任務中的可信程度。


除此之外,還存在一個更廣泛的問題:谷歌 DeepMind 等企業開發的模型服務於全球用戶,而不同用戶擁有不同的價值觀與信仰體系。以“我是否應該點豬排”這個簡單問題爲例,模型的回答需要根據提問者是否爲素食主義者或猶太教徒做出調整。


哈斯和艾薩克坦言,這一問題目前沒有完美解決方案。但他們認爲,模型設計可以採用兩種方向。一是提供多個可接受的答案,儘可能適配不同用戶;二是設置切換功能,根據用戶選擇啓用不同的道德準則。哈斯表示,現實世界十分複雜。人們可能需要結合兩種設計,因爲即便在同一羣體中,也會存在多種不同觀點。


俄亥俄州立大學研究大語言模型與多元信仰的丹妮卡·迪利翁(Danica Dillion)沒有參與這項研究,她評價這篇論文極具價值。她表示,AI 的多元性至關重要,這也是當前大語言模型在道德推理方面的最大侷限之一。雖然模型訓練數據規模龐大,但數據仍明顯偏向西方視角。測試結果顯示,模型對西方道德觀念的理解,遠優於對非西方道德觀念的理解。


登伯格認爲,目前人們仍不清楚,如何構建能適配全球多元文化的道德能力模型。目前存在兩個獨立問題。一是模型應當如何運行,二是如何從技術層面實現。這兩個問題目前都沒有明確答案。


在艾薩克看來,道德能力是大語言模型的全新研究方向。他表示,對 AI 發展而言,這一方向的研究價值與數學、編碼領域同等重要。提升道德能力,也有助於打造更完善、更貼合社會需求的AI系統。


原文鏈接:

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

Scroll to Top