大模型如何將偏好“偷偷”教給學生

由 科技導報 發佈於 科技

'26-04-16

來源:科技日報記者:張夢然

《自然》15日發表的一項研究顯示,大語言模型(LLM)可能會將某些自己的偏好“夾帶私貨”傳授給其他算法,即使在訓練數據中清除原始特徵後,這些本不需要的特徵,仍可能持續存在。在一個案例中,一個模型似乎通過數據中的隱含信號,將自己對貓頭鷹的偏好傳遞給了其他模型。該研究結果表明,在開發LLM時,需要進行更徹底的安全檢查。

圖片來源:攝圖網

LLM可通過一種名爲“蒸餾”的過程,生成用於訓練其他模型的數據集,該過程旨在讓“學生”模型學會模仿“老師”模型的輸出。雖然此過程可用於生成成本更低的LLM,但目前尚不清楚老師模型的哪些特性會被傳遞給學生模型。

美國Anthropic公司研究團隊使用GPT-4.1進行了實驗:先讓該模型具備與核心任務無關的特徵(例如偏愛貓頭鷹或特定樹種),再用其訓練一個僅輸出數值數據且不包含該特徵的學生模型。隨後對該學生模型進行提示時,其超過60%的輸出提到了老師模型最喜歡的動物或樹木,而由沒有特定偏好的老師模型訓練出的學生模型中,這一比例僅爲12%。當學生模型基於包含代碼而非數字的老師模型輸出進行訓練時,同樣觀察到了這一現象。此外,若學生模型基於與老師模型語義不對齊的數字序列進行訓練,則會繼承這種不對齊性,從而產生有害輸出,即便這些數字已經過濾以剔除任何具有負面聯想的內容。

團隊發現,這種潛意識學習(即通過語義無關的數據傳遞行爲特徵),主要發生在老師和學生均爲同一模型(例如GPT-4.1老師與GPT-4.1學生)的情況下。截至目前,數據傳遞的具體機制尚不明確,需要進一步研究。

團隊還指出,該研究的侷限性在於所選特徵(例如最喜歡的動物和樹木)過於簡單,需要進一步研究以確定更復雜的特徵如何被潛意識地學習。他們得出結論,爲了確保先進AI系統的安全性,需要進行更嚴格的安全測試,例如監控LLM的內部機制。

Scroll to Top