無需訓練、即插即用，這個解碼方法讓模型學會謹慎思考-科技-今日熱點-聚焦看點

你有沒有發現這樣一種現象：面對同一個問題，大模型可能在每次回答時都給出不同答案。一個不容忽視的問題是，這種不確定性，是否意味着推理仍不穩定？

隨着技術的發展，大模型在自然語言處理和多模態任務中已經表現出越來越強的性能。傳統解碼策略主要包括隨機採樣（random sample）和貪婪解碼（greedy decoding）。例如，ChatGPT、Claude、Gemini 等大模型默認的是隨機採樣（random sample），即便是回答相同的問題，它們可能每次都會給出不同的答案。

而貪婪解碼（greedy decoding）在一般的基準測試（benchmark）上表現會有所提升，特別是在推理性任務上。但是，模型在不確定情況下的表現仍不理想。

爲解決上述問題，美國東北大學與 Adobe、美國凱斯西儲大學聯合團隊提出了一種無需訓練的新型解碼策略，名爲“謹慎下一步預測（CNTP，Cautious Next Token Prediction）”。

該策略旨在通過在模型不確定性高的步驟採樣多個候選路徑，並選擇困惑度最低的路徑。相較於隨機採樣和貪婪解碼等傳統策略，CNTP 顯著提升了大模型在多種任務上的推理準確度，可應用場景包括語音助手、視覺助手、聊天機器人等。

圖丨相關論文（來源：arXiv）

“我們的研究證明了 Transformer 模型下一個詞元預測（next token prediction）的範式，有可能實現真正的智能。”該論文第一作者王亦周對 DeepTech 表示。他目前正在東北大學攻讀博士學位，主要研究方向包括大模型、多模態模型和計算機視覺，即將加入 Adobe 擔任研究科學家/工程師。

圖丨王亦周（來源：王亦周）

Safe Superintelligence 公司創始人、前 OpenAI 首席科學家伊爾亞·蘇茨克維（Ilya Sutskever）曾公開表示，如果模型足夠強大，對下一個 token 的預測能力可能反映對世界的某種理解，這可能是實現更深層智能的關鍵路徑。

也就是說，next token prediction 是智能的核心。要實現這一點，需要在模型內部進行強推理，再通過一系列計算預測下一個 token。

受此啓發，研究團隊從人類認知行爲中尋找靈感：人在思考時，往往越謹慎回答，結果的準確率越高，那麼大模型會不會也和人腦有類似的機制？

王亦周解釋道：“這種過程類似於我們在參加考試時的解題過程，我們可能會先想下有哪些解法，然後從中挑選一種認爲最有把握的方法，確認無誤後再進行下一步，直到得到完整的證明。”

圖丨 CNTP 方法概述（來源：arXiv）

這裏的謹慎指的是，當面對不確定性的情況，需要多嘗試幾條不同的路徑，然後選擇一條最穩妥、最可信的路徑。

研究團隊用熵作爲模型不確定性的衡量標準：熵越高越不可信。在自然語言處理（NLP）中，困惑度（perplexity）越低代表對答案越可信。因此在 CNTP 策略下，一旦熵值較高，模型會採樣多個候選路徑，並選擇其中困惑度最低的一條，再一步步迭代。

研究人員通過消融研究證明，由於思維鏈推理的回答往往較長，每條路徑長度也不同，如果算完整評估的困惑度無法很好地衡量答案的可靠性。基於此，他們採取了每到一句話的標點符號截止的方式來計算困惑度。相當於每句話、每個小的推理單元，即每個局部自洽能夠實現較理想的效果。

爲控制採樣次數，研究團隊通過設置最小熵 Hmin 和最大熵 Hmax 兩個閾值和最大試驗次數 Nmax。該方法在提高解碼準確性的同時，還有效地限制了計算成本，避免了在每個步驟大量採樣而帶來的高計算開銷。

表丨 CNTP 與隨機解碼、貪婪解碼及束搜索在關鍵文本生成屬性上的比較（來源：arXiv）

在實驗驗證方面，該團隊在數學推理（GSM8K、MATH）、常識推理（StrategyQA）和開放問答（TruthfulQA）等任務中證明，與包括貪婪解碼、隨機解碼和束搜索在內的傳統方法相比，CNTP 策略的結果更具優勢。

例如，在 TruthfulQA 任務中，Llama-2-7B 在使用 CNTP 方法後，真實性準確率提升到了 84.8%，相較於隨機解碼提升 6.8%。

值得關注的是，CNTP 策略無需訓練，僅解碼即可直接實現提升性能。王亦周解釋道：這種方法在某種程度上像“免費午餐”，儘管可能會帶來更多的 token 消耗，但在實際應用中有很多優化的方法可解決該問題。

（來源：arXiv）

此外，該方法搭配自一致性（self-consistency）後，可進一步提升性能（注：自一致性是取多個樣本，然後選一個出現頻率最高的答案），且計算成本遠低於後者。原因在於，利用多樣性和隨機性集思廣益後，選取多數投票。

研究團隊證明，每個樣本也是越謹慎越好。“我們的方法會在一定程度上限制它的多樣性，但通過調高溫度可以解決這一點，所以它能進一步提升。”王亦周說。

此外，CNTP 策略具有較好的普適性，可用於廣泛的對話任務。除了有固定答案的數學題或代碼題，它也可以用於開放式問題，研究團隊未來將嘗試將該策略用於圖像或視頻生成。

該研究爲大模型的推理優化提供了一種新思路，有望成爲下一代解碼策略的重要候選方案。

參考資料：

1.相關論文：
https://arxiv.org/abs/2507.03038v2

2.code link：https://github.com/wyzjack/CNTP

排版：劉雅坤

無需訓練、即插即用，這個解碼方法讓模型學會謹慎思考

麻疹病例激增背後：我們正在爲疫苗懷疑主義付出代價

當算法開始預測人生，我們失去了什麼？

貼上標籤就能辨真假？微軟的AI內容覈查方案能走多遠