11 月 3 日,阿里巴巴推出 Qwen3-Max-Thinking 早期預覽版。Qwen3-Max-Thinking 是 Qwen3-Max 的推理增強版本,它通過集成代碼解釋器和運用並行測試時計算技術,展現出較強的推理能力。據瞭解,Qwen3-Max 是阿里巴巴於今年 9 月下旬推出的該公司迄今爲止規模最大、能力最強的語言模型,參數量在 1 萬億以上,預訓練數據達到 36T tokens。

圖 | Qwen3-Max-Thinking 早期預覽版的相關 X 推文(來源:X)
目前,Qwen3-Max 推理模型仍在持續訓練中,即便使用當前的 Checkpoint,當藉助工具調用和規模化的測試時計算時,阿里巴巴表示該模型可在 AIME 25 和 HMMT25 等挑戰性較高的數學推理基準測試中達到 100% 的準確率。
Qwen3-Max-Thinking 早期預覽版融合了思考模式與非思考模式。當開啓思考模式的時候,模型可以很好地執行常識推理和智能體編程等能力,也在數學、科學和其他通用領域具有較好的推理能力。

圖 | 使用 Qwen3-Max-Thinking 時選擇深度思考模式(來源:實測圖)
在實測中,當筆者讓 Qwen3-Max-Thinking 完成一個名爲“數學推理與可視化智能體”的智能體編程任務時,它花了較長時間思考,消耗的 tokens 也不算低。

圖 | Qwen3-Max-Thinking 在完成數學推理與可視化智能體的智能體編程任務時消耗的 tokens(來源:實測截圖)

圖 Qwen3-Max-Thinking 在完成“數學推理與可視化智能體”的智能體編程任務時的部分思考過程(來源:實測圖)
經過幾分鐘的思考以及長達 527 行的代碼,它給出了一個示例輸出報告,附上了完整的 HTML 報告示例,並指出這一智能體通過多路徑驗證可以確保數學嚴謹性,通過結果的專業可視化能夠提供直觀的洞察,在架構設計上支持擴展至微積分和組合優化等其他數學問題類型,能夠爲複雜數學推理任務提供完整解決方案。

圖 | Qwen3-Max-Thinking 在完成“數學推理與可視化智能體”智能體編程任務時使用了 527 行代碼(來源:實測圖)
當給到 Qwen3-Max-Thinking 一個名爲“社區生活情境推理”的常識推理任務時,它給出了兩千多字的回答,在這一回答中它根據線索開展了常識分析,給出了逐步重建的核心常識,並進行了超越表面問題的深度風險分析。

圖 | “社區生活情境推理”的常識推理任務的描述(來源:實測圖)

圖 | Qwen3-Max-Thinking 針對“社區生活情境推理”常識推理任務的部分生成答案(來源:實測圖)
一位名爲“MZift”的 X 網友在 Qwen 的 X 推文下表示:“在 AIME 測試中斬獲滿分着實驚人,即使是階段性測試也堪稱突破。當衆人沉迷於 OpenAI 的紛爭時,Qwen 正在悄然蓄力。中國 AI 實驗室的崛起之路,果然別具一格。”另一位名爲“Kenshii”的 X 網友也評論稱:“竟能在AlME 2025 這一中期基準測試中拿到滿分?這實力着實駭人。”

圖 | X 網友評論(來源:X)
但也有網友根據試用體驗表達了自己遇到的問題,一位名爲“Goutham Rajesh”的 X 網友表示:“我在試用帶有‘思考過程’的 Qwen3-Max 時,頁面竟然陷入了無限滾動模式,每當生成響應內容,頁面便持續地進行遞歸式自行滾動,直到完全生成內容纔會停止。這一現象僅限於 Qwen3-Max 思考模式。”寫完這段話,這位網友還艾特了 Qwen 的 X 賬號來反饋該問題。

圖 | X 網友評論(來源:X)
事實上,這並非阿里的突然發佈。11 月 2 日,通義千問負責人林俊暘已經在 X 上預告稱:“它來了,你們可以試試。”關於 Qwen3-Max-Thinking 早期預覽版,尚未在 Hugging Face 和魔搭等平臺開源。目前,用戶可以在 Qwen Chat 中免費試體驗,也可以在阿里雲百鍊平臺上調用 API。需要說明的是,文本到文本——是 Qwen3-Max-Thinking 早期預覽版目前支持的唯一模態。在對外提供 API 服務上,它採用輸出限時免費的方式。未來隨着訓練的進一步開展,阿里也將推出更多版本。
名爲“ρ:ɡeσn”的 X 網友已經根據 Qwen 的模型時間給出了推測:“Qwen3-Max 預覽版於 9 月 5 日發佈,正式指令版於 9 月 23 日亮相,其間相隔 18 天。假如思考模型也遵循這一時間線,那麼 Qwen3-Max-Thinking 正式版有望於 11 月 20 日到 11 月 21 日之間亮相。”是否真的如此,或許不久之後即將揭曉。
參考資料:
https://chat.qwen.ai/
閱讀 1666




