近日,《麻省理工科技評論》與 OpenAI 的兩位研究主管陳信翰(Mark Chen)和雅各布·帕霍基(Jakub Pachocki)進行了獨家對話,探討了如何構建更強大推理模型的路徑,以及“超級對齊”的未來。該文章在發佈之後還得到了 OpenAI 首席執行官山姆·奧特曼(Sam Altman)在 X 上的轉發。

圖 | 從左到右:馬克·陳(Mark Chen)和雅各布·帕霍基(Jakub Pachocki)(來源:OpenAI)
過去幾年,OpenAI 給人的印象彷彿是一家“一個人的公司”。首席執行官山姆·奧特曼(Sam Altman)憑藉明星般的風格和在融資中的高調錶現,讓公司其他重要人物都顯得黯然失色。即便曾被“趕下臺”,最終也強勢迴歸,比以往更具聲望。但如果撇開這位光鮮的掌舵者,就能更清楚地看見公司真正的方向。畢竟,OpenAI 聲名遠播的技術,並非出自奧特曼本人之手。
這一責任落在了 OpenAI 的兩位研究主管——首席研究官馬克·陳(Mark Chen)和首席科學家雅各布·帕霍基(Jakub Pachocki)肩上。他們共同負責確保 OpenAI 始終領先於谷歌等強勁對手。
最近,兩人前往英國倫敦——OpenAI 於 2023 年在此設立了首個海外辦公室。《麻省理工科技評論》在那次行程中對他們進行了獨家專訪。我們聊到了如何平衡研究與產品之間的天然張力。他們還解釋了爲什麼認爲編程和數學是通用模型變得更強的關鍵;他們談論的 AGI 究竟意味着什麼;以及由聯合創始人、前首席科學家伊利亞·蘇茨克弗(Ilya Sutskever)成立、旨在預防“超級智能失控”的超級對齊團隊,在他離職後爲何迅速解散。
我尤其想了解,在 OpenAI 即將發佈數月來最重要產品 GPT-5 之際,他們對這項工作的關注點在哪裏。
有報道稱,該公司的下一代模型將於 8 月發佈。OpenAI(或者說奧特曼)給出的官方說法是:GPT-5 將會“很快”上線。人們對此期待已久。GPT-3 和 GPT-4 的接連突破,顯著抬高了公衆對 AI 技術潛力的認知門檻。然而,GPT-5 的推遲也引發了各種猜測——有人認爲,OpenAI 正面臨難題,無法打造出連自己都滿意的模型,更別說滿足外界期待了。
奧特曼一改往日風格,罕見地表現得頗爲低調。他在 X 上發文稱:GPT-5 是一個實驗性質的模型,融合了我們將在未來模型中採用的新研究方法。”聽起來這更像是一個進行中的嘗試,而不是又一次顛覆式發佈。
但對於一家近幾年一直引領行業走向的公司來說,管理好外界預期也是工作的一部分。而在 OpenAI 內部,制定議程的人就是陳和帕霍基。

圖 | 奧特曼在 X 上轉發本次文章的英文版(來源:X)

雙峯
OpenAI 在倫敦的主辦公室位於聖詹姆斯公園,距離白金漢宮不遠。但我是在國王十字附近的一間共享辦公室裏見到陳和帕霍基的。這裏是 OpenAI 在倫敦科技核心區的小型據點,附近還有谷歌 DeepMind 和 Meta。OpenAI 的研究傳播主管勞倫斯·福康內特(Laurance Fauconnet)坐在桌子盡頭,打開了筆記本電腦。
陳穿着酒紅色 POLO 衫,乾淨利落,帶點精英預科生氣質。他接受過媒體培訓,與記者交流毫不怯場。(他曾在 GPT-4o 發佈視頻中與聊天機器人打情罵俏。)帕霍基穿着印有大象圖案的黑色 T 恤,氣質更像電視劇裏的黑客,說話時常盯着自己的手看。
不過兩人合作得比外表更緊密。
帕霍基說,陳主要負責組建和管理研究團隊。“而我則負責制定研究路線圖,設定我們長期的技術願景。”
“但我們的角色是可以互換的。”陳說,“我們都是研究員,都會深入技術細節。只要發現有技術可解的問題,我們都會主動解決。”
陳於 2018 年加入 OpenAI,此前是華爾街 Jane Street 的量化交易員,在那裏他開發了期貨交易的機器學習模型。在 OpenAI,他主導開發了生成式圖像模型 DALL-E,後又參與 GPT-4 圖像識別功能的實現,並帶領團隊打造了代碼生成模型 Codex(GitHub Copilot 的核心)。
帕霍基 2017 年從理論計算機科學研究領域轉向工業界,加入 OpenAI,並在 2024 年接替蘇茨克弗出任首席科學家。他是 OpenAI 推理模型(如 o1 和 o3)的主要架構師,這些模型專爲攻克數學、科學、編程等複雜任務而設計。
我們見面時,兩人正爲 OpenAI 技術的連續勝利而興奮不已。
7 月 16 日,OpenAI 的大語言模型在 AtCoder 世界總決賽中奪得第二名,這是世界最難的編程競賽之一。7 月 19 日,OpenAI 又宣佈其模型在 2025 年國際數學奧林匹克競賽(IMO)中取得金牌水平成績。
這一數學結果之所以登上頭條新聞,不僅是因爲 OpenAI 取得了非凡成就,還因爲兩天後其競爭對手谷歌 DeepMind 透露,其一款模型取得了相同的成績。谷歌 DeepMind 遵守了比賽規則,在等待主辦方覈實結果後才宣佈了這一消息;而 OpenAI 則是自行評分。
對於陳和帕霍基來說,結果本身就說明了一切。無論如何,他們最興奮的是編程競賽的勝利。“我認爲這被低估了。”陳告訴我。他說,在國際數學奧林匹克競賽中獲得金牌意味着你躋身前 20 至 50 名參賽者之列。但在 AtCoder 競賽中,OpenAI 的模型排在前兩名:“真正躋身人類表現的全新層級——這是前所未有的。”

一切以發佈爲核心!
OpenAI 員工仍然喜歡稱自己是在研究實驗室工作,但自三年前 ChatGPT 發佈以來,這家公司早已不可同日而語。它如今估值達 3000 億美元,正與全球最強的科技巨頭競爭。光有突破性的研究和炫技演示已經遠遠不夠——它必須推出產品,並讓產品真正落地——而它確實做到了。
OpenAI 持續推出新產品——對其 GPT-4 系列進行了重大更新,發佈了一系列生成式圖像和視頻模型,並引入了用語音與 ChatGPT 對話的功能。六個月前,它推出了名爲 o1 的新一代推理模型,隨後又推出了 o3。它還推出了瀏覽器智能體 Operator。目前,其產品每週活躍用戶超 4 億,每天收到 25 億條指令。
OpenAI 即將上任的應用程序首席執行官菲吉·西莫(Fidji Simo)希望保持這一勢頭。在給公司的一份備忘錄中,她告訴員工,她期待“幫助 OpenAI 的技術被全球更多人掌握”,這些技術將“爲更多人帶來前所未有的機會”。預計產品會源源不斷地推出。
我問 OpenAI 是如何平衡開放式研究和產品開發的。“這是我們在 ChatGPT 出現之前就一直思考的問題。”帕霍基說。“若我們認真對待通用人工智能目標,那在這個過程中,很多研究支線其實本身就會變成偉大的產品。”換言之,就是不斷搖動樹幹,總會掉下果子。
OpenAI 員工經常提到的一個觀點是,將實驗性模型推向市場,本身就是研究的一部分。其目的是讓人們意識到這項技術已經變得多麼出色。“我們想告訴人們即將發生什麼,這樣我們才能參與到一場非常艱難的社會對話中。”奧特曼(Altman)在 2022 年告訴我。這項奇怪新技術的創造者也很好奇它可能用於什麼:OpenAI 熱衷於將其交到人們手中,看看他們會用它來做什麼。
現在還是這樣嗎?他們幾乎同時回答:“是的!”陳說。“在某種程度上吧。”帕霍基說。
陳笑着示意帕霍基繼續。帕霍基說:“我不會說研究就是產品迭代。但如今模型在傳統基準測試上已接近上限,我們長期以來關注的問題也開始出現突破。我們現在真正想看的是,這些模型在現實世界中能做些什麼。”
就像在編程競賽中與人類一較高下一樣。在今年於日本舉行的 AtCoder 競賽中,擊敗 OpenAI 模型的是一位名叫 Przemysław Dębiak 的程序員,他也被人們稱爲 Psyho。這場競賽是一場解謎馬拉松,參賽者有 10 個小時的時間來尋找解決複雜編程問題的最有效方法。獲勝後,Psyho 在 X 上發帖稱:“我完全筋疲力盡了……我快崩潰了。”
陳和帕霍基與競技編程界有着密切的聯繫。兩人都曾參加過國際編程競賽,陳還執教美國計算機奧林匹克競賽隊。我問他們,他們對編程比賽的熱情是否讓他們過於看重模型在這類挑戰中的表現。
他們都笑了。“確實如此。”帕霍基說,“Psyho 算是個傳奇人物,多年來一直是頭號選手。他也是我朋友——我們以前常一起參賽。”他還曾在 OpenAI 工作過。
當帕霍基參加編程競賽時,他更青睞那些專注於較短且具有具體解決方案的問題。但 Psyho 則喜歡那些更長、沒有明確正確答案的開放式問題。
“他過去總是取笑我,說我喜歡的那種比賽在他喜歡的那些比賽之前很久就會被自動化。”帕霍基回憶道,“所以我在這次最新的比賽中對這個模型的表現寄予了厚望。”
帕霍基告訴我,他一直守在東京的深夜直播中,看着他的模型獲得第二名:“Psyho 目前還在抵抗。”
“我們追蹤大模型在編程競賽中的表現已經有一段時間了。”陳說道,“我們見證了它們的表現超越了我,超越了帕霍基。這就像李世石和 AlphaGo 的故事。”
李世石是圍棋大師,2016 年,他在一系列比賽中輸給了 DeepMind 的遊戲模型 AlphaGo。這一結果震驚了國際圍棋界,並導致李世石放棄了職業比賽。去年,他告訴《紐約時報》:“從某種意義上說,輸給人工智能意味着我的整個世界正在崩潰……我再也無法享受比賽了。”然而,與李世石不同,陳和帕霍基對被超越感到興奮。
但我們普通人爲什麼要關心這些小衆領域的勝利呢?很明顯,這項旨在模仿並最終取代人類智能的技術,是由那些認爲頂尖智能就是數學競賽中的高分或能與傳奇程序員一較高下的人所開發的。這種偏重數學和分析能力的智能觀是否過於狹隘?
“你說得沒錯——我們確實有點私心地想造出能提升我們效率的模型。”陳說。“我們認爲這是取得進步的一個非常迅速的因素。”
像陳和帕霍基這樣的研究人員提出的論點是,數學和編程是更爲普遍的智能形式的基石,這種智能能夠以我們自己可能都沒有想到的方式解決各種各樣的問題。“我們在這裏談論的是編程和數學。”帕霍基說,“但它實際上是關於創造力,關於提出新穎的想法,關於將來自不同領域的想法聯繫起來。”
看看最近的兩場比賽:“在這兩場比賽中,都出現了需要非常艱難、打破常規思維的問題。Psyho 在編程比賽的一半時間裏都在思考,然後想出了一個非常新穎且與我們模型所見的任何解決方案都截然不同的解決方案。”
“這確實是我們所追求的。”帕霍基繼續說道,“我們如何讓模型發現這種新穎的見解?如何真正增進我們的知識?我認爲它們已經在某些有限方面具備了這種能力。但我認爲這項技術有潛力真正加速科學進步。”
我回到了關於對數學和編程的關注是否成問題的問題上,承認如果我們正在構建的是幫助我們進行科學的工具,那麼這或許也沒什麼問題。我提出,我們並不一定希望大型語言模型取代政治家,也不希望它們具備人際交往能力。
陳做了個鬼臉,抬頭望向天花板:“有何不可?”

還缺什麼?
OpenAI 的誕生帶有一種即便以硅谷標準也算傲慢的雄心。在 AGI 還被視爲異想天開的年代,它就大張旗鼓地宣佈要實現 AGI。如今,OpenAI 對 AGI 的執着依舊,並且比多數公司都更努力地將 AGI 推進爲主流、甚至千億美元級的技術方向。但它仍未抵達終點。我問陳和帕霍基,他們認爲通向 AGI 還缺了什麼。
“我覺得,想象未來最好的方式,是深入研究我們今天已經看到的技術。”帕霍基說。“OpenAI 從一開始就把深度學習看作神祕但極具潛力的強大工具。我們一直在試圖理解它的瓶頸:它能做什麼?不能做什麼?”
陳說,目前最前沿的是推理模型,它們能把大問題拆解成更小、可管理的步驟。但即便如此,模型仍有侷限性:“你會發現,有些模型知道很多知識,但無法把這些知識串聯起來。爲什麼會這樣?它們爲什麼不能像人類那樣推理?”
OpenAI 正全力以赴想弄清楚這個問題。
“我們可能還處於這種推理範式的初級階段。”帕霍基告訴我,“實際上,我們正在思考如何讓這些模型長期學習和探索,並真正產生全新的想法。”
陳進一步強調:“我不認爲我們已經攻克了推理。肯定還沒做到。你得讓模型讀足夠多的文本,才能大致模擬出人類的知識水平。”
OpenAI 不願透露其用來訓練模型的數據,也不願詳細說明這些數據的規模和結構——只是表示他們正在努力提高開發流程各階段的效率。
這些努力讓他們相信,所謂的“擴展定律”(即模型會隨着計算能力的提升而不斷優化)並未顯示出失效的跡象。
“我沒看到任何跡象表明擴展定律失效了。”陳堅稱。“瓶頸當然存在。有時是模型架構問題,有時是數據問題。但歸根結底,就是找到能突破當前瓶頸的研究路徑。”
對進步的信念是堅定不移的。我提到了帕霍基在 5 月份接受《自然》雜誌採訪時談到的關於 AGI 的事情:“2017 年我加入 OpenAI 時,我仍是公司裏最大的懷疑論者之一。”他聽完後顯得有些遲疑。
“我不確定自己是否曾對這個概念持懷疑態度。”他說,“但我想我確實懷疑過——”他頓了頓,看着自己放在面前桌子上的雙手。“當我加入 OpenAI 時,我原以爲,要達到我們現在的階段,至少還得花更長時間。”
“AI 的影響有很多,”他說,“但我最關注的是自動化研究。當我們回顧人類歷史,會發現其中很多都與科技進步、人類創造新技術有關。計算機能夠自行開發新技術,這一時刻似乎是一個非常重要的轉折點。”
“我們已經看到這些模型在輔助科學家工作。但當它們能夠着眼於更長遠的未來——當它們能夠爲自己建立研究項目時——世界將會發生有意義的改變。”
對於陳而言,模型能夠自主工作更長時間的能力是關鍵。“我的意思是,我確實認爲每個人對 AGI 都有自己的定義。”他說。“但‘自主時間’這個概念很重要——即模型可以在不陷入死衚衕的前提下,持續解決一個困難問題的時間。這就是我們努力的方向之一。”
這是一個大膽的願景——遠遠超出了當今模型的能力範圍。但陳和帕霍基讓 AGI 聽起來幾乎平淡無奇,這還是讓我感到震驚。這與我 18 個月前與蘇茨克維爾交談時他的回應形成了鮮明對比。“這將具有里程碑意義,驚天動地。“他告訴我。它會把歷史劃分爲‘之前’和‘之後’。”他對 AGI 的信念如此深刻,以至於放棄繼續研發最強模型,轉而投身研究“如何控制這項可能比他更聰明的技術”。
兩年前,蘇茨克維爾組建了一支他稱之爲“超級對齊”的團隊,他將與另一位 OpenAI 安全研究員簡·萊克(Jan Leike)共同領導該團隊。據稱,該團隊將把 OpenAI 五分之一的資源投入到研究如何控制一種假設的超級智能中。如今,包括蘇茨克維爾和萊克在內的超級對齊團隊的大多數成員已經離開公司,該團隊也不復存在。
萊克辭職時表示,這是因爲團隊沒有得到他認爲應得的支持。他在 X 上發帖稱:“打造比人類更智能的機器是一項本質上危險的任務。OpenAI 肩負着全人類的巨大責任。但在過去幾年裏,安全文化和流程讓位於光鮮亮麗的產品。”其他離職的研究人員也發表了類似聲明。
我問陳和帕霍基他們對這些擔憂有何看法。“很多事情都是高度個人化的決定。”陳說。“你知道,研究人員有時會……”
他停頓了一下,重新組織語言:“他們可能堅信這個領域會以某種方式發展,他們的研究會取得成功並結出果實。而且,你知道,也許公司並沒有按照你想要的方式重塑。這是個高度動態的領域。”
“很多事情都是個人決定。”他重複道,“有時候,這個領域的發展與你做研究的方式並不那麼一致。”
但兩人都堅稱,對齊工作如今已成爲核心業務的一部分,而不再是一個特定團隊所關注的問題。帕霍基表示,除非這些模型能如你所願地工作,否則它們根本不起作用。而讓現有模型行爲符合預期,已經夠難了——沒人還有精力去思考假想中的超級智能該如何對齊。
“兩年前,我們想象中的風險大多爲理論風險。”帕霍基說,“但現在世界已經不同,很多對齊問題已變得非常實際、具體。”
儘管如此,實驗技術正以前所未有的速度被轉化爲大衆市場產品。這真的不會導致兩者之間產生分歧嗎?
“我常常有幸能真正從長遠角度思考技術未來的發展方向。”帕霍基說,“而應對流程中的現實問題——無論是人員方面,還是更廣泛的公司需求方面——則落在馬克身上。這並非真正的分歧,但這些不同的目標與公司所面臨的不同挑戰之間,自然而然會產生緊張關係,而這種關係在我們之間也體現了出來。”
陳插話說:“我認爲這是一種非常微妙的平衡。”
附 Mark Chen 和雅各布·帕霍基(Jakub Pachocki)的個人介紹:
Mark Chen(陳信翰)是 OpenAI 的核心技術領導者之一,現任首席研究官(Chief Research Officer),負責統籌 OpenAI 的前沿 AI 研究,並推動科研成果向產品轉化。他出生於中國臺灣,成長於美國,高中時期隨家人返臺,曾就讀於新竹實驗中學雙語部,並在麻省理工學院獲得數學與計算機科學雙學位。Mark Chen 在 OpenAI 的貢獻極爲突出,曾主導開發了多個關鍵 AI 模型,包括:DALL·E 系列:OpenAI 的突破性圖像生成模型。Codex:爲 GitHub Copilot 提供支持的 AI 編程系統。GPT-4 視覺功能:爲 GPT-4 引入圖像識別能力。GPT-5 研發:目前正與首席科學家 Jakub Pachocki 共同領導 OpenAI 下一代大模型的開發。2024 年,他升任研究高級副總裁(SVP of Research),並在 OpenAI 高層重組後進一步晉升爲首席研究官。他以其深厚的技術背景和領導力,推動 OpenAI 在 AI 競賽(如國際數學奧林匹克、AtCoder 編程比賽)中取得突破性成績。此外,他曾在清華大學發表演講,分享 ChatGPT 的研發歷程,展現其技術影響力。Mark Chen 不僅是 OpenAI 的技術骨幹,也是 AI 安全與推理能力發展的關鍵推動者,強調 AI 的穩健性和社會價值。
Jakub Pachocki 是 OpenAI 的首席科學家,自 2017 年加入公司以來,一直是推動 AI 前沿技術發展的核心人物。他於 2024 年接替 Ilya Sutskever 成爲 OpenAI 的首席科學家,領導了多個關鍵 AI 模型的研發,包括 GPT-4、OpenAI Five(Dota 2 AI 玩家)以及 o 系列推理模型(如 o1、o3)。Pachocki 在 AI 領域的貢獻不僅限於語言模型,他還專注於 強化學習(RL)和 世界模型(World Model)的研究,認爲 AI 未來將能自主發現科學知識,而不僅僅是輔助工具。他強調,AI 推理能力的提升依賴於預訓練與強化學習的結合,使模型能夠“自主思考”而非僅依賴人類引導。在 AGI 的探索上,Pachocki 認爲 AI 的經濟價值將是關鍵里程碑,預計未來五年 AI 將能自主進行科學研究,甚至今年就可能實現近乎自主的軟件開發。此外,他還帶領 OpenAI 的 AI 系統在國際數學奧林匹克競賽(IMO)和 AtCoder 編程比賽中取得頂尖成績,證明 AI 已具備高級推理能力。Pachocki 低調務實,曾是谷歌 Code Jam 冠軍和 ACM ICPC 金牌得主,擁有深厚的計算機科學背景。他的研究正在推動 AI 從工具向自主科研夥伴的轉變。
參考資料:
https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/
運營/排版:何晨龍