Karpathy開源“AI研究員”，630行代碼讓智能體通宵煉模型-科技-今日熱點-聚焦看點

如果你有一塊 NVIDIA GPU，睡前啓動一個腳本，第二天早上醒來就能收穫一百次 LLM 訓練實驗的結果，其中一部分還確實比你手動調參調得更好，是不是聽起來有些難以置信？

但這就是 Andrej Karpathy 今天凌晨開源的新項目 autoresearch 所做的事。項目上線不到幾個小時，他在 X（原 Twitter）上的發佈帖瀏覽量突破百萬，GitHub 倉庫迅速收穫超過 2,500 顆星。整個倉庫的核心代碼只有約 630 行 Python。

圖丨相關推文（來源：X）

autoresearch 做的事情，一句話就能說清：把一個簡化過的大語言模型訓練環境交給 AI 智能體（AI Agent），讓它在你睡覺的時候自主跑實驗。智能體修改代碼，啓動訓練，五分鐘後檢查結果，如果驗證損失降低了就保留改動，沒降低就回退，然後繼續下一輪。你早上醒來，面前是一串實驗日誌，和一個可能變好了的模型。

過去幾年裏，Karpathy 開源了一系列以極簡主義著稱的項目：2020 年的 micrograd 和 minGPT，2023 年的 nanoGPT，2024 年用純 C 和 CUDA 寫的 llm.c，2025 年覆蓋 LLM 全流程的 nanochat，以及 2026 年 2 月那個僅用 243 行純 Python、零外部依賴實現 GPT 訓練和推理的 microgpt。每一次迭代都在做同一件事，剝除抽象層，把複雜系統壓縮到人類可以在一杯咖啡時間裏讀完的代碼量。

autoresearch 延續了這條線索，只是這一次，它不再是給人看的教學工具，而是給 AI 用的實驗平臺。

整個倉庫只有三個核心文件。prepare.py 負責下載訓練數據和訓練一個 BPE（Byte Pair Encoding，字節對編碼）分詞器，這個文件是固定的，智能體不能動。

train.py 是約 630 行的訓練腳本，包含完整的 GPT 模型定義、優化器（項目使用了 Muon 和 AdamW 的組合）和訓練循環，這是智能體唯一可以編輯的文件，模型架構、超參數、批大小、學習率，所有東西都可以改。

program.md 是一個 Markdown 文件，充當給智能體的指令手冊，由人類編寫和迭代。這裏的核心設計哲學是：人類編寫指導智能體行爲的"元程序"，智能體負責編寫和修改實際的訓練代碼。

訓練的時間預算被硬性固定爲 5 分鐘牆鍾時間（wall clock time），不管你的硬件配置如何。這個設計選擇有兩個好處：

第一，不同實驗之間的結果可以直接比較，不管智能體把模型改大了還是改小了；第二，autoresearch 會爲你的特定硬件找到 5 分鐘內能達到的最優配置。代價是不同人在不同 GPU 上得到的結果無法互相對照。評估指標是 val_bpb（validation bits per byte，驗證集上的每字節比特數），越低越好，且與詞表大小無關，這樣即便智能體改變了分詞方案，實驗結果也能公平對比。

（來源：GitHub）

按照這個節奏，每小時可以跑大約 12 個實驗，一整夜大約 100 個實驗。Karpathy 在 README 裏附了一張圖：83 次實驗中保留了 15 次改進，驗證損失從接近 1.000 逐步下降到 0.975 附近。圖上每個點是一次完整的訓練運行，綠色點表示被採納的改動，灰色點是被丟棄的。

你可以看到智能體嘗試了各種各樣的策略，調整 batch 大小、修改學習率調度、切換激活函數、引入餘弦衰減等，有些管用，大多數沒用，但整體趨勢是持續向下的。

autoresearch 的訓練代碼來源於 Karpathy 在 2025 年發佈的 nanochat 項目的簡化版。nanochat 是一個覆蓋 LLM 全棧的實驗框架，從分詞到預訓練、微調、評估、推理到聊天界面全部包含在內，設計目標是在 8 塊 H100 GPU 組成的單節點上跑完全流程。

據 Karpathy 公佈的數據，用 nanochat 訓練一個 GPT-2 級別能力的模型大約需要花費 48 美元（約 2 小時的 8×H100 節點），而 2019 年 GPT-2 的訓練成本約爲 43,000 美元（nanochat GitHub，2025）。autoresearch 把 nanochat 進一步精簡到單 GPU 環境，砍掉了分佈式訓練、複雜配置和多階段流水線，只留下一個能跑、能改、能比較的最小單元。

智能體在一個 git 分支上工作。每當它找到一個更好的配置，就提交一個 commit。你可以在 git log 裏看到完整的實驗演化史。這種設計讓所有改動都是可審查和可回滾的，同時也構成了一份天然的研究日誌。Karpathy 建議使用 Claude Code 或 OpenAI Codex 這類代碼智能體來驅動實驗循環，並且把所有權限關掉，智能體只需要讀寫 train.py 和執行訓練命令的能力。

不過，這個項目目前只支持 NVIDIA GPU，測試環境是 H100。Karpathy 在 README 中坦承：支持 CPU、MPS（Apple Silicon）或其他平臺在技術上完全可行，但會讓代碼膨脹，而他不確定自己是否願意在這個方向上投入精力。他更傾向於讓社區來做 fork 和適配。

其實 AI 科研系統也並不算新鮮，但 autoresearch 和那些企業級或科研級系統之間有一個重要的區別：它是刻意做小的。Karpathy 沒有搭建一個多智能體編排框架，沒有設計複雜的通信協議，沒有引入什麼記憶模塊或檢索增強生成（Retrieval-Augmented Generation, RAG）管線。他做的事情和過去六年做的事情一樣，把一個概念壓縮到你能在週末下午讀完並跑起來的規模。一塊 GPU，一個文件，一個循環。

README 頂部有一段虛構的引言，大意是：將來 AI 研究完全由自主智能體集羣在天空中的計算集羣上完成，代碼庫已經經歷了 10,205 次迭代，變成了一個超越人類理解的自修改二進制程序，沒有人能驗證智能體對版本號的說法是否正確。Karpathy 標註的日期是 2026 年 3 月，然後附言：這個項目講的是這一切是如何開始的。

參考資料：

1. https://x.com/karpathy/status/2030371219518931079

2. https://github.com/karpathy/autoresearch

Karpathy開源“AI研究員”，630行代碼讓智能體通宵煉模型

這家初創公司聲稱能阻止閃電、預防山火，但科學家對此存疑

OpenClaw發佈新版本，GPT-5.4原生支持，200多個Bug一次性修完

電力危機要來了？馬斯克預言成真，中國變壓器成美企“救命稻草”

告別液壓剎車！星途EX7首搭EMB電子制動內飾細節曝光

相關推薦

油價重回100美元，國內加滿一箱油多···

AI搶工作時代，硅谷AI大佬如何教育···

在掀翻地心說之前，伽利略可能曾是···

華爲896線激光雷達，剛發佈就被超越···

沒有新勢力，大家會買什麼車？中國···

00後成功上位？蘋果連發多條抽象短···

小米新SU7前備箱曝光，比第一代大5···

用戶意外發現掃地機器人漏洞，大疆···

沒啥大變化但依舊有人買，三星S26系···

單槍充電功率1500kW、9分鐘充飽！比···

美國實現光刻創新，金屬有機框架光···