
原文發表於 《科技導報》2026年第5期科技新聞-前沿動態
超長記憶讓AI開始改寫小鼠的DNA

Evo2的工作模式及用途
(圖片來源:斯坦福大學官網)
繼2008年人類首次化學合成生殖支原體基因組後,合成生物學領域今日迎來了一項被譽爲“ChatGPT時刻”的範式突破。由Arc研究所、斯坦福大學、NVIDIA及加州大學伯克利分校等機構聯合研發的生物基礎模型——Evo2正式對外公佈。該模型基於9萬億個DNA鹼基對訓練而成,不僅能夠高精度預測基因突變的致病性,更實現了從頭設計長達百萬鹼基對的複雜基因組序列,標誌着生命代碼的操縱從“微調編輯”正式跨入“生成式編程”時代。2026年3月4日,相關研究成果發表於Nature。
人類基因組的建模一直受困於序列極長且包含大量長程依賴的特徵。傳統的Transformer架構在處理長序列時計算量呈平方級增長,難以完整“閱讀”長達數百萬鹼基的遺傳信息。Evo2憑藉創新的StripedHyena2混合架構(結合了卷積和注意力機制),成功將“工作記憶”(上下文窗口)擴展至100萬鹼基對,並保持單核苷酸級的分辨率。這意味着AI不再只能分析基因片段,而是具備了理解整本“基因組小說”的能力,其處理吞吐量是傳統模型的3倍以上。
該模型在一個龐大、經過科學策劃的數據集OpenGenome2上訓練,該數據集包含約8.8萬億個來自細菌、古菌、真核生物和噬菌體的核苷酸,同時出於生物安全考慮,有意排除感染真核宿主的病毒。
Evo2的性能主要在2個關鍵方向上進行評估:
一是預測,即判斷特定DNA突變或其他遺傳變異是否會導致疾病或功能喪失;
二是生成,即在指導條件下進行合成DNA序列的從頭設計(deno‐vodesign)。
在針對BRCA1和BRCA2等關鍵致病基因的測試中,模型在無需任何任務特異性微調的情況下,識別致病突變的準確率超過90%。更具突破性的是,研究團隊引導Evo2設計了特定的DNA序列,並將包含“EVO2”、“ARC”和“LO”(這是互聯網傳輸的第一條信息)字樣的摩斯密碼信息成功編碼進小鼠細胞的染色質拓撲結構中,並通過評價基因轉錄性的實驗驗證。
研究團隊利用稀疏自編碼器(SAEs)對Evo2的內部表示進行機制可解釋性分析,從而識別出與具體生物學功能相關的潛在特徵,例如外顯子-內含子邊界、噬菌體相關基因組區域以及與遺傳突變模式相關的編碼特徵。這表明Evo2在訓練過程中自動學習到基因組結構規律,而不僅僅是統計模式。
儘管Evo2生成的線粒體和細菌基因組在計算機預測中顯示70%的基因結構“看起來很合理”,但合成生物學家依然保持警惕。瓦赫寧根大學教授Nico‐Claassens指出:“生命設計不能只完成70%。只要有一個關鍵代謝位點存在語法錯誤,整個合成生命就無法正常運行”。此外,德克薩斯大學奧斯汀分校的獨立評估顯示,Evo2生成的長序列在處理高重複序列(如異染色質區域)時容易發生“低複雜度崩潰”,表現出明顯的同質化偏差。
Evo2標誌着生物學研究範式的一次重要轉變:從以往針對單一生物組分的分析,邁向對整個基因組複雜性的整體建模。憑藉超長上下文窗口及機制層面的關鍵創新,該模型能夠識別並解析普遍性的進化規律,並實現從單細胞生物到人類等複雜生命系統的跨尺度泛化。
(綜合:《中國科學報》、Nature、斯坦福大學官網)
☟
《科技導報》創刊於1980年,中國科協學術會刊,主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述,發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策諮詢建議。常設欄目有院士卷首語、科技新聞、科技評論、本刊專稿、特色專題、研究論文、政策建議、科技人文等。





