從 AlphaFold 精準預測蛋白質三維結構,到大語言模型解析複雜的基因組語法。在過去的幾年裏,人工智能在生命科學領域的突破令人矚目。然而,在合成生物學和精準醫療領域,除了“閱讀”和“預測”生命密碼,關鍵還在於“改寫”與“精準控制”。如果我們能像調節音量旋鈕一樣,在特定的細胞內極其精準地控制某個基因的表達劑量,疾病治療將迎來更高階的突破。
而基因表達調控元件正是解決這一難題的關鍵。它被視爲自然界賦予細胞的“開關與旋鈕”,編碼時空特異性邏輯,確保基因在正確的時間、正確的細胞中以恰當強度開啓。長期以來,細胞與基因療法的安全性瓶頸正源於我們對這些元件的控制不足:傳統設計方法多依賴重複已知基序或隨機拼接,既難以獲得可靠候選分子,也難以實現連續梯度調控。
3 月 13 日,Y Combinator 支持的 AI 生物技術初創公司 Origin Bio 宣佈,向全球科研社區開源 10,000 條完全由 AI 設計生成的近端增強子樣序列(proximal enhancer-like sequences, pELS),並同步上線免費平臺 Switch。這將爲大規模平行報告基因分析(MPRA)等功能性實驗提供海量的數據儲備,有望爲傳統的擾動生物學(Perturbation Biology)注入全新的 AI 協作機制。
公司僅 4 人,專注 AI 驅動的調控 DNA 設計
Origin Bio 成立於 2025 年,總部位於舊金山,近期已入選 Y Combinator Winter 2026 批次,團隊規模極小,僅有 4 人。CEO 亞什·拉託德(Yash Rathod)與 CTO 馬爾哈·比德(Malhar Bhide)均來自伊利諾伊大學厄巴納-香檳分校(UIUC)計算機科學專業,曾從事計算機視覺與強化學習研究,其中,亞什曾獲得 2022 年 OpenCV AI Research Competition 一等獎,馬爾哈高中時期就在《科學報告》(Scientific Reports)發表過疾病建模論文。
2025 年 10 月 8 日,Origin Bio 正式發佈自研模型 Axis,這是業內首個同時具備生成與預測功能的調控 DNA AI 模型。它統一了 DNA-to-DNA、DNA-to-function 與 function-to-DNA 三類任務:既能從頭生成序列或基於提示優化,也能預測序列的功能屬性。
Axis 基於共享 Transformer 骨幹網絡實現多任務訓練,採用 ENCODE V4 註冊表中的獨立順式調控元件數據進行無污染分割訓練。在預測調控元件活性基準測試中,Axis 平均超越 Google DeepMind 的 AlphaGenome 模型 6.7%。在“高結合親和力”的提示下,Axis 生成的序列中目標轉錄因子結合位點可富集高達 9 倍。

(來源:Origin Bio)
Origin Bio 正致力於“用 AI 打造更安全的細胞與基因療法”,核心是設計新型調控 DNA 元件,如增強子與啓動子,實現治療基因表達的精準編程,主要面向癌症、中樞神經系統疾病等需要條件性激活的適應症。未來,其希望構建全球最大規模的合成調控序列專有數據集,通過高通量實驗驗證積累數百萬條跨多種細胞狀態的功能註釋序列。
10,000 個 AI 設計的生物學“微調旋鈕”
本次發佈的 10,000 條序列正是由 Axis 針對特定細胞狀態提示生成的 pELS 序列,這是一類位於基因轉錄起始位點(TSS)附近約 2 kb 範圍內、能夠顯著增強基因轉錄活性的短 DNA 序列。這批 AI 設計的序列專門針對三種在醫學研究中極具代表性的細胞系:SK-N-SH(神經母細胞瘤細胞系)、HepG2(肝細胞癌細胞系)和 K562(紅白血病細胞系)。
爲了讓這批序列在真實科研環境中的可用性更高,每條序列均附帶完整質量控制數據和多維度的預測數據。其底層序列質量指標包括最差發夾結構穩定性(worst hairpin stability, ΔG)、GC 含量、核苷酸組成比例以及最長同聚物(homopolymer)長度。併爲轉錄因子結合位點(TFBS)提供註釋,支持用戶進行高級過濾與可視化,幫助研究者理解序列招募特定蛋白質、啓動基因表達的具體機制。
在跨細胞系活性預測中,Origin 調用了由哈佛-麻省理工博德研究所(Broad Institute)獨立開發、經過體外驗證的深度卷積神經網絡模型 Malinois。該模型能夠僅憑 DNA 序列,高精度地預測順式調控元件(CRE)的活性。
爲了直觀展示 DNA 雙鏈分子的空間構象,Origin 還使用了字節跳動開源的 AlphaFold 3 復現模型 Protenix。Protenix 能夠精準預測包括蛋白質、DNA、RNA 在內的複雜生物分子 3D 結構。

(來源:Origin Bio)
所有序列及其元數據已全部上傳至 Switch 平臺。平臺不僅提供瀏覽、下載與可視化功能,還將持續託管公司與社區的溼實驗驗證結果,支持研究者上傳自身評估數據,形成協作積累。Origin Bio 明確表示,將繼續向庫中添加針對原代細胞與組織的更多設計序列。
範式轉移:從“二元開關”到“連續調控”
爲什麼 Origin 要耗費巨大算力去大規模設計並測試這些調控元件庫?答案在於對細胞命運的極致掌控。
在傳統的擾動生物學中,科學家們主要依賴兩種手段來研究基因功能:其一是 CRISPR 等基因敲除(Knockouts)或敲降(Knockdowns)技術。這在很大程度上是一種“二元操作”,基因要麼被完全破壞、不表達,要麼存在。其二是化學藥物處理,雖然可以通過藥物濃度實現“劑量控制”,但化學小分子往往缺乏靶向特異性,容易同時引發多條信號通路的脫靶效應。
真實的生命系統遠比“0 和 1”複雜。細胞的命運決定本質上是由基因表達的“劑量”驅動的,蛋白質的合成數量、時空表達都會影響最終表型。公司強調,調控 DNA 元件能編碼時空特異性邏輯,使藥物更具可編程性,從而提升特異性並響應細胞狀態變化。這對細胞與基因療法安全性至關重要。
Origin 通過 AI 設計出具有梯度轉錄強度的調控元件庫,這將爲擾動生物學代帶來更精細、更高效率的基因調控策略。科學家可以對特定基因的表達水平進行連續性的精準控制,並基於此係統繪製劑量-響應圖譜。
例如,科學研究表明,腫瘤微環境中存在一條極其關鍵的“代謝-表觀遺傳軸”:壞死腫瘤會觸發 T 細胞的“功能性熱量限制”,進而耗竭核質內的乙酰輔酶 A(acetyl-CoA)。這會剝離效應基因和耗竭基因位點上激活性的組蛋白修飾標記,從而“塞翁失馬”地保留了 T 細胞的乾性,這正是產生持久抗腫瘤反應的關鍵狀態。白細胞介素-10(IL-10)似乎可以通過類似途徑重編程終末耗竭的 CD8+ T 細胞,恢復其抗腫瘤功能。
目前,研究人員還不瞭解是否存在一個完美的表達閾值,能讓 IL-10 剛好將耗竭的腫瘤浸潤淋巴細胞(TILs)翻轉到有利狀態,而又不會“用力過猛”引發免疫抑制。有了 Origin 提供的梯度調控元件庫,研究人員終於可以系統性地繪製這一閾值圖譜,徹底告別過去僅靠單一“過表達構建體”盲目猜測的時代。
再比如,T 細胞療法的臨牀數據中有兩個決定療效的最強預測指標:T 細胞乾性以及多克隆腫瘤反應性。但在現有的細胞療法制造過程中,當 T 細胞在體外大規模擴增時,這兩種極其寶貴的特性會迅速流失。能夠識別腫瘤的克隆型被選擇性淘汰,而剩餘的細胞則走向“終末分化”,失去了持續戰鬥的潛力。
如果科學家能在體外擴增期間,利用 AI 設計的梯度調控序列,精確滴定乾性相關轉錄因子(如 TCF7 或 BACH2)的表達,就有望找到一個極其精確的“黃金劑量”:在這個劑量下,T 細胞既能完美維持自我更新能力,又不會犧牲其對腫瘤的殺傷效應潛能。
開源共建“可編程藥物”的未來
Origin Bio 也承認自家公司在這項研究中的侷限性:“需要開展的實驗、有待發現的機制以及將要產生的影響,遠遠超出了任何一家單一機構的能力範圍。”
因此,隨着 10,000 條 AI 設計的序列向全網開放,Origin 明確表示,他們希望全球的科研工作者能將這些序列應用於 MPRA 研究,以及 ATAC-seq、ChIP-seq 等遺傳組學功能性檢測實驗中。隨着實驗數據的迴流,Origin 承諾將在平臺上公開驗證結果,並允許其他科研團隊同步分享他們的數據。未來,他們還計劃將生成的序列庫擴展到原代細胞和更多組織類型中。

(來源:X@garrytan)
社交媒體與社區討論迅速展開,各路專家對此評價不一。Y Combinator CEO Garry Tan 稱“AI×bio 是幾乎未被觸及的領域”。斯坦福大學計算基因組學家安舒爾·昆達傑(Anshul Kundaje)則在 X 轉帖評論,此次發佈“更像是炒作而非嚴肅努力”:三種細胞系區分過於簡單、缺少與開源工具的 benchmark 對比,且缺乏溼實驗驗證。

(來源:X@anshulkundaje)
無論如何,Origin Bio 或許正在推動 AI 生成調控 DNA 從實驗室走向社區協作的新階段。生命科學正從“盲人摸象”式的試錯發現,邁向編寫計算機代碼般精準的“可編程生物學”時代。
參考來源:
https://origin.bio/blogs/switch/
https://origin.bio/
https://www.ycombinator.com/companies/origin-bio
https://origin.bio/introducing-axis
https://x.com/garrytan/status/2032565231847629215
https://x.com/anshulkundaje/status/2033006691873337710
運營/排版:何晨龍




