科學家推出AI虛擬疾病生物學家,自主發現並驗證兩大全新抗癌靶點

由 DeepTech深科技 發佈於 科技

'25-06-14

藥物研發是一條漫長而充滿挑戰的道路。其失敗的核心癥結,往往並非化合物本身的問題,而是源於最初的假設——對靶點的生物學作用、疾病相關性或成藥性的判斷出現了偏差。這一制約在藥物研發領域的“源頭”難題,長期以來依賴於疾病生物學家們通過繁重的人工勞動,整合海量、多樣的生物醫學數據,以“直覺驅動”的方式提出可供驗證的假說。


然而,這一傳統工作流是碎片化的,且嚴重依賴科學家的個人經驗。隨着基因組學、蛋白質組學、臨牀記錄等多模態數據的爆炸式增長,人類科學家愈發難以憑一己之力完成高效、精準的跨領域推理。


認識到國內在原創新藥領域的這一基礎性挑戰,由臨港實驗室、上海人工智能實驗室、上海交通大學、復旦大學及其附屬中山醫院等多家機構聯合組建的科研團隊,致力於利用人工智能技術,提升藥物發現關鍵環節的效率和精度,探索其優化與革新的可能性。


近期,該團隊發佈了一個被定義爲“自進化虛擬疾病生物學家”(Self-Evolving Virtual Disease Biologist)的多智能體(Multi-agent)系統。它能夠以規模化的方式,系統性地識別具有清晰機制的、原創性的治療靶點,爲加速藥物開發提供了一個全新的範式。


這項被命名爲“元生”(OriGene)的多智能體系統由五個專門的 AI 智能體組成:協調智能體(Coordinator Agent)負責分析和分解用戶查詢;規劃智能體(Planning Agent)確定使用哪些專業工具;推理智能體(Reasoning Agent)綜合多模態輸出並識別關鍵關係;批評智能體(Critic Agent)對模型結論進行批判性分析;報告智能體(Reporting Agent)將複雜的研究發現轉化爲清晰的報告。



圖丨 OriGene 的總體框架、自進化機制和基準測試過程(來源:bioRxiv)



特別值得一提的是,OriGene 採用了獨特的“思維模板”(thinking template)機制。該論文共同通訊作者、上海交通大學鄭雙佳助理教授鄭鄭雙佳向 DeepTech 表示,目前的 AI 系統雖然在工具調用方面表現出色,但在複雜的邏輯推理上仍可能出現偏差。因此,團隊從大量生物信息學研究論文中提取了專家的推理模式,形成結構化的思維模板來引導 AI 的推理過程。“這就像給 AI 配備了一位經驗豐富的導師,確保它按照科學的方法論來分解問題和選擇工具。”


OriGene 的另一個突破性創新是其雙重自進化能力。在單個問題解決層面,系統通過迭代的任務分解、工具利用、反思和重新規劃過程,不斷優化答案質量。當系統處理複雜的生物學問題時,會像 DeepResearch 方法一樣,通過增加計算資源和迭代次數來提升響應質量。實驗表明,將計算成本增加九倍時,系統在基準測試上的準確率從 62.81% 提升到了 78.39%。


更重要的是,OriGene 還具備系統級的自進化能力。系統能夠從自己生成的高質量解決方案中提取新的思維模板,不斷擴充和優化其推理能力。“這創造了一個良性循環:高質量的輸出成爲模板提取的輸入,生成具有增強推理模式的第二代模板。”鄭雙佳說,“這種多代模板演化使得 OriGene 能夠在沒有傳統模型重新訓練的情況下,持續提升其能力。”


爲了客觀評估 OriGene 的性能,研究團隊構建了目前靶標發現領域最大的基準測試集 TRQA(Target Research Question-Answering),包含 1915 個專家級別的問答對,涵蓋了廣泛的疾病和靶標類型範圍。在測試中,OriGene 的表現超越了人類專家、通用語言模型(如 GPT-4o 和 DeepSeek-V3),以及現有的專業 AI 智能體系統。



圖丨用於評估生物醫學知識和靶標識別能力的靶標研究相關問答(TRQA)基準(來源:bioRxiv)


OriGene 的另一個突出特點是其龐大的工具生態系統。系統集成了超過 500 種專業工具和 18 個精選的生物醫學數據庫,形成了一個統一的分析框架。這些工具涵蓋了疾病生物學、基礎生物學、藥理學和競爭格局分析四個關鍵領域。通過 MCP(Model Context Protocol)協議,系統能夠靈活調用從 ClinVar(臨牀變異數據庫)到 AlphaFold(蛋白質結構預測)等各種專業資源。


OriGene 的真正價值在實際應用中得到了驗證。團隊將 OriGene 應用於肝癌(HCC,Hepatocellular Carcinoma)和結直腸癌(CRC,Colorectal Cancer)的靶標發現,成功識別出了兩個原創治療靶標:GPR160 和 ARG2。


在肝癌研究中,OriGene 從 125 個初始候選靶標中,通過多輪迭代分析,最終鎖定了 GPR160。系統分析顯示,GPR160 在肝癌組織中顯著高表達,且其表達水平與患者的無復發生存期(Recurrence-Free Survival)呈顯著負相關。後續的實驗驗證完全證實了 OriGene 的預測:GPR160 抑制劑不僅能直接殺傷肝癌細胞,還能顯著激活 T 細胞的抗腫瘤免疫反應。


“我們發現 GPR160 抑制劑在病人來源的類器官(Patient-Derived Organoids)中表現出了很好的抗腫瘤活性。”鄭雙佳介紹說,“在人源化小鼠模型中,GPR160 抑制劑顯著抑制了腫瘤生長,同時促進了 CD4+ 和 CD8+ T 細胞向腫瘤微環境的浸潤。”


在結直腸癌的研究中,OriGene 同樣展現了出色的靶標發現能力。系統從 86 個候選靶標中識別出了 ARG2,並制定了完整的實驗驗證策略。實驗結果表明,ARG2 抑制劑在 4 例轉移性結直腸癌病人來源類器官中都顯示出了顯著的抗腫瘤活性。



圖丨 OriGene 自主發現和初步驗證 ARG2 作爲 CRC 治療靶點(來源:bioRxiv)


這些發現的意義不僅在於找到了新的治療靶點,更重要的是證明了 AI 系統能夠自主完成從海量數據分析到實驗方案設計的完整流程。


當然,作爲一個開創性的系統,OriGene 仍然面臨一些挑戰。鄭雙佳表示:“我們的工具調用其實還不夠好,由於工具數量龐大,很多衝突的結論讓 AI 難以判斷哪個更準確。”針對此,團隊正在通過強化學習和自進化系統來解決這一問題。


另一個重要挑戰是數據資源的擴展。“我們現在接入了一些開源工具,但在升級版本中,我們已經和多家商業數據/情報庫公司建立了合作。”鄭雙佳透露,“通過我們平臺,這些公司願意將數據以 API 形式提供給我們,以更好地發現新的靶標。”


安全性也是團隊高度重視的問題。“由於系統過於通用,如果有人想要往不良方向使用,比如提出與健康無關的有害建議,我們現在的防禦措施還不夠完善。”鄭雙佳表示,團隊正在加強安全性過濾機制的開發。


團隊計劃在今年 7 月的世界人工智能大會上正式發佈這一系統。“我們希望通過這個工作讓領域內的研究者看到,中國在這個方向上也在積極探索,並且已經取得了不錯的進展。”


日前,相關研究成果以《OriGene:一種自動進行治療靶點發現的自我進化虛擬疾病生物學家》(OriGene: A Self-Evolving Virtual Disease Biologist Automating Therapeutic Target Discovery)爲題,發佈於預印本平臺 bioRxiv。


上海交通大學、臨港實驗室聯合培養研究生張仲嶽和周卓敏,復旦大學智能複雜體系實驗室本科生邱子傑,復旦大學附屬中山醫院博士生吳英成,西湖大學工學院博士後李舒雅和臨港實驗室青年研究員王鼎言爲共同第一作者。


海人工智能實驗室青年科學家白磊,復旦大學附屬中山醫院高強教授,復旦大學、上海人工智能實驗室研究員孫思琦,上海交通大學院助理教授、臨港實驗室雙聘研究員鄭雙佳擔任共同通訊作者。



圖丨相關論文(來源:bioRxiv)



參考資料:

1.https://www.biorxiv.org/content/10.1101/2025.06.03.657658v1

2.https://gentel-lab.github.io/OriGene-Homepage/

Scroll to Top