蛋白質藥物生產成本有望大幅降低!MIT用大模型優化酵母密碼子

由 DeepTech深科技 發佈於 科技

'26-03-03

(來源:麻省理工科技評論)


工業酵母是蛋白質生產領域的主力軍,廣泛用於疫苗、生物製藥及其他有用化合物的製造。在一項新研究中,MIT 化學工程師藉助 AI 優化了新型蛋白質生產工藝的開發流程,有望降低這類藥物的整體開發和生產成本。


研究團隊利用大語言模型(LLM)分析了工業酵母卡氏酵母(Komagataella phaffii)的遺傳密碼,重點考察了其所使用的密碼子。密碼子是由三個鹼基組成的 DNA 序列,用於編碼特定氨基酸,每種氨基酸可由多種密碼子編碼,且不同生物體的密碼子使用規律各不相同。


MIT 團隊開發的新模型學習了卡氏酵母的密碼子使用規律,並據此預測哪些密碼子最適合生產特定蛋白質。研究人員藉助這一方法,成功提升了酵母生產六種不同蛋白質的效率,包括人類生長激素和一種用於治療癌症的單克隆抗體。


“擁有能夠持續表現穩定的預測工具,對於縮短從創意到投產的時間至關重要。消除不確定性,歸根結底就是節省時間和金錢,”MIT 化學工程系雷蒙德·A.與海倫·E.聖-洛朗講席教授、科赫綜合癌症研究所成員、MIT 新制造業計劃(MIT INM)聯合學術主任 J.克里斯托弗·洛夫(J.Christopher Love)說。


洛夫是這項新研究的通訊作者,論文本週發表於《美國國家科學院院刊》。MIT 前博士後哈里尼·納拉亞南(Harini Narayanan)爲論文第一作者。


卡氏酵母和釀酒酵母(Saccharomyces cerevisiae,即麪包酵母)是生物製藥行業的核心生產平臺,每年生產數十億美元規模的蛋白質藥物和疫苗。


研究人員在對酵母進行工業蛋白質生產改造時,需從其他生物體中提取目標基因(如胰島素基因),並對其進行改造,使酵母能夠大量表達該蛋白質。這一過程涉及爲酵母細胞設計最優 DNA 序列、將其整合到酵母基因組、制定有利的培養條件,最終純化目標產物等多個環節。


對於新型生物製品藥物而言,這類大型複雜藥物由活體生物產生,上述開發流程可能佔藥物商業化總成本的 15% 至 20%。


“目前,這些步驟全部依賴繁瑣的實驗操作,”洛夫說,“我們一直在思考:能否將機器學習領域湧現的新理念引入進來,使這一流程的各個環節更加可靠、更易預測。”


在這項研究中,研究人員嘗試優化目標蛋白質基因的 DNA 密碼子序列。自然界中存在 20 種氨基酸,但密碼子序列多達 64 種,因此大多數氨基酸可由不止一種密碼子編碼。每個密碼子對應一種特定的轉運 RNA(tRNA)分子,負責將相應氨基酸攜帶至核糖體,氨基酸在那裏被串聯合成蛋白質。


不同生物體使用各類密碼子的頻率不同。工程蛋白質的設計者通常會選擇宿主生物體中出現頻率最高的密碼子,以優化目標蛋白質的生產效率。然而,這種做法未必能獲得最佳結果。例如,如果始終使用同一種密碼子編碼精氨酸,細胞內對應的 tRNA 分子可能會出現供應不足。


爲採取更精細化的優化策略,MIT 團隊引入了一種編碼器-解碼器架構的大語言模型。研究人員用該模型分析 DNA 序列,學習特定基因中密碼子的使用規律,而非分析文本。


訓練數據來自美國國家生物技術信息中心的公開數據集,涵蓋卡氏酵母天然產生的約 5000 種蛋白質的氨基酸序列及對應 DNA 序列。


“模型學習的是這些密碼子使用方式的語法或語言規則,”洛夫說,“它不僅考慮了相鄰密碼子之間的關係,還捕捉了密碼子之間的長程關聯。”


完成訓練後,研究人員讓模型對六種蛋白質的密碼子序列進行優化,包括人類生長激素、人血清白蛋白,以及用於治療癌症的單克隆抗體曲妥珠單抗。


研究團隊還使用四種市售密碼子優化工具生成了上述蛋白質的優化序列,並將所有序列分別導入卡氏酵母細胞,測量各序列對目標蛋白質的產量貢獻。結果顯示,六種蛋白質中有五種的最優序列來自 MIT 新模型,另一種中 MIT 模型排名第二。


“我們確保涵蓋了密碼子優化的多種不同方法論,並與我們的方案進行了基準比較,”納拉亞南說,“通過實驗對比,我們證明了我們的方法優於其他方案。”


卡氏酵母原名畢赤酵母(Pichia pastoris),用於生產數十種商業產品,包括胰島素、乙型肝炎疫苗,以及一種用於治療慢性偏頭痛的單克隆抗體,還被用於生產添加至食品中的營養物質,如血紅蛋白。


洛夫實驗室的研究人員已開始使用這一新模型優化卡氏酵母的目標蛋白質,並已將代碼公開,供其他研究人員用於卡氏酵母或其他生物體的相關研究。


研究團隊還在包括人類和牛在內的不同物種數據集上測試了這一方法。各物種模型生成的預測結果各不相同,表明需要針對不同物種建立專屬模型,纔能有效優化目標蛋白質的密碼子。


通過深入分析模型的內部工作機制,研究人員發現,模型似乎自主習得了基因組運作的部分生物學原理,包括一些研究人員並未主動教授的內容。例如,模型學會了避免引入負性重複元件,即可能抑制附近基因表達的 DNA 序列;同時還學會了根據疏水性和親水性等特徵對氨基酸進行歸類。


“它不僅學習了這種語言,還通過生物物理和生物化學特徵對其進行了情境化理解。這讓我們更加確信,模型學到的是真正有意義的內容,而非僅僅在優化我們交給它的任務,”洛夫說。


原文鏈接:

https://news.mit.edu/2026/new-ai-model-could-cut-costs-developing-protein-drugs-0216

Scroll to Top