科學家開發同源三聚體標記和錨固增強方法,提高第三代測序精度

由 DeepTech深科技 發佈於 科技

'25-06-15

近期,英國牛津大學團隊連續開發出兩項互補的測序糾錯系列技術,“同源三聚體標記”(測序後糾錯)和“錨固增強”(測序前糾錯)技術,分別從分子標記設計和合成源頭兩個層面出發,協同提升單細胞長讀長測序的準確性。


通過擴增核苷酸三倍,課題組設計了同源三聚體分子標記,並開發了實驗和計算分析流程。


研究人員從密碼學汲取靈感,提出了一套適用於同源三聚體分子標記的研究體系:


1. 實驗和計算分析版本(即本次受訪內容);


2. 計算工具和平臺(UMIche,目前在審稿中),提供了關鍵性的測序性能分析和驗證指標;


3. 理論推導(預印版)[3]。


目前,同源三聚體標記已發展成爲相對較全地具有上下游分析配合的測序技術方案。


在論文投稿過程中,業內專家點評稱在單細胞長讀長測序和體細胞變異檢測中,這項技術將會大有可爲。並認爲該團隊使用“通用分子標記,CMI”在實驗端做驗證的策略,是一種巧妙的點子(ingenious idea)。其還指出在目前的論文中,課題組所提供的糾錯場景可能侷限了這一方法的潛力,事實上它能被用於更加複雜的糾錯場景中,例如插入和缺失錯誤。


基於這一技術,該團隊創辦了一家名爲 Entelo Bio(前身爲 Caeruleus Genomics)的生物科技公司,希望能夠革新已有的測序技術。


目前,本次成果依舊存在生產成本高以及合成偶聯率低等侷限,這讓同源三聚體的量產依舊面臨着不少挑戰。


因此,研究人員正在攜手業界合作方,探索實現量產的可能性。


在計算上和實驗上,本次技術的先進性均得到了驗證。假如可以實現量產,它能快速、精確地檢出腫瘤生物標誌物,也能通過催化方法找到新的藥物分子,並優化其結構的速度,並能成爲業界一個重要且獨立的商業運行單元。


據介紹,測序技術對於理解複雜的生命科學現象以及闡釋疾病致病機理是一種重要手段。


測序時,通常使用一個名爲“分子唯一標記碼”的序列,來標記待測物的身份。


但是,這段序列是隨機合成,並且也會出現測錯的情況,所以在測序之後的糾錯就會變得非常困難。


而本次研究的開展始於一項臨時實驗的提議。德國慕尼黑工業大學博士、英國牛津大學博士後孫鑑鋒,是本次論文的第一作者。


當他剛到牛津大學報道的第一天,合作教授亞當·克里布斯(Adam P. Cribbs)剛好於同一天刊發了一篇關於第三代測序糾錯技術(scCOLOR-seq)的論文。於是,兩人的不少談話內容都涉及到了測序糾錯這一話題。


當天,克里布斯教授在身旁的白板上比劃了幾下,寫下幾個二重和三重同源核苷酸字符,並對孫鑑鋒說:“我對量子計算很感興趣,但是我沒有相關的理論和計算背景,這個項目難度未知,但我覺得實驗上大體可行,數理計算是你的專長,你也許可以做出一番不一樣的工作來,要不要試試?”


密碼學和信息論算是孫鑑鋒本科期間重點專業課之一,他立刻意識到克里布斯教授模棱兩可的地方正是著名加密方法“三重冗餘模塊”算法擴展到非二元系統的應用問題,因此他覺得“可以動工”。


彼時,著名的牛津納米孔測序技術還沒有迭代到最新版本,平均錯誤率依舊高達 15% 左右,在特定情形下錯誤率甚至會迅猛激增。


因此,要想在這麼高的錯誤率之下進行糾錯,並能實現精準測序着實讓人望而卻步,在該團隊眼中必須得有“妙手回春”的技術纔行。


通過開發和驗證完整的實驗和計算方法,他們最終有效提升了測序技術的精度。


該系列研究的第一項成果“同源三聚體標記”技術的相關論文以《糾正唯一分子標識符中的 PCR 擴增錯誤,以生成準確數量的測序分子》(Correcting PCR amplification errors in unique molecular identifiers to generate accurate numbers of sequencing molecules)爲題發在 Nature Methods[1]。



圖 | 相關論文(來源:Nature Methods)


孫鑑鋒是第一作者,牛津大學教授亞當·克里布斯(Adam P. Cribbs)擔任通訊作者。



圖 | 孫鑑鋒(來源:孫鑑鋒)


在論文被預接收之時,Nature Methods 編輯團隊表示,打算邀請第三方專家爲本次研究額外撰寫一個評論並發表在 Nature Methods 上。


在那篇評論文章中,由一名 RNA 測序精度方面的頂尖專家之一對本次論文做了簡評。


“其實,在更早之前的審稿階段,他就對我們的成果持積極態度。”研究人員表示。另一位業內同行則評論稱:“該技術理論層面的可靠性,在其他領域中也已經得到了驗證和支持”。


研究人員表示,當採用逆轉錄來合成 RNA 序列的時候,會引入一些錯誤,而本次測序技術解決了這一問題。


在“同源三聚體標記”技術發表之後,課題組又討論了這樣一個問題:難道測序之後的序列錯誤,僅僅是在測序過程中引入的嗎?假如在對唯一分子標識符進行測序之前出現問題了怎麼辦?


這個問題的產生源自於該研究團隊在一次單細胞測序實驗後對文庫中分子數量的異常檢測:他們觀察到細胞條形碼的多樣性增多,而分子標記(又稱分子條形碼)的多樣性減少。於是,他們懷疑測序文庫的污染可能跟序列的異常截短或是縮進有關。


針對這一問題,該團隊又開展了新的研究,藉此發現在測序之前:由於微珠上多聚核苷酸 T 的縮進從而導致分子標記被截短,使得微珠上整條序列合成出現問題。


針對此,他們提出一種名爲“錨固增強”的技術,將一段由 4 個核苷酸組成的固定序列置於細胞條形碼和分子標記之間,從而有效識別分子標記起始位置。


這個設計方案能夠偵測到比以往更多的 RNA 分子量,爲難以偵測到罕見病致病基因的問題提供了新的思路和機遇。


該系列研究的第二項成果“錨固增強”技術的相關論文以《利用插入式錨固寡核苷酸序列提升單細胞轉錄組學分析》(Enhancing single-cell transcriptomics using interposed anchor oligonucleotide sequences)爲題發在 Communications Biology[2]。



圖 | 相關論文(來源:Communications Biology)


在後續計劃上:


一方面,鑑於本次技術的可靠性已經得到驗證,但是距離批量化生產和應用還有一定距離,因此他們將嘗試增強合成同源三聚體的效率,以及優化其在微珠的附着效率,同時也會尋找更多合適的業界合作伙伴。


另一方面,儘管研究團隊已經開展過多種計算分析,但是目前領域內依舊沒有系統化的計算分析方法和平臺。所以,他們會持續開發新的計算應用方法。


如果以上兩項計劃都能實現,這兩項分別用於測序前和測序後糾錯的系列技術將有望在揭示罕見病致病機理上進行協同貢獻,也有望在已有的疾病知識體系之下挖出新的知識。


參考資料:

1. Sun, J., Philpott, M., Loi, D. et al. Correcting PCR amplification errors in unique molecular identifiers to generate accurate numbers of sequencing molecules. Nat Methods 21, 401–405 (2024). https://doi.org/10.1038/s41592-024-02168-y

2. Sun, J., Philpott, M., Loi, D. et al. Enhancing single-cell transcriptomics using interposed anchor oligonucleotide sequences. Commun Biol 8, 67 (2025). https://doi.org/10.1038/s42003-025-07474-5

3.https://www.researchsquare.com/article/rs-6710367


運營/排版:何晨龍

Scroll to Top