隨著高通量測序技術的普及,基因檢測已成為罕見病、腫瘤等疾病診斷的重要手段。
但現有分析工具如CADD、Capice等,大多只能判斷基因突變是否"有害",卻難以確定它具體會導致什么疾病。臨床實踐中,醫生面對患者基因組中的數千個變異位點,往往需要逐一排查,不僅耗時費力,還容易遺漏關鍵致病基因,常導致診斷延遲甚至誤診。
同時,傳統工具“偏科”——有的只能測單個堿基改變(SNVs),有的測不了基因片段增減(indels),還有的只能分析基因編碼區的變異,進一步限制了診斷覆蓋面。
二、V2P如何通過基因變異精準判斷疾病?
V2P的核心突破是搭建了能同時處理多個任務的機器學習模型,實現“基因變異-疾病類型”的直接匹配。與傳統工具相比,其技術優勢體現在三個關鍵維度:
1、預測維度
傳統工具只能給個“這個變異可能有害”的模糊結論,醫生還是要靠經驗猜疾病。
而V2P不一樣,它能給出兩個關鍵答案:先判斷變異是“良性”(無害)還是“致病”(有害);再精準輸出23種常見遺傳疾病類型(HPO)的發生概率,涵蓋了神經系統異常、腫瘤、肌肉骨骼問題、代謝疾病等主要類別,基本能覆蓋大部分遺傳性疾病。


2、適用范圍
V2P解決了傳統工具的“偏科”問題,可同時處理全基因組范圍內的SNVs和indels,無論是編碼區還是非編碼區的變異,都能提供精準預測。
這背后是它的“海量訓練基礎”——模型用了25萬多個已知致病變異(來自HGMD數據庫)和24萬多個良性變異(來自gnomAD數據庫)做訓練,覆蓋6620個基因,確保不管遇到哪種變異,都有足夠數據支撐判斷。


3、技術架構
V2P不會只看單一線索,而是收集了基因、蛋白質及變異相關的282類關鍵特征,綜合判斷。
比如基因的功能、蛋白質的結構形態、這個基因在進化中是否高度保守(越保守說明越重要,變異后越可能致病);還有基因在哪些組織里活躍表達、表觀遺傳修飾等。
更智能的是,它會通過專門的篩選技術(Boruta算法)和重要性分析工具(Shapley值),自動挑出和每種疾病最相關的特征。比如發現肌肉骨骼疾病相關的基因,大多和關節攣縮、肌病等疾病通路有關;皮膚疾病相關的變異,往往在皮膚組織高表達——靠這些“線索”,進一步提高判斷精準度。

三、臨床實測:精準度碾壓傳統工具
衡量基因診斷工具價值的核心是臨床實用性,V2P在多項實測中展現出遠超傳統工具的性能。




為了更直觀呈現其優勢,做了個表格:

(注:AP值為平均精度,越高代表預測越精準;中位排名越靠前,代表致病變異篩選效率越高)
從表格數據可見,V2P的優勢貫穿“變異判斷-表型預測-臨床應用-功能驗證”全流程。在患者實測中,其能將致病變異快速篩選至前2位,這意味著醫生借助V2P,無需篩選大量“嫌疑”變異,就能快速鎖定致病元兇。
四、行業影響
如今西奈山團隊已在www.v2p.ai網站開放了V2P的預測功能,提供hg38參考基因組所有SNV和gnomAD數據庫indels的預計算分數,方便科研和臨床機構接入使用。
V2P工具的問世,不僅解決了遺傳診斷中的“精準定位”難題,更將對醫療器械行業和精準醫療領域產生深遠影響。
對于臨床診斷設備企業而言,V2P可集成到新一代基因測序儀中,打造“測序-分析-診斷”一體化解決方案,大幅提升診斷設備的附加值。
在罕見病診療領域,V2P能將患者的基因檢測結果與臨床表型快速匹配,縮短確診時間,降低診斷成本。
對于藥物研發企業,該工具可精準定位與特定疾病表型相關的基因和通路,為靶向藥物開發提供明確靶點,尤其對缺乏有效治療手段的罕見病和復雜疾病而言,這一突破有望加速新藥研發進程。
目前,V2P主要能將突變大致歸類為神經系統疾病、癌癥等寬泛類型。研究團隊計劃進一步優化該工具,以實現對更具體疾病的預測,同時整合其他數據源(如蛋白質互作網絡、組織特異性表達等),以支持藥物研發。
隨著數據的不斷積累和算法的持續優化,V2P有望成為精準醫療領域不可或缺的工具,為遺傳病診斷和治療帶來革命性變化。
「參考文獻」
Stein, D., Kars, M.E., Milisavljevic, B. et al. Expanding the utility of variant effect predictions with phenotype-specific models. Nat Commun 16, 11113 (2025).