此为历史版本和 IPFS 入口查阅区,回到作品页
生物之聲
IPFS 指纹 这是什么

作品指纹

Nature | 癌基因突變機器學習模型:BoostDM

生物之聲
·
·

關於癌症基因突變目前已經有了一些較為詳盡的數據庫,但是目前想要識別驅動腫瘤發生的基因的特定突變仍然是一個尚未解決的問題。因此,大多數在腫瘤中癌症基因驅動突變對於腫瘤發生的意義尚不明確。可能的解決方式是通過成千上萬的腫瘤實驗中觀察到的突變,對其在個體和組織複製的致癌潛能進行檢測,並利用這些突變的對驅動腫瘤發生的能力進行評估。




2021年7月28日,The Barcelona Institute of Science and Technology的Nuria Lopez-Bigas、Abel Gonzalez-Perez以及Ferran Muiños(第一作者)合作發文題為In silico saturation mutagenesis of cancer genes,建立了一個可以用於計算和描述每個癌症基因和組織中腫瘤發生機制的特徵的機器學習模型BoostDM,並利用該模型對癌症基因中的驅動突變藍圖進行刻畫,對於患者腫瘤測序結果提供解釋並對腫瘤基因跨組織發生腫瘤的機制提供了研究的平台。




腫瘤的發生是體細胞變異與選擇之間相互作用的結果。 2015年,癌症基因組學研究中對數以萬計的腫瘤基因組進行了測序,揭示出不同的突變對於腫瘤發生的作用,並表明不同腫瘤中,有五百多個基因處於正向選擇之中。然而,目前想要對乘客突變(Passenger mutations)以及驅動突變(Driver mutations)進行辨別在很大程度上仍然是一個懸而未決的難題。在腫瘤中觀察到的大約90%的癌症基因變異對惡性腫瘤的發生髮展的意義尚未可知。




為了建立對腫瘤體細胞突變的機器學習模型,作者們收集了66種癌症約28,000個腫瘤的體細胞突變,並鑑定發現了568個腫瘤突變基因。其中作者們最初鑑定發現了282個基因-組織的組合,可以對觀測的突變進行機器學習訓練同時對該突變驅動作用的能力進行估計。作者們計算了一個發現指數(Discovery index),發現指數範圍是0-1表示的是當腫瘤類型的新樣本被測序時,影響基因的突變之前被識別的概率。這個發現指數構成了對腫瘤類型中所有潛在驅動突變的癌症基因中觀察到的突變代表性的一個衡量。驅動突變位點較少的癌基因發現指數的數值就會比較高。在這282個基因-組織的組合中,作者們將觀察到的每一個突變構成了訓練機器學習模型的集合,通過這些模型來對驅動突變進行描述。然後,我們根據描述癌症基因發生腫瘤機制的18個特徵,為282個基因組織組合中的每一個建立了特定的模型。這些跨基因組織的組合模型的集合構成了BoostDM(圖1)。



在構建了BoostDM機器學習方法後,作者們對該方法的有效性進行了交叉驗證。作者們發現一般來說由更大的訓練集和更大的發現指數所建立的模型會表現出更好的性能。隨著更多的腫瘤隊列被測序,可用模型的數量和質量將會增加。為了進行跨腫瘤類型的癌症基因飽和突變,作者們選擇了185個驅動突變具有良好代表型的模型進行交叉驗證。 BoostDM模型對於經實驗驗證的癌症基因的罕見突變進行了準確分類,說明BoostDM模型的良好性能。另外,作者們還比較了TP53、KRAS、NRAS、HRAS和PTEN模型在腫瘤類型中的表現與四種不同飽和誘變試驗中的性能。通過橫向比較,作者們發現BoostDM模型優於目前已有的7種設計用於識別驅動突變或評估其功能影響的計算方法,並在腫瘤抑制基因和註釋的致病和良性變異的實驗驗證突變分類中表現良好。




隨後作者們希望將該BoostDM模型應用於癌症驅動基因藍圖的繪製,從而可以對不同腫瘤種類中的驅動突變進行總結,並可以理解不同癌症基因的腫瘤發生機制,對其序列的特徵分佈進行進一步地刻畫(https://intogen.org/boostdm)。進一步地,作者們對於腫瘤基因的突變概率傾向性(Mutation probability bias)進行了檢測,發現腫瘤抑制基因總體上推按概率比癌基因表現出明顯更強的偏向性。




BoostDM機器學習方法中所描述的腫瘤類型特異性模型,可以與其他相關腫瘤類型突變訓練數據集的模型進行相互補充,並可以應用於將腫瘤患者中的突變分為驅動突變以及乘客突變,這是癌症藥物精准開發的關鍵步驟。 BoostDM模型已被納入癌症基因組破譯系統(Cancer genome interpreter),可以將癌症基因組中識別的突變進行分類。




總的來說,作者們的工作發現,受到進化生物學啟發而建立的機器學習方法BoostDM對於建立高質量的癌症基因突變的分類器是可行的,該模型從目前已有的人類腫瘤突變中進行學習和訓練,以識別癌症基因的驅動突變。在未來,該方法會隨著被測序的腫瘤樣本的增加而進一步提供更加高質量的檢測模型,為癌症的治療提供新的參考。




原文鏈接:


https://doi.org/10.1038/s41586-021-03771-1

CC0 公众领域贡献宣告