可能改變未來的一項技術之一是基因科技,據麥卡錫去年發布的一份報告,預計到2025年,全球將會累計產生10億人次的全基因組數據,而檢測基因的成本將下降到接近為0。在可以預見的未來,基于深度學習的基因檢測算法將會有更大的施展空間。
考慮到每一個人的全基因組數據將會達到100G,如何對這些海量數據的解讀,現有的生物信息方法基于統計學模型,而12月20日來自谷歌子公司Deepmind的科學家發表了一篇論文,提出一個名為DeepVariant的檢測工具,使用深度神經學習中的卷積神經網絡CNN來檢查基因組上的單堿基突變(SNP)和小的插入缺失(Indel),其準確性超越了當前主流的生物信息學軟件GATK。而在12月30日,來自康奈爾大學的另一組研究者又獨立的發表了一篇用類似方法檢測基因變異的軟件。兩篇論文的爆發式出現,彰顯了深度學習在基因組數據挖掘領域的巨大潛力。
每個人的體內都包含著3億對堿基,這些堿基的排列方式決定了我們從生老病死的方方面面,找到了你的基因組的差異之處,可以幫助我們了解我們的疾病的易感性,也可以知道我們的個體特征。對基因數據的傳統分析方法,基于貝葉斯統計和專家的經驗,針對不同的檢測物種,需要很多人工的調節和試錯,并且針對不同的測序平臺,也需要進行特異性的配置。而基于深度學習的方法,巧妙的利用了圖像識別領域成熟的技術,不止可以以通用的學習流程達到了現行軟件相同的水平,更獲得了由美國FDA監管的SNP檢測算法比賽的第一名。由于這兩項研究都還處于初期,考慮到深度學習算法巨大的提升空間,在可以預見的未來,基于深度學習的基因檢測算法將會有更大的施展空間。
而在表觀遺傳學上,深度學習工具DeepCpG則可以根據基因序列預測單細胞層面是否會出現甲基化。在小鼠的胚胎干細胞上驗證后,DeepCpG的表現優于現有的其他軟件。甲基化會影響基因是否表達,而諸多啟動子和增強子(DNA序列中的調控區)與其調控的基因之間的相互作用則會影響基因的表達數量。同樣是基于深度學習的SPEID基于基因序列預測啟動子和增強子之間的相互作用,這是第一個基于基因序列來預測啟動子和增強子的軟件,其效果優于基于基因功能做出的預測。
傳統的基因組關聯分析(GWAS)大多只能檢測一個點突變(SNP)與所研究疾病的關系,而DeepWAS,這一新提出的框架則能夠根據功能單元,選擇出一組SNP的集合,來更加綜合的研究治病的基因突變,并能直接的尋找調控區域的基因突變。在一項針對抑郁癥的研究中,使用DeepWAS框架的新研究發現了一個新的控制抑郁癥的主要基因MEF2C。
以上列出的5項研究,都來自與2016年下半年,而在2017年1月,又有一篇基于CNN的文章嘗試預測HLA基因與多肽的相互反應。這些文章雖然都來自于論文預印本,沒有經過正規的同行審查,但不同領域的大規模井噴式爆發,也顯示了該領域的巨大潛力。隨著基因組數據的大量積累,以及深度學習開源平臺的普及,未來深度學習必將成為生物信息領域的“一股清流”,為人類的健康做出貢獻。
標簽:
相關資訊