非編碼RNA(Non-coding RNA)是指不編碼蛋白質的RNA。其中包括rRNA,tRNA,snRNA,snoRNA和microRNA等多種已知功能的RNA,還包括未知功能的RNA。這些RNA的共同特點是都能從基因組上轉錄而來,但是不翻譯成蛋白,在RNA水平上就能行使各自的生物學功能了。
2017年2月28日,國際學術期刊Briefings in Bioinformatics發表了中國科學院北京生命科學研究院趙方慶團隊題為“Circular RNA identification based on multiple seed matching”的最新研究成果。目前環形RNA的識別存在著假陽性率高、敏感度不夠等問題,該研究提出了全新的多重種子匹配算法及最大似然估計模型,可以精確識別環形RNA接頭序列,顯著提升環形RNA識別效率。
目前已有的環形識別算法均基于對環形RNA接頭序列的查找,可分為基于注釋的算法以及從頭預測的算法。然而,由于真核生物轉錄的復雜性及環形RNA分子的特殊性,兩類識別算法均面臨著靈敏度低、可靠性差、運算時間長或內存使用高等問題,其應用也因此受到限制。此外,對上述識別算法的評價體系卻仍主要依賴模擬數據,難以對相關算法在真實轉錄數據中的表現進行客觀衡量。
針對此現狀,趙方慶團隊提出基于多重種子匹配策略的算法,針對比對質量較低的基因組區域,按長度降序進行種子序列提取,并將之與前后側翼基因組區域進行快速匹配。同時,建立了最大似然估計模型,判斷該種子序列的真實來源,并排除來自線性轉錄本或剪接副產物的干擾,從而極大提高了環形RNA分子識別的精度。該研究摒棄了偏差較大的模擬數據評測方法,采用 RNase R降解前后真實轉錄數據的比對體系,對10種已有算法進行全面的評測比較。結果顯示本研究建立的方法在包含靈敏度與可靠性在內的綜合表現(F1得分)上具有明顯的優勢,其并行模式還可進一步提升運算速度及內存使用效率。該算法與此團隊開發的CIRI, CIRI-AS等分析工具(Genome Biology, 2015; Nature Communications, 2016)實現無縫銜接,將進一步促進環形RNA組成及功能等方面的研究。
該工作由趙方慶課題組的研究生高遠和張金陽完成,得到了國家自然科學基金委和中國科學院的經費支持。
標簽:
相關資訊