FDA日前通過在線平臺precisionFDA舉辦了“ConsistencyChallenge”活動,目的是測試遺傳研究中最常用軟件工具的精確度和可重復(fù)性。在白宮舉行的國家精準醫(yī)療計劃峰會上,奧巴馬總統(tǒng)的科學(xué)技術(shù)高級顧問JohnHoldren宣布了這項活動。
precisionFDA是一個分析軟件的測試平臺,測試那些將原始DNA序列數(shù)據(jù)處理成有用信息的分析軟件。該平臺在去年12月推出,包含了用戶可用來重復(fù)的基因組數(shù)據(jù)的黃金標準的集合;用于大量測序數(shù)據(jù)分析流程運行的計算環(huán)境;以及與廣大的科學(xué)界人士共享分析流程和結(jié)果的版塊。雖然這個平臺是由FDA管理,但是平臺的開發(fā)工作是外包給私人公司DNAnexus的。
“ConsistencyChanllenge”是preicisonFDA發(fā)起的第一個倡議,用于測試基因組學(xué)中一些主流算法流程。該活動主要關(guān)注序列比對(mapping)和變異檢測(variantcalling)兩個方面,過程主要包括測序得到短DNAreads,比對到人類基因組參考序列上,檢測與參考序列不同的數(shù)據(jù)對應(yīng)的區(qū)域。
這是在幾乎所有人類基因研究中最基礎(chǔ)和最首要的分析。最終結(jié)果是一個VCF(VariantCallFormat)格式的文件,該文件中包含了個人基因組中檢測到的所有基因變異。實際上,由于技術(shù)局限性,這些文件中包含的往往只有小型的DNA變異,稱作SNP或者indel,不含有基因組的大型重組。
用于序列比對和變異檢測的標準工具是該領(lǐng)域使用最廣泛的軟件,包括BWA、Bowtie、GenomeAnalysisToolkit。
然而很難測試出哪一種分析軟件是最有效的。大多數(shù)的軟件是開源的,而且具有很多不同版本。生物信息學(xué)家也會將這些工具混合匹配起來創(chuàng)建新的流程,所以檢測結(jié)果的不一致可能是比對工具或變異檢測軟件的問題,又或者兩者都有。另外還存在著更多不太知名的工具能夠完成同樣的分析任務(wù)。
為了評估不同分析流程的性能,“ConsistencyChanllenge”將為所有參與者提供相同的原始數(shù)據(jù)進行分析。這些數(shù)據(jù)來自已經(jīng)研究的非常清楚地人類細胞系NA12878的測序結(jié)果。分析的結(jié)果將與“瓶中基因組(GenomeinaBottle)”項目提供的金標準VCF文件進行比較,該項目已經(jīng)詳盡的研究了NA12878,以用于各種類型的質(zhì)控。
多管齊下,對分析流程進行評估
不同于那些試圖梳理基因變異在健康和生物方面影響的高級軟件,生成VCF文件的流程產(chǎn)生出的結(jié)果清晰,能夠?qū)ζ溥M行非常客觀的評估。DNAnexus公司戰(zhàn)略發(fā)展部總監(jiān)GeorgeAsimenos說,“這不是一個非常復(fù)雜的挑戰(zhàn),通過處理大家熟悉的數(shù)據(jù),目的是為了促進人們參與到precisionFDA中,讓更多人知道這個平臺。”
雖然這項倡議很基礎(chǔ),但是挑戰(zhàn)在于如何對結(jié)果進行分析。
對VCF文件進行比較和評分不是一項簡單的任務(wù),因為科學(xué)家們描述與“正常”人類基因組序列的偏差的方式往往是模糊的。例如,一些變異是小型的缺失,即與參考序列比對時缺少了一個堿基。但是如果缺失發(fā)生在一串相同的堿基中(例如GAAAAT這樣的序列),那么就無法回答“缺失的是哪個A?”
這也就是說即使兩個VCF文件都描述了同樣的變異,但是也可能檢測出的是參考基因組上兩個不同位置的缺失。簡單的軟件程序常常會犯錯誤,認為這樣的VCF文件其中之一或者兩個都是錯誤的。
Asimenos認為,“在早期,我們認為最佳方法應(yīng)該是,讓相關(guān)組織告訴我們比較VCF文件的最佳方法,而不是FDA強制實行某種特定的方法。”根據(jù)GenomeinaBottle和全球基因組與健康聯(lián)盟(GA4GH)等組織的指導(dǎo)意見,F(xiàn)DA選擇了一款由RealTimeGenomics公司設(shè)計的軟件vcfeval,該工具已經(jīng)發(fā)表并且開源,可作為對流程打分的一個備選。
Vcfeval用一種上下文感知的方式讀取VCF文件,當(dāng)檢測到兩個變異為同義突變時會將其輸出。Asimenos說,“vcfeval分析需要完整的參考基因組序列來進行比較,事實上,這款軟件能夠檢測到很多不易察覺的信息。”一旦確定了提交的VCF文件與GenomeinaBottle提供的金標準文件存在的不同變異數(shù)量,vcfeval程序?qū)α鞒痰臏蚀_性進行打分。它將考慮陽性變異檢測、假陽性、假陰性以及更加細微的統(tǒng)計學(xué)概念,例如陽性預(yù)測率。
“ConsistencyChanllenge”并不是一項單一的、絕對的精確度量挑戰(zhàn)。Asimenos說,“FDA非常聰明地在挑戰(zhàn)中引入了一個重復(fù)性版塊。”參與者將分別對兩組不同的NA12878測序數(shù)據(jù)進行分析,一共進行三次。這兩組測序數(shù)據(jù)都是來自IlluminaHiseqXTen測序系統(tǒng),產(chǎn)自兩臺不同的測序儀。
通過兩組不同的數(shù)據(jù)對分析流程的性能進行比較,F(xiàn)DA希望能夠更好地展示,實驗條件的不同,例如測序儀操作人員和測序環(huán)境,會影響到最終的結(jié)果。該挑戰(zhàn)同樣也會評估當(dāng)同一組數(shù)據(jù)進行兩次運算產(chǎn)生兩個VCF文件時會發(fā)生什么。因為測序儀是同時進行大量的平行測序,沒有哪兩個測序過程是完全相同的,對遺傳學(xué)研究組織來說,最大的問題就是這樣會對整個分析造成多大的影響。
基因研究的真實性取決于準確檢測變異的能力。通過重復(fù)實驗,對不同測序儀產(chǎn)出的數(shù)據(jù)進行分析,同時與絕對標準數(shù)據(jù)進行比較,對分析流程的性能進行測試,precisionFDA將多管齊下地進行分析流程的評估。
齊心協(xié)力,來自不同組織的支持
越來越多的人要求FDA研究和批準用于病人診斷和治療的基因檢測,而為了能夠有效地進行研究,F(xiàn)DA需要弄清楚分析這些基因檢測的工具是否精準并且可重復(fù)。
“ConsistencyChallenge”并不是僅限于FDA內(nèi)部使用。如同F(xiàn)DA早期建立的網(wǎng)站平臺openFDA一樣,precisionFDA旨在廣泛分享知識,讓全球的科研人員受益。
雖然“ConsistencyChallenge”是公開的,但precisionFDA云平臺可以私下使用。即使是FDA也只能查看和評估用戶選擇了公開可見的流程。參與者可以在本地計算環(huán)境中生成VCF文件然后上傳,同時對流程中使用的工具進行說明;或者也可以在precisionFDA云平臺上運行整個分析流程,公開使用的所有軟件。
無論哪種方法,研究團體都將看到不同分析流程間的相互較量。這不僅僅能讓遺傳學(xué)家了解哪個開源工具更有效,更是讓那些各具優(yōu)勢但是不為人知的分析工具浮出水面。Asimenos說,“我希望這次活動將為那些正在開發(fā)新方法但是缺乏平臺展示的研究人員提供一個好機會。”
這種對遺傳學(xué)基礎(chǔ)工具的全面評估是我們急需的,而且大量的利益相關(guān)方已經(jīng)加強了對這方面的支持。其中有的是公立組織,有的是非盈利組織,例如GenomeinaBottle和GA4GH。其他還包括一些盈利性公司,例如DNAnexus、RealTimeGenomics、HumanLongevity(提供了一組NA12878測序數(shù)據(jù)),或者像Garvan研究所這樣的大型學(xué)術(shù)中心,Garvan研究所也提供了NA12878測序數(shù)據(jù)。
Asimenos列舉了其他六個對precisionFDA項目做出貢獻的組織機構(gòu),其中包括Illumina、23andMe以及Broad研究院等該領(lǐng)域的巨頭。他說,“這是大家共同努力的結(jié)果,我非常感激這些人能夠貢獻出他們的數(shù)據(jù)并且加入了這個網(wǎng)站。”
“ConsistencyChallenge”需要人們廣泛的參與來充分發(fā)揮這個項目的意義。競賽將會于4月25日向公眾開放,任何想來參加挑戰(zhàn)的人都可以報名,這項競賽將成為precisonFDA的第一個挑戰(zhàn)比賽,旨在評估用于人類基因組研究的軟件工具。
標簽:FDA
相關(guān)資訊