FDA日前通過在線平臺precisionFDA舉辦了“ConsistencyChallenge”活動,目的是測試遺傳研究中最常用軟件工具的精確度和可重復性。在白宮舉行的國家精準醫療計劃峰會上,奧巴馬總統的科學技術高級顧問JohnHoldren宣布了這項活動。
precisionFDA是一個分析軟件的測試平臺,測試那些將原始DNA序列數據處理成有用信息的分析軟件。該平臺在去年12月推出,包含了用戶可用來重復的基因組數據的黃金標準的集合;用于大量測序數據分析流程運行的計算環境;以及與廣大的科學界人士共享分析流程和結果的版塊。雖然這個平臺是由FDA管理,但是平臺的開發工作是外包給私人公司DNAnexus的。
“ConsistencyChanllenge”是preicisonFDA發起的第一個倡議,用于測試基因組學中一些主流算法流程。該活動主要關注序列比對(mapping)和變異檢測(variantcalling)兩個方面,過程主要包括測序得到短DNAreads,比對到人類基因組參考序列上,檢測與參考序列不同的數據對應的區域。
這是在幾乎所有人類基因研究中最基礎和最首要的分析。最終結果是一個VCF(VariantCallFormat)格式的文件,該文件中包含了個人基因組中檢測到的所有基因變異。實際上,由于技術局限性,這些文件中包含的往往只有小型的DNA變異,稱作SNP或者indel,不含有基因組的大型重組。
用于序列比對和變異檢測的標準工具是該領域使用最廣泛的軟件,包括BWA、Bowtie、GenomeAnalysisToolkit。
然而很難測試出哪一種分析軟件是最有效的。大多數的軟件是開源的,而且具有很多不同版本。生物信息學家也會將這些工具混合匹配起來創建新的流程,所以檢測結果的不一致可能是比對工具或變異檢測軟件的問題,又或者兩者都有。另外還存在著更多不太知名的工具能夠完成同樣的分析任務。
為了評估不同分析流程的性能,“ConsistencyChanllenge”將為所有參與者提供相同的原始數據進行分析。這些數據來自已經研究的非常清楚地人類細胞系NA12878的測序結果。分析的結果將與“瓶中基因組(GenomeinaBottle)”項目提供的金標準VCF文件進行比較,該項目已經詳盡的研究了NA12878,以用于各種類型的質控。
多管齊下,對分析流程進行評估
不同于那些試圖梳理基因變異在健康和生物方面影響的高級軟件,生成VCF文件的流程產生出的結果清晰,能夠對其進行非常客觀的評估。DNAnexus公司戰略發展部總監GeorgeAsimenos說,“這不是一個非常復雜的挑戰,通過處理大家熟悉的數據,目的是為了促進人們參與到precisionFDA中,讓更多人知道這個平臺。”
雖然這項倡議很基礎,但是挑戰在于如何對結果進行分析。
對VCF文件進行比較和評分不是一項簡單的任務,因為科學家們描述與“正常”人類基因組序列的偏差的方式往往是模糊的。例如,一些變異是小型的缺失,即與參考序列比對時缺少了一個堿基。但是如果缺失發生在一串相同的堿基中(例如GAAAAT這樣的序列),那么就無法回答“缺失的是哪個A?”
這也就是說即使兩個VCF文件都描述了同樣的變異,但是也可能檢測出的是參考基因組上兩個不同位置的缺失。簡單的軟件程序常常會犯錯誤,認為這樣的VCF文件其中之一或者兩個都是錯誤的。
Asimenos認為,“在早期,我們認為最佳方法應該是,讓相關組織告訴我們比較VCF文件的最佳方法,而不是FDA強制實行某種特定的方法。”根據GenomeinaBottle和全球基因組與健康聯盟(GA4GH)等組織的指導意見,FDA選擇了一款由RealTimeGenomics公司設計的軟件vcfeval,該工具已經發表并且開源,可作為對流程打分的一個備選。
Vcfeval用一種上下文感知的方式讀取VCF文件,當檢測到兩個變異為同義突變時會將其輸出。Asimenos說,“vcfeval分析需要完整的參考基因組序列來進行比較,事實上,這款軟件能夠檢測到很多不易察覺的信息。”一旦確定了提交的VCF文件與GenomeinaBottle提供的金標準文件存在的不同變異數量,vcfeval程序將對流程的準確性進行打分。它將考慮陽性變異檢測、假陽性、假陰性以及更加細微的統計學概念,例如陽性預測率。
“ConsistencyChanllenge”并不是一項單一的、絕對的精確度量挑戰。Asimenos說,“FDA非常聰明地在挑戰中引入了一個重復性版塊。”參與者將分別對兩組不同的NA12878測序數據進行分析,一共進行三次。這兩組測序數據都是來自IlluminaHiseqXTen測序系統,產自兩臺不同的測序儀。
通過兩組不同的數據對分析流程的性能進行比較,FDA希望能夠更好地展示,實驗條件的不同,例如測序儀操作人員和測序環境,會影響到最終的結果。該挑戰同樣也會評估當同一組數據進行兩次運算產生兩個VCF文件時會發生什么。因為測序儀是同時進行大量的平行測序,沒有哪兩個測序過程是完全相同的,對遺傳學研究組織來說,最大的問題就是這樣會對整個分析造成多大的影響。
基因研究的真實性取決于準確檢測變異的能力。通過重復實驗,對不同測序儀產出的數據進行分析,同時與絕對標準數據進行比較,對分析流程的性能進行測試,precisionFDA將多管齊下地進行分析流程的評估。
齊心協力,來自不同組織的支持
越來越多的人要求FDA研究和批準用于病人診斷和治療的基因檢測,而為了能夠有效地進行研究,FDA需要弄清楚分析這些基因檢測的工具是否精準并且可重復。
“ConsistencyChallenge”并不是僅限于FDA內部使用。如同FDA早期建立的網站平臺openFDA一樣,precisionFDA旨在廣泛分享知識,讓全球的科研人員受益。
雖然“ConsistencyChallenge”是公開的,但precisionFDA云平臺可以私下使用。即使是FDA也只能查看和評估用戶選擇了公開可見的流程。參與者可以在本地計算環境中生成VCF文件然后上傳,同時對流程中使用的工具進行說明;或者也可以在precisionFDA云平臺上運行整個分析流程,公開使用的所有軟件。
無論哪種方法,研究團體都將看到不同分析流程間的相互較量。這不僅僅能讓遺傳學家了解哪個開源工具更有效,更是讓那些各具優勢但是不為人知的分析工具浮出水面。Asimenos說,“我希望這次活動將為那些正在開發新方法但是缺乏平臺展示的研究人員提供一個好機會。”
這種對遺傳學基礎工具的全面評估是我們急需的,而且大量的利益相關方已經加強了對這方面的支持。其中有的是公立組織,有的是非盈利組織,例如GenomeinaBottle和GA4GH。其他還包括一些盈利性公司,例如DNAnexus、RealTimeGenomics、HumanLongevity(提供了一組NA12878測序數據),或者像Garvan研究所這樣的大型學術中心,Garvan研究所也提供了NA12878測序數據。
Asimenos列舉了其他六個對precisionFDA項目做出貢獻的組織機構,其中包括Illumina、23andMe以及Broad研究院等該領域的巨頭。他說,“這是大家共同努力的結果,我非常感激這些人能夠貢獻出他們的數據并且加入了這個網站。”
“ConsistencyChallenge”需要人們廣泛的參與來充分發揮這個項目的意義。競賽將會于4月25日向公眾開放,任何想來參加挑戰的人都可以報名,這項競賽將成為precisonFDA的第一個挑戰比賽,旨在評估用于人類基因組研究的軟件工具。
標簽:NGS流程質量標準化
相關資訊