新方法使用普通電腦組裝基因組只需幾分鐘
麻省理工學院(MIT)和法國巴斯德研究院(Institut Pasteur)合作開發了一套全新的組裝基因序列的方法,僅需使用普通的個人電腦,組裝整套基因序列速度比現在最先進的方法快近百倍,所用的資源只需五分之一。
這份9月4日發表於《細胞·系統》(Cell Systems)的研究說,研究人員從語言學模型獲得啟發,如果按照單詞、而不是使用字母組合語言,速度會快很多。
這份研究的作者之一麻省理工學院數學教授伯傑(Bonnie Berger)說:“這種快速組裝基因組的能力對於評估腸道微菌變化、細菌感染相關的疾病有重要作用,能夠快速進行治療,挽救生命。”
2003年由世界多國科學家合作組裝完成第一份人類的基因序列,耗資27億美元,花了十幾年的時間才完成。之後至今,雖然基因測序成本在降低、耗時在減少,但是由於涉及的資料量大、演算法複雜,現在仍然需要很強大的電腦、耗時幾天才能完成。
伯傑和同事借鑑了語言學的模型,在現有德•布魯因圖(de Bruijn graph)的基礎上,他們開發了最小空間化德•布魯因圖(minimizer-space de Bruin graph,簡稱mdBG),使用核苷酸短序列,而不是單個的核苷酸。
“我們的最小空間化德•布魯因圖只儲存整套核苷酸的一小部分,但是卻能保留整個基因組的結構,所以這個方法比傳統的德•布魯因圖效率高出好幾個數量級。”
研究人員用這個新方法挑戰組裝果蠅基因、以及美國太平洋生物科學公司(PacBio)提供的人體基因資料,並以現今為止最準確的HiFi資料作為標準。
結果顯示,使用這個新方法所花的時間比其它基因組裝演算法少了33倍,電腦記憶體(RAM)少用了8倍。從軟體的角度比較,這套演算法比Peregrine組裝法快了81倍,記憶體少用18倍;比hifiasm組裝法快338倍,記憶體少用19倍。
之後,研究人員還用這個方法為661,406個細菌基因組建立索引,這份資料是目前為止同類中最大型的一份。他們發現,掃描整個資料集找到抗菌耐藥基因只需13分鐘,如果用常規的序列對照方法則需要7個小時。
相關文章
- 2021-09-18生命真的可以“重啟”? 科學家發現人在離世後有種基因可以被啟用
- 2021-09-15後端程式設計Python3-高階程式設計(面向物件-下)
- 2021-09-10女兒更像爹?爸爸這些特徵幾乎都會遺傳給女兒,兒子反而不佔半分
- 2021-09-09吃麵的區別,中國一口吞,韓國吃麵用剪刀,看完非洲的吃法沒胃口
- 2021-09-04早餐的藝術:生活是項鍊,美食是珍珠