序列組裝:修订间差异

维基百科,自由的百科全书
删除的内容 添加的内容
Dr.who what what留言 | 贡献
新增示意圖,結構整理/更動
标签新用户加入疑似宣传性内容 添加文件 image 圖像檢查
第3行: 第3行:
'''序列組裝'''({{lang|en|Sequence assembly}})是[[生物資訊學]]中的一種分析方法。此方法通過[[序列比對]]和序列合併等演算,將短片段的DNA建構成為較長的連續序列。此技術的創立,是因為被測序的[[核酸]]分子通常長度都遠大於目前存在的[[DNA測序]]技術。而此分析能試圖從有限長度的DNA測序結果,重建出原本被測序分子的樣貌。
'''序列組裝'''({{lang|en|Sequence assembly}})是[[生物資訊學]]中的一種分析方法。此方法通過[[序列比對]]和序列合併等演算,將短片段的DNA建構成為較長的連續序列。此技術的創立,是因為被測序的[[核酸]]分子通常長度都遠大於目前存在的[[DNA測序]]技術。而此分析能試圖從有限長度的DNA測序結果,重建出原本被測序分子的樣貌。


序列組裝最常被使用在[[高通量測序]]資料的分析上(例如基因組[[霰彈槍定序法|霰彈槍定序]],或者RNA轉錄體測序)。這一類的測序技術會產生大量的測序片段(read,複數reads),而這些片段的長度依照不同的技術,短為數十,可至上萬個[[鹼基對]]。而序列組裝旨在合併這些短片段來重建原本的分子序列。
序列組裝最常被使用在[[高通量測序]]資料的分析上(例如基因組[[霰彈槍定序法|霰彈槍定序]],或者RNA轉錄體測序)。這一類的測序技術會產生大量的測序片段(read,複數reads),而這些片段的長度依照不同的技術,短為數十,可至上萬個[[鹼基對]](前者如[[Illumina]]的定序平台,後者如{{link-en|Pacific Biosciences}} [[SMRT-sequencing]]或{{link-en|Nanopore sequencing}})<ref name=Mardis2017>{{cite journal|author=Mardis, ER.| year=2017| title=DNA sequencing technologies: 2006–2016| url=http://www.nature.com/nprot/journal/v12/n2/abs/nprot.2016.182.html| journal=Nature Protocols| volume=12| pages=213–218| doi=10.1038/nprot.2016.182}}</ref>。而序列組裝旨在合併這些短片段來重建原本的分子序列。


我們可將序列組裝想像成從大量片段的文字中拼湊出一整篇文章的過程:被測序的分子就是那篇文章,而測序片段(reads)就是那段文章中,隨機切取出來的句子。重建出這段文章最直觀的方式,就是找到句子中重疊的部分,一旦找到夠多重疊的部分,我們就有機會將每個句子連接到一起,進而得到原始的文章。不難想像,此過程的困難不僅僅在於需要進行大量的片段比對,還會因原本文章的複雜度而製造更多問題:例如原本的文章可能有許多重復的段落,而帶有這些重複段落的文句可能會重疊在一起;又或者我們所拿到的句子中若有錯別字,亦會增加尋找重疊片段的難度。同樣的問題也同樣存在於生物資訊的序列組裝分析裡。
我們可將序列組裝想像成從大量片段的文字中拼湊出一整篇文章的過程:被測序的分子就是那篇文章,而測序片段(reads)就是那段文章中,隨機切取出來的句子。其中一種重建出這段文章的方式,就是找到句子中重疊的部分,因為一旦找到夠多重疊的部分,我們就有機會將每個句子連接到一起,進而得到原始的文章。不難想像,此過程的困難不僅僅在於需要進行大量的片段比對,還會因原本文章的複雜度而製造更多問題:例如原本的文章可能有許多重復的段落,而帶有這些重複段落的文句可能會重疊在一起;又或者我們所拿到的句子中若有錯別字,亦會增加尋找重疊片段的難度。同樣的問題也同樣存在於生物資訊的序列組裝分析裡。


[[File:Seqassemble.png|居中|缩略图|450x450像素|重複片段(repeats)的問題:假設黑色序列是原來被測序分子,我們可難到這段序列中有兩次CGGAGAGG的重複。如果我們今天只能拿到較短的測序片段(上方,粉紅色),那麼我們會無法斷定CGGAGAGG這個序列來自分子的何處。相反的,較長的測序片段(下方,綠,紅,藍色)則可解決這個問題。]]
== 基因組組裝 ==

== 方法 ==
依照參考序列(reference sequence)的有無,序列組裝可分為<ref name=Miller2010>{{cite journal|author=Miller, JR., Koren, S., Sutton, G.| year=2010 |title=Assembly algorithms for next-generation sequencing data| url=http://www.sciencedirect.com/science/article/pii/S0888754310000492| journal=Genomics| volume=95| issue=6|pages=315–327| doi=10.1016/j.ygeno.2010.03.001}}</ref>:
# ''' ''De-novo''組裝'''沒有參考序列的情況下,使用序列片段所提供的資訊來組裝的方法(拉丁語:{{lang|lt|de novo}},意指「新的」)
# '''Mapping組裝''':在有參考序列的情況下,將測序片段比對(align/map)至參考序列上,以取得組裝結果
# '''引導式組裝(guided assembly)''':介於de-novo組裝與mapping組裝之間 - 在有參考序列的情況下,以其作為引導,並結合使用序列片段本身的資訊進行組裝
來說,進行{{link-en|全基因組測序分析|whole genome sequencing|}},de-novo組裝可能被使用在非[[模式物種]]基因組的分析因為沒有進物種的基因組提供參考。相反的,如果有有鄰或相同物種的基因組可做參考,則可使用mapping組裝或引導式組裝({{lang|en|genome guided assembly}})。


''De-novo''組裝又可分為三種演算法:

(1) Overlap - Layout - Consensus,OLC法:即文章前段所舉的例子。此演算法分為三個步驟(圖一) - 先找出測序片段中'''重疊'''的部分(Overlap),接著'''配置'''出這些片段可能的順序(Layout),最後從這些片段中找出'''保守'''的序列(Consensus),組裝得到原始序列。此方法雖然直觀,但其電腦演算量較大,故通常被使用在組裝資料量不大而測序長度較長的資料上(例如Pac-Bio的測序結果)<ref name=Ekblom2014>{{cite journal| author=Ekblom, R., Wolf, J.| year=2014 |title=A field guide to whole-genome sequencing, assembly and annotation| url=http://onlinelibrary.wiley.com/doi/10.1111/eva.12178/abstract| journal=Evolutionary Applications| volume=7| issue=9|pages=1026–1042| doi=10.1111/eva.12178}}</ref>。

(2) {{link-en|De-Bruijn|De-Bruijn graph}}圖法,DBG法:此方法使用數學[[圖論]]中{{link-en|De-Bruijn Graph|De-Bruijn圖}}的概念,先將每個測序片段拆解成{{link-en|k-mer}}(一個字串中所有長度為k的可能字串子集合)。接著從這些k-mer重疊的區段建構出De-Bruijn圖,再利用演算法解出De-Bruijn圖的結構並取得組裝結果(圖二)。此方法雖不如OLC法直觀,但在電腦演算需求上較OLC法小,故通常被用於資料量大而片段短的分析上(例如Illumina的測序結果)<ref name=Ekblom2014></ref>。

(3) [[貪心法|貪婪演算法]]

[[File:OLC,Overlap-Layout-consensus.png|居中|缩略图|600x600像素|圖一.OLC法示意圖]]
[[File:De-bruijn-dna-assembly.png|居中|缩略图|600x600像素|圖二.DBG法示意圖]]

== 應用 ==
# 全[[基因組]]組裝:組裝一個生物的基因組序列,可被應用於基因表現分析、個體間基因體差異比對、基因體層級的疾病研究等<ref name=Sharman2001>{{cite journal|author=Sharman, A.| year=2001 |title=The many uses of a genome sequence| url=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC138940/| journal=Genome Biology| volume=2| issue=6|pages=4013.1–4013.4}}</ref>。
# [[RNA]][[轉錄組]]組裝:從RNA測序並組裝,取得[[基因表現|表現的基因]]的序列與表現量資料
# EST組裝

== 序列組裝程式==
最早的序列組裝程式大約在1980至1990年代初期被發明。其雛形是[[序列比對|序列比对]]分析的程式。 隨著定序技術的進步以及被定序生物複雜度的增加(從小的 [[病毒]] 在 [[质粒|质體]]至 [[细菌]] 和最後 [[真核生物]]),序列組裝程式所採用的演算法也越趨複雜。基本上,組裝程式都至少要能應付下面三大問題:
最早的序列組裝程式大約在1980至1990年代初期被發明。其雛形是[[序列比對|序列比对]]分析的程式。 隨著定序技術的進步以及被定序生物複雜度的增加(從小的 [[病毒]] 在 [[质粒|质體]]至 [[细菌]] 和最後 [[真核生物]]),序列組裝程式所採用的演算法也越趨複雜。基本上,組裝程式都至少要能應付下面三大問題:
* 大量的原始數據:一次的[[高通量測序]]可能產出數百至上千[[GB]] 的測序資料。為了分析如此大量的資料,組裝程式通常都需要在[[超級電腦]]或[[電腦叢集]]上運作。
* 大量的原始數據:一次的[[高通量測序]]可能產出數百至上千[[GB]] 的測序資料。為了分析如此大量的資料,組裝程式通常都需要在[[超級電腦]]或[[電腦叢集]]上運作。
第13行: 第39行:
* {{link-en|測序錯誤|sequencing error}}:測序錯誤可能產生自機器和技術本身的限制,而這樣的錯誤增加了序列比對的難度。<br>
* {{link-en|測序錯誤|sequencing error}}:測序錯誤可能產生自機器和技術本身的限制,而這樣的錯誤增加了序列比對的難度。<br>
基因組組裝程式Celera<ref>{{cite journal|title=A whole-genome assembly of Drosophila|url=http://www.sciencemag.org/cgi/pmidlookup?view=long&pmid=10731133|last2=Sutton|first2=GG|date=March 2000|journal=Science|issue=5461|doi=10.1126/science.287.5461.2196|volume=287|pages=2196–204|bibcode=2000Sci...287.2196M|pmid=10731133|last3=Delcher|first3=AL|last4=Dew|first4=IM|last5=Fasulo|first5=DP|last6=Flanigan|first6=MJ|last7=Kravitz|first7=SA|last8=Mobarry|first8=CM|last9=Reinert|first9=KH|display-authors=8|last1=Myers|first1=E. W.|last10=Remington|first10=K. A.|last11=Anson|first11=E. L.|last12=Bolanos|first12=R. A.|last13=Chou|first13=H. H.|last14=Jordan|first14=C. M.|last15=Halpern|first15=A. L.|last16=Lonardi|first16=S|last17=Beasley|first17=E. M.|last18=Brandon|first18=R. C.|last19=Chen|first19=L|last20=Dunn|first20=P. J.|last21=Lai|first21=Z|last22=Liang|first22=Y|last23=Nusskern|first23=D. R.|last24=Zhan|first24=M|last25=Zhang|first25=Q|last26=Zheng|first26=X|last27=Rubin|first27=G. M.|last28=Adams|first28=M. D.|last29=Venter|first29=J. C.}}</ref> 和Arachne<ref>{{cite journal|title=ARACHNE: a whole-genome shotgun assembler|url=http://www.genome.org/cgi/pmidlookup?view=long&pmid=11779843|last2=Jaffe|first2=DB|date=January 2002|journal=Genome Research|issue=1|doi=10.1101/gr.208902|volume=12|pages=177–89|pmc=155255|pmid=11779843|last3=Stanley|first3=K|last4=Butler|first4=J|last5=Gnerre|first5=S|last6=Mauceli|first6=E|last7=Berger|first7=B|last8=Mesirov|first8=JP|last9=Lander|first9=ES|last1=Batzoglou|first1=S.|author7-link=Bonnie Berger}}</ref> 在2000年被研發出來 - 當時科學家試著組裝第一個較大型[[真核生物]]的基因組(果蝇),緊接著是隔年的[[人类基因组計畫]]。這兩個程式能处理約100至300亿个鹼基對的基因組。 隨後,更大更複雜的組裝程式也被發明,例如阿莫斯組裝程式(AMOS, A Modular Open-source Assembler)<ref>[http://amos.sourceforge.net/ AMOS page] with links to various papers</ref> 等。
基因組組裝程式Celera<ref>{{cite journal|title=A whole-genome assembly of Drosophila|url=http://www.sciencemag.org/cgi/pmidlookup?view=long&pmid=10731133|last2=Sutton|first2=GG|date=March 2000|journal=Science|issue=5461|doi=10.1126/science.287.5461.2196|volume=287|pages=2196–204|bibcode=2000Sci...287.2196M|pmid=10731133|last3=Delcher|first3=AL|last4=Dew|first4=IM|last5=Fasulo|first5=DP|last6=Flanigan|first6=MJ|last7=Kravitz|first7=SA|last8=Mobarry|first8=CM|last9=Reinert|first9=KH|display-authors=8|last1=Myers|first1=E. W.|last10=Remington|first10=K. A.|last11=Anson|first11=E. L.|last12=Bolanos|first12=R. A.|last13=Chou|first13=H. H.|last14=Jordan|first14=C. M.|last15=Halpern|first15=A. L.|last16=Lonardi|first16=S|last17=Beasley|first17=E. M.|last18=Brandon|first18=R. C.|last19=Chen|first19=L|last20=Dunn|first20=P. J.|last21=Lai|first21=Z|last22=Liang|first22=Y|last23=Nusskern|first23=D. R.|last24=Zhan|first24=M|last25=Zhang|first25=Q|last26=Zheng|first26=X|last27=Rubin|first27=G. M.|last28=Adams|first28=M. D.|last29=Venter|first29=J. C.}}</ref> 和Arachne<ref>{{cite journal|title=ARACHNE: a whole-genome shotgun assembler|url=http://www.genome.org/cgi/pmidlookup?view=long&pmid=11779843|last2=Jaffe|first2=DB|date=January 2002|journal=Genome Research|issue=1|doi=10.1101/gr.208902|volume=12|pages=177–89|pmc=155255|pmid=11779843|last3=Stanley|first3=K|last4=Butler|first4=J|last5=Gnerre|first5=S|last6=Mauceli|first6=E|last7=Berger|first7=B|last8=Mesirov|first8=JP|last9=Lander|first9=ES|last1=Batzoglou|first1=S.|author7-link=Bonnie Berger}}</ref> 在2000年被研發出來 - 當時科學家試著組裝第一個較大型[[真核生物]]的基因組(果蝇),緊接著是隔年的[[人类基因组計畫]]。這兩個程式能处理約100至300亿个鹼基對的基因組。 隨後,更大更複雜的組裝程式也被發明,例如阿莫斯組裝程式(AMOS, A Modular Open-source Assembler)<ref>[http://amos.sourceforge.net/ AMOS page] with links to various papers</ref> 等。
[[File:Seqassemble.png|居中|缩略图|450x450像素|重複片段(repeats)的問題:假設黑色序列是原來被測序分子,我們可難到這段序列中有兩次CGGAGAGG的重複。如果我們今天只能拿到較短的測序片段(上方,粉紅色),那麼我們會無法斷定CGGAGAGG這個序列來自分子的何處。相反的,較長的測序片段(下方,綠,紅,藍色)則可解決這個問題。]]

== De-novo 組裝與引導式組裝 ==
依照參考序列(reference sequence)的有無,序列組裝可分為:
# de-novo組裝:完全沒有參考序列的情況下,完全使用序列片段所提供的資訊來組裝的方法(拉丁語:{{lang|lt|de novo}},意指「新的」)
# 引導式組裝:在有參考序列的情況下,我們可將測序所得的序列片段回貼(remap)至參考序列上,再從回貼結果建立出一个类似的但不一定完全相同的序列
子:在{{link-en|全基因組測序分析|whole genome sequencing|}},de-novo 組裝可能被用在非模式物種基因組組裝 - 因為我們沒有進物種的基因組提供參考。相反的,如果有一個基因組與你的測序物種很接,那就可以考慮以該物種的基因組作為參考,進行引導式組裝({{lang|en|genome guided assembly}})。


下表列出了部分能夠進行''de-novo''組裝的程式。<ref>[http://seqanswers.com/forums/showthread.php?t=43 list of software including mapping assemblers in the SeqAnswers discussion forum.]</ref>
== 組裝程式(部分) ==
下表列出了一些能夠進行de novo組裝的程式。<ref>[http://seqanswers.com/forums/showthread.php?t=43 list of software including mapping assemblers in the SeqAnswers discussion forum.]</ref>
{| border="1" class="wikitable sortable" style="margin-bottom: 10px;"
{| border="1" class="wikitable sortable" style="margin-bottom: 10px;"
!程式名稱
!程式名稱

2017年6月9日 (五) 00:03的版本

序列組裝Sequence assembly)是生物資訊學中的一種分析方法。此方法通過序列比對和序列合併等演算,將短片段的DNA建構成為較長的連續序列。此技術的創立,是因為被測序的核酸分子通常長度都遠大於目前存在的DNA測序技術。而此分析能試圖從有限長度的DNA測序結果,重建出原本被測序分子的樣貌。

序列組裝最常被使用在高通量測序資料的分析上(例如基因組霰彈槍定序,或者RNA轉錄體測序)。這一類的測序技術會產生大量的測序片段(read,複數reads),而這些片段的長度依照不同的技術,短為數十,長可至上萬個鹼基對(前者如Illumina的定序平台,後者如Pacific Biosciences英语Pacific Biosciences SMRT-sequencingNanopore sequencing英语Nanopore sequencing)[1]。而序列組裝旨在合併這些短片段來重建原本的分子序列。

我們可將序列組裝想像成從大量片段的文字中拼湊出一整篇文章的過程:被測序的分子就是那篇文章,而測序片段(reads)就是那段文章中,隨機切取出來的句子。其中一種重建出這段文章的方式,就是找到句子中重疊的部分,因為一旦找到夠多重疊的部分,我們就有機會將每個句子連接到一起,進而得到原始的文章。不難想像,此過程的困難不僅僅在於需要進行大量的片段比對,還會因原本文章的複雜度而製造更多問題:例如原本的文章可能有許多重復的段落,而帶有這些重複段落的文句可能會重疊在一起;又或者我們所拿到的句子中若有錯別字,亦會增加尋找重疊片段的難度。同樣的問題也同樣存在於生物資訊的序列組裝分析裡。

重複片段(repeats)的問題:假設黑色序列是原來被測序分子,我們可難到這段序列中有兩次CGGAGAGG的重複。如果我們今天只能拿到較短的測序片段(上方,粉紅色),那麼我們會無法斷定CGGAGAGG這個序列來自分子的何處。相反的,較長的測序片段(下方,綠,紅,藍色)則可解決這個問題。

方法

依照參考序列(reference sequence)的有無,序列組裝可分為[2]

  1. De-novo組裝:在沒有參考序列的情況下,僅使用序列片段所提供的資訊來組裝的方法(拉丁語:de novo,意指「新的」)
  2. Mapping組裝:在有參考序列的情況下,將測序片段比對(align/map)至參考序列上,以取得組裝結果
  3. 引導式組裝(guided assembly):介於de-novo組裝與mapping組裝之間 - 在有參考序列的情況下,以其作為引導,並結合使用序列片段本身的資訊進行組裝

舉例來說,在進行全基因組測序分析英语whole genome sequencing時,de-novo組裝可能被使用在非模式物種基因組的分析上,因為其沒有臨進物種的基因組提供參考。相反的,如果有有鄰近或相同物種的基因組可做參考,則可使用mapping組裝或引導式組裝(genome guided assembly)。


De-novo組裝又可分為三種演算法:

(1) Overlap - Layout - Consensus,OLC法:即文章前段所舉的例子。此演算法分為三個步驟(圖一) - 先找出測序片段中重疊的部分(Overlap),接著配置出這些片段可能的順序(Layout),最後從這些片段中找出保守的序列(Consensus),組裝得到原始序列。此方法雖然直觀,但其電腦演算量較大,故通常被使用在組裝資料量不大而測序長度較長的資料上(例如Pac-Bio的測序結果)[3]

(2) De-Bruijn英语De-Bruijn graph圖法,DBG法:此方法使用數學圖論De-Bruijn Graph英语De-Bruijn圖的概念,先將每個測序片段拆解成k-mer英语k-mer(一個字串中所有長度為k的可能字串子集合)。接著從這些k-mer重疊的區段建構出De-Bruijn圖,再利用演算法解出De-Bruijn圖的結構並取得組裝結果(圖二)。此方法雖不如OLC法直觀,但在電腦演算需求上較OLC法小,故通常被用於資料量大而片段短的分析上(例如Illumina的測序結果)[3]

(3) 貪婪演算法

圖一.OLC法示意圖
圖二.DBG法示意圖

應用

  1. 基因組組裝:組裝一個生物的基因組序列,可被應用於基因表現分析、個體間基因體差異比對、基因體層級的疾病研究等[4]
  2. RNA轉錄組組裝:從RNA測序並組裝,取得表現的基因的序列與表現量資料
  3. EST組裝

序列組裝程式

最早的序列組裝程式大約在1980至1990年代初期被發明。其雛形是序列比对分析的程式。 隨著定序技術的進步以及被定序生物複雜度的增加(從小的 病毒质體至 细菌 和最後 真核生物),序列組裝程式所採用的演算法也越趨複雜。基本上,組裝程式都至少要能應付下面三大問題:

  • 大量的原始數據:一次的高通量測序可能產出數百至上千GB 的測序資料。為了分析如此大量的資料,組裝程式通常都需要在超級電腦電腦叢集上運作。
  • 重複片段(repeats):完全相同的或非常類似的序列會造成組裝過程中的困難。我們難以判斷重複的次數,重複片段的切確位置,甚至可能將兩個原本不相連卻都帶有同樣重複片段的序列誤組在一起(mis-assembled)。
  • 測序錯誤英语sequencing error:測序錯誤可能產生自機器和技術本身的限制,而這樣的錯誤增加了序列比對的難度。

基因組組裝程式Celera[5] 和Arachne[6] 在2000年被研發出來 - 當時科學家試著組裝第一個較大型真核生物的基因組(果蝇),緊接著是隔年的人类基因组計畫。這兩個程式能处理約100至300亿个鹼基對的基因組。 隨後,更大更複雜的組裝程式也被發明,例如阿莫斯組裝程式(AMOS, A Modular Open-source Assembler)[7] 等。

下表列出了部分能夠進行de-novo組裝的程式。[8]

程式名稱 應用 適用測序技術 作者 發表 /

更新

使用許可* 連結
ABySS (大型)基因組 Solexa, SOLiD, Illumina Simpson, J. et al. 2008 / 2014 NC-A link
ALLPATHS-LG (大型)基因組 Solexa, SOLiD Gnerre, S. et al. 2011 OS link
AMOS 基因組 Sanger, 454 Salzberg, S. et al. 2002? / 2011 OS link
Arapan-M (中型)基因組 (例. 大腸桿菌) 均適用 Sahli, M. & Shibuya, T. 2011 / 2012 OS link
Arapan-S (小型)基因組(例. 病毒) 均適用 Sahli, M. & Shibuya, T. 2011 / 2012 OS link
Celera WGA Assembler / CABOG (大型)基因組 Sanger, 454, Solexa Myers, G. et al.; Miller G. et al. 2004 / 2015 OS link
CLC Genomics Workbench & CLC Assembly Cell 基因組 Sanger, 454, Solexa, SOLiD, Illumina CLC bio 2008 / 2010 / 2014 C link
Cortex 基因組 Solexa, SOLiD Iqbal, Z. et al. 2011 OS link
DBG2OLC (大型)基因組 Illumina, PacBio, Oxford Nanopore Ye, C. et al 2014/2016 OS link
DNA Baser Assembler (小型)基因組 Sanger, 454 Heracle BioSoft SRL 02.2017 C www.DnaBaser.com
DNA Dragon 基因組 Illumina, SOLiD, Complete Genomics, 454, Sanger SequentiX 2011 C link
DNAnexus 基因組 Illumina, SOLiD, Complete Genomics DNAnexus 2011 C link
DNASTAR Lasergene Genomics Suite (大型)基因組, 外顯子組(exome), 轉錄組(Transcriptome), 元基因組(metagenome), 表現序列標籤(ESTs) Illumina, ABI SOLiD, Roche 454, Ion Torrent, Solexa, Sanger DNASTAR 2007 / 2016 C link
Edena 基因組 Illumina D. Hernandez, P. François, L. Farinelli, M. Osteras, and J. Schrenzel. 2008/2013 OS link
Euler 基因組 Sanger, 454 (,Solexa ?) Pevzner, P. et al. 2001 / 2006? (C / NC-A?) link
Euler-sr 基因組 454, Solexa Chaisson, MJ. et al. 2008 NC-A link
Fermi (大型)基因組 Illumina Li, H. 2012 OS link
Forge (大型)基因組, 表現序列標籤(ESTs), 元基因組(metagenome) 454, Solexa, SOLID, Sanger Platt, DM, Evers, D. 2010 OS link
Geneious 基因組 Sanger, 454, Solexa, Ion Torrent, Complete Genomics, PacBio, Oxford Nanopore, Illumina Biomatters Ltd 2009 / 2013 C link
Graph Constructor (大型)基因組 Sanger, 454, Solexa, SOLiD Convey Computer Corporation 2011 C link
HINGE 基因組 PacBio/Oxford Nanopore Kamath, Shomorony, Xia et. al.[9] 2016 OS Software, Paper, Analyses
IDBA (Iterative De Bruijn graph short read Assembler) (大型)基因組 Sanger,454,Solexa Yu Peng, Henry C. M. Leung, Siu-Ming Yiu, Francis Y. L. Chin 2010 (C / NC-A?) link
LIGR Assembler (derived from TIGR Assembler) 基因組 Sanger - 2009/ 2012 OS link
MaSuRCA (Maryland Super Read - Celera Assembler) (大型)基因組 Sanger, Illumina, 454 Aleksey Zimin, Guillaume Marçais, Daniela Puiu, Michael Roberts, Steven L. Salzberg, James A. Yorke 2012 / 2013 OS link
MIRA (Mimicking Intelligent Read Assembly) 基因組, 表現序列標籤(ESTs) Sanger, 454, Solexa Chevreux, B. 1998 / 2014 OS link
NextGENe (小型)基因組
454, Solexa, SOLiD Softgenetics 2008 C link
Newbler 基因組, 表現序列標籤(ESTs) 454, Sanger 454/Roche 2004/2012 C link
PADENA 基因組 454, Sanger 454/Roche 2010 OS link
PASHA (大型)基因組 Illumina Liu, Schmidt, Maskell 2011 OS link
Phrap 基因組 Sanger, 454, Solexa Green, P. 1994 / 2008 C / NC-A link
TIGR Assembler 基因組 Sanger - 1995 / 2003 OS link
Trinity 轉錄組(Transcriptome) Illumina, 454, Solid,... Grabher, MG et al.[10] 2011/2016 OS https://github.com/trinityrnaseq/trinityrnaseq/wiki
Ray[11] 基因組 Illumina, mix of Illumina and 454, paired or not Sébastien Boisvert, François Laviolette & Jacques Corbeil. 2010 OS [GNU General Public License] link
Sequencher 基因組 traditional and next generation sequence data Gene Codes Corporation 1991 / 2009 / 2011 C link
SGA (大型)基因組 Illumina, Sanger (Roche 454?, Ion Torrent?) Simpson, J.T. et al. 2011 / 2012 OS link
SHARCGS (大型)基因組 Solexa Dohm et al. 2007 / 2007 OS link
SOPRA 基因組 Illumina, SOLiD, Sanger, 454 Dayarian, A. et al. 2010 / 2011 OS link
SparseAssembler (大型)基因組 Illumina, 454, Ion torrent Ye, C. et al. 2012 / 2012 OS link
SSAKE (小型)基因組 Solexa (SOLiD? Helicos?) Warren, R. et al. 2007 / 2014 OS link
SOAPdenovo 基因組 Solexa Luo, R. et al. 2009 / 2013 OS link
SPAdes (小型)基因組, 單細胞測序(single-cell sequencing) Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore Bankevich, A et al. 2012 / 2015 OS link
Staden gap4 package 細菌人工染色體定序(BACs) Sanger Staden et al. 1991 / 2008 OS link
Taipan (小型)基因組 Illumina Schmidt, B. et al. 2009 / 2009 OS link
VCAKE (小型)基因組 Solexa (SOLiD?, Helicos?) Jeck, W. et al. 2007 / 2009 OS link
Phusion assembler (大型)基因組 Sanger Mullikin JC, et al. 2003 / 2006 OS link
Quality Value Guided SRA (QSRA) 基因組 Sanger, Solexa Bryant DW, et al. 2009 / 2009 OS link
Velvet (小型)基因組 Sanger, 454, Solexa, SOLiD Zerbino, D. et al. 2007 / 2011 OS link
使用許可*:</b>OS = 開放原始碼(免費); C = 商業(付費); C / NC-A = 商業使用需付費,但非商業使用與學術研究用免費; 括弧 = 不明但可能是 C / NC-A

参考文献

  1. ^ Mardis, ER. DNA sequencing technologies: 2006–2016. Nature Protocols. 2017, 12: 213–218. doi:10.1038/nprot.2016.182. 
  2. ^ Miller, JR., Koren, S., Sutton, G. Assembly algorithms for next-generation sequencing data. Genomics. 2010, 95 (6): 315–327. doi:10.1016/j.ygeno.2010.03.001. 
  3. ^ 3.0 3.1 Ekblom, R., Wolf, J. A field guide to whole-genome sequencing, assembly and annotation. Evolutionary Applications. 2014, 7 (9): 1026–1042. doi:10.1111/eva.12178. 
  4. ^ Sharman, A. The many uses of a genome sequence. Genome Biology. 2001, 2 (6): 4013.1–4013.4. 
  5. ^ Myers, E. W.; Sutton, GG; Delcher, AL; Dew, IM; Fasulo, DP; Flanigan, MJ; Kravitz, SA; Mobarry, CM; et al. A whole-genome assembly of Drosophila. Science. March 2000, 287 (5461): 2196–204. Bibcode:2000Sci...287.2196M. PMID 10731133. doi:10.1126/science.287.5461.2196. 
  6. ^ Batzoglou, S.; Jaffe, DB; Stanley, K; Butler, J; Gnerre, S; Mauceli, E; Berger, B; Mesirov, JP; Lander, ES. ARACHNE: a whole-genome shotgun assembler. Genome Research. January 2002, 12 (1): 177–89. PMC 155255可免费查阅. PMID 11779843. doi:10.1101/gr.208902. 
  7. ^ AMOS page with links to various papers
  8. ^ list of software including mapping assemblers in the SeqAnswers discussion forum.
  9. ^ Kamath, Govinda M.; Shomorony, Ilan; Xia, Fei; Courtade, Thomas; Tse, David N. HINGE: Long-Read Assembly Achieves Optimal Repeat Resolution. Genome Research. 1 August 2016: gr.216465.116. doi:10.1101/gr.216465.116. 
  10. ^ Grabherr, Manfred G.; Haas, Brian J.; Yassour, Moran; Levin, Joshua Z.; Thompson, Dawn A.; Amit, Ido; Adiconis, Xian; Fan, Lin; Raychowdhury, Raktima. Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nature Biotechnology. 2011-07-01, 29 (7): 644–652. ISSN 1087-0156. PMC 3571712可免费查阅. PMID 21572440. doi:10.1038/nbt.1883 (英语). 
  11. ^ Boisvert, Sébastien; Laviolette, François; Corbeil, Jacques. Ray: simultaneous assembly of reads from a mix of high-throughput sequencing technologies. Journal of Computational Biology. October 2010, 17 (11): 1519–33. PMC 3119603可免费查阅. PMID 20958248. doi:10.1089/cmb.2009.0238.