序列組裝：修订间差异

删除的内容添加的内容

行内

2017年6月9日 (五) 00:03的版本

序列組裝（Sequence assembly）是生物資訊學中的一種分析方法。此方法通過序列比對和序列合併等演算，將短片段的DNA建構成為較長的連續序列。此技術的創立，是因為被測序的核酸分子通常長度都遠大於目前存在的DNA測序技術。而此分析能試圖從有限長度的DNA測序結果，重建出原本被測序分子的樣貌。

序列組裝最常被使用在高通量測序資料的分析上（例如基因組霰彈槍定序，或者RNA轉錄體測序）。這一類的測序技術會產生大量的測序片段（read，複數reads），而這些片段的長度依照不同的技術，短為數十，長可至上萬個鹼基對(前者如Illumina的定序平台，後者如Pacific Biosciences（英语：Pacific Biosciences） SMRT-sequencing或Nanopore sequencing（英语：Nanopore sequencing）)^[1]。而序列組裝旨在合併這些短片段來重建原本的分子序列。

我們可將序列組裝想像成從大量片段的文字中拼湊出一整篇文章的過程：被測序的分子就是那篇文章，而測序片段（reads）就是那段文章中，隨機切取出來的句子。其中一種重建出這段文章的方式，就是找到句子中重疊的部分，因為一旦找到夠多重疊的部分，我們就有機會將每個句子連接到一起，進而得到原始的文章。不難想像，此過程的困難不僅僅在於需要進行大量的片段比對，還會因原本文章的複雜度而製造更多問題：例如原本的文章可能有許多重復的段落，而帶有這些重複段落的文句可能會重疊在一起；又或者我們所拿到的句子中若有錯別字，亦會增加尋找重疊片段的難度。同樣的問題也同樣存在於生物資訊的序列組裝分析裡。

重複片段(repeats)的問題：假設黑色序列是原來被測序分子，我們可難到這段序列中有兩次CGGAGAGG的重複。如果我們今天只能拿到較短的測序片段(上方，粉紅色)，那麼我們會無法斷定CGGAGAGG這個序列來自分子的何處。相反的，較長的測序片段(下方，綠，紅，藍色)則可解決這個問題。

方法

依照參考序列（reference sequence）的有無，序列組裝可分為^[2]：

De-novo組裝：在沒有參考序列的情況下，僅使用序列片段所提供的資訊來組裝的方法(拉丁語：de novo，意指「新的」）
Mapping組裝：在有參考序列的情況下，將測序片段比對(align/map)至參考序列上，以取得組裝結果
引導式組裝(guided assembly)：介於de-novo組裝與mapping組裝之間 - 在有參考序列的情況下，以其作為引導，並結合使用序列片段本身的資訊進行組裝

舉例來說，在進行全基因組測序分析（英语：whole genome sequencing）時，de-novo組裝可能被使用在非模式物種基因組的分析上，因為其沒有臨進物種的基因組提供參考。相反的，如果有有鄰近或相同物種的基因組可做參考，則可使用mapping組裝或引導式組裝（genome guided assembly）。

De-novo組裝又可分為三種演算法：

(1) Overlap - Layout - Consensus，OLC法：即文章前段所舉的例子。此演算法分為三個步驟(圖一) - 先找出測序片段中重疊的部分(Overlap)，接著配置出這些片段可能的順序(Layout)，最後從這些片段中找出保守的序列(Consensus)，組裝得到原始序列。此方法雖然直觀，但其電腦演算量較大，故通常被使用在組裝資料量不大而測序長度較長的資料上（例如Pac-Bio的測序結果）^[3]。

(2) De-Bruijn（英语：De-Bruijn graph）圖法，DBG法：此方法使用數學圖論中De-Bruijn Graph（英语：De-Bruijn圖）的概念，先將每個測序片段拆解成k-mer（英语：k-mer）（一個字串中所有長度為k的可能字串子集合）。接著從這些k-mer重疊的區段建構出De-Bruijn圖，再利用演算法解出De-Bruijn圖的結構並取得組裝結果（圖二）。此方法雖不如OLC法直觀，但在電腦演算需求上較OLC法小，故通常被用於資料量大而片段短的分析上（例如Illumina的測序結果）^[3]。

(3) 貪婪演算法

應用

全基因組組裝：組裝一個生物的基因組序列，可被應用於基因表現分析、個體間基因體差異比對、基因體層級的疾病研究等^[4]。
RNA 轉錄組組裝：從RNA測序並組裝，取得表現的基因的序列與表現量資料
EST組裝

序列組裝程式

最早的序列組裝程式大約在1980至1990年代初期被發明。其雛形是序列比对分析的程式。隨著定序技術的進步以及被定序生物複雜度的增加(從小的病毒在质體至细菌和最後真核生物)，序列組裝程式所採用的演算法也越趨複雜。基本上，組裝程式都至少要能應付下面三大問題：

大量的原始數據：一次的高通量測序可能產出數百至上千GB 的測序資料。為了分析如此大量的資料，組裝程式通常都需要在超級電腦或電腦叢集上運作。
重複片段（repeats）：完全相同的或非常類似的序列會造成組裝過程中的困難。我們難以判斷重複的次數，重複片段的切確位置，甚至可能將兩個原本不相連卻都帶有同樣重複片段的序列誤組在一起(mis-assembled)。
測序錯誤（英语：sequencing error）：測序錯誤可能產生自機器和技術本身的限制，而這樣的錯誤增加了序列比對的難度。

基因組組裝程式Celera^[5] 和Arachne^[6] 在2000年被研發出來 - 當時科學家試著組裝第一個較大型真核生物的基因組(果蝇)，緊接著是隔年的人类基因组計畫。這兩個程式能处理約100至300亿个鹼基對的基因組。隨後，更大更複雜的組裝程式也被發明，例如阿莫斯組裝程式(AMOS, A Modular Open-source Assembler)^[7] 等。

下表列出了部分能夠進行de-novo組裝的程式。^[8]

程式名稱	應用	適用測序技術	作者	發表 / 更新	使用許可*	連結
ABySS	(大型)基因組	Solexa, SOLiD, Illumina	Simpson, J. et al.	2008 / 2014	NC-A	link
ALLPATHS-LG	(大型)基因組	Solexa, SOLiD	Gnerre, S. et al.	2011	OS	link
AMOS	基因組	Sanger, 454	Salzberg, S. et al.	2002? / 2011	OS	link
Arapan-M	(中型)基因組 (例. 大腸桿菌)	均適用	Sahli, M. & Shibuya, T.	2011 / 2012	OS	link
Arapan-S	(小型)基因組(例. 病毒)	均適用	Sahli, M. & Shibuya, T.	2011 / 2012	OS	link
Celera WGA Assembler / CABOG	(大型)基因組	Sanger, 454, Solexa	Myers, G. et al.; Miller G. et al.	2004 / 2015	OS	link
CLC Genomics Workbench & CLC Assembly Cell	基因組	Sanger, 454, Solexa, SOLiD, Illumina	CLC bio	2008 / 2010 / 2014	C	link
Cortex	基因組	Solexa, SOLiD	Iqbal, Z. et al.	2011	OS	link
DBG2OLC	(大型)基因組	Illumina, PacBio, Oxford Nanopore	Ye, C. et al	2014/2016	OS	link
DNA Baser Assembler	(小型)基因組	Sanger, 454	Heracle BioSoft SRL	02.2017	C	www.DnaBaser.com
DNA Dragon	基因組	Illumina, SOLiD, Complete Genomics, 454, Sanger	SequentiX	2011	C	link
DNAnexus	基因組	Illumina, SOLiD, Complete Genomics	DNAnexus	2011	C	link
DNASTAR Lasergene Genomics Suite	(大型)基因組, 外顯子組(exome), 轉錄組(Transcriptome), 元基因組(metagenome), 表現序列標籤(ESTs)	Illumina, ABI SOLiD, Roche 454, Ion Torrent, Solexa, Sanger	DNASTAR	2007 / 2016	C	link
Edena	基因組	Illumina	D. Hernandez, P. François, L. Farinelli, M. Osteras, and J. Schrenzel.	2008/2013	OS	link
Euler	基因組	Sanger, 454 (,Solexa ?)	Pevzner, P. et al.	2001 / 2006?	(C / NC-A?)	link
Euler-sr	基因組	454, Solexa	Chaisson, MJ. et al.	2008	NC-A	link
Fermi	(大型)基因組	Illumina	Li, H.	2012	OS	link
Forge	(大型)基因組, 表現序列標籤(ESTs), 元基因組(metagenome)	454, Solexa, SOLID, Sanger	Platt, DM, Evers, D.	2010	OS	link
Geneious	基因組	Sanger, 454, Solexa, Ion Torrent, Complete Genomics, PacBio, Oxford Nanopore, Illumina	Biomatters Ltd	2009 / 2013	C	link
Graph Constructor	(大型)基因組	Sanger, 454, Solexa, SOLiD	Convey Computer Corporation	2011	C	link
HINGE	基因組	PacBio/Oxford Nanopore	Kamath, Shomorony, Xia et. al.^[9]	2016	OS	Software, Paper, Analyses
IDBA (Iterative De Bruijn graph short read Assembler)	(大型)基因組	Sanger,454,Solexa	Yu Peng, Henry C. M. Leung, Siu-Ming Yiu, Francis Y. L. Chin	2010	(C / NC-A?)	link
LIGR Assembler (derived from TIGR Assembler)	基因組	Sanger	-	2009/ 2012	OS	link
MaSuRCA (Maryland Super Read - Celera Assembler)	(大型)基因組	Sanger, Illumina, 454	Aleksey Zimin, Guillaume Marçais, Daniela Puiu, Michael Roberts, Steven L. Salzberg, James A. Yorke	2012 / 2013	OS	link
MIRA (Mimicking Intelligent Read Assembly)	基因組, 表現序列標籤(ESTs)	Sanger, 454, Solexa	Chevreux, B.	1998 / 2014	OS	link
NextGENe	(小型)基因組	454, Solexa, SOLiD	Softgenetics	2008	C	link
Newbler	基因組, 表現序列標籤(ESTs)	454, Sanger	454/Roche	2004/2012	C	link
PADENA	基因組	454, Sanger	454/Roche	2010	OS	link
PASHA	(大型)基因組	Illumina	Liu, Schmidt, Maskell	2011	OS	link
Phrap	基因組	Sanger, 454, Solexa	Green, P.	1994 / 2008	C / NC-A	link
TIGR Assembler	基因組	Sanger	-	1995 / 2003	OS	link
Trinity	轉錄組(Transcriptome)	Illumina, 454, Solid,...	Grabher, MG et al.^[10]	2011/2016	OS	https://github.com/trinityrnaseq/trinityrnaseq/wiki
Ray^[11]	基因組	Illumina, mix of Illumina and 454, paired or not	Sébastien Boisvert, François Laviolette & Jacques Corbeil.	2010	OS [GNU General Public License]	link
Sequencher	基因組	traditional and next generation sequence data	Gene Codes Corporation	1991 / 2009 / 2011	C	link
SGA	(大型)基因組	Illumina, Sanger (Roche 454?, Ion Torrent?)	Simpson, J.T. et al.	2011 / 2012	OS	link
SHARCGS	(大型)基因組	Solexa	Dohm et al.	2007 / 2007	OS	link
SOPRA	基因組	Illumina, SOLiD, Sanger, 454	Dayarian, A. et al.	2010 / 2011	OS	link
SparseAssembler	(大型)基因組	Illumina, 454, Ion torrent	Ye, C. et al.	2012 / 2012	OS	link
SSAKE	(小型)基因組	Solexa (SOLiD? Helicos?)	Warren, R. et al.	2007 / 2014	OS	link
SOAPdenovo	基因組	Solexa	Luo, R. et al.	2009 / 2013	OS	link
SPAdes	(小型)基因組, 單細胞測序(single-cell sequencing)	Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore	Bankevich, A et al.	2012 / 2015	OS	link
Staden gap4 package	細菌人工染色體定序(BACs)	Sanger	Staden et al.	1991 / 2008	OS	link
Taipan	(小型)基因組	Illumina	Schmidt, B. et al.	2009 / 2009	OS	link
VCAKE	(小型)基因組	Solexa (SOLiD?, Helicos?)	Jeck, W. et al.	2007 / 2009	OS	link
Phusion assembler	(大型)基因組	Sanger	Mullikin JC, et al.	2003 / 2006	OS	link
Quality Value Guided SRA (QSRA)	基因組	Sanger, Solexa	Bryant DW, et al.	2009 / 2009	OS	link
Velvet	(小型)基因組	Sanger, 454, Solexa, SOLiD	Zerbino, D. et al.	2007 / 2011	OS	link
使用許可*：</b>OS = 開放原始碼(免費); C = 商業(付費); C / NC-A = 商業使用需付費，但非商業使用與學術研究用免費; 括弧 = 不明但可能是 C / NC-A

参考文献

^ Mardis, ER. DNA sequencing technologies: 2006–2016. Nature Protocols. 2017, 12: 213–218. doi:10.1038/nprot.2016.182.
^ Miller, JR., Koren, S., Sutton, G. Assembly algorithms for next-generation sequencing data. Genomics. 2010, 95 (6): 315–327. doi:10.1016/j.ygeno.2010.03.001.
^ ^3.0 ^3.1 Ekblom, R., Wolf, J. A field guide to whole-genome sequencing, assembly and annotation. Evolutionary Applications. 2014, 7 (9): 1026–1042. doi:10.1111/eva.12178.
^ Sharman, A. The many uses of a genome sequence. Genome Biology. 2001, 2 (6): 4013.1–4013.4.
^ Myers, E. W.; Sutton, GG; Delcher, AL; Dew, IM; Fasulo, DP; Flanigan, MJ; Kravitz, SA; Mobarry, CM; et al. A whole-genome assembly of Drosophila. Science. March 2000, 287 (5461): 2196–204. Bibcode:2000Sci...287.2196M. PMID 10731133. doi:10.1126/science.287.5461.2196.
^ Batzoglou, S.; Jaffe, DB; Stanley, K; Butler, J; Gnerre, S; Mauceli, E; Berger, B; Mesirov, JP; Lander, ES. ARACHNE: a whole-genome shotgun assembler. Genome Research. January 2002, 12 (1): 177–89. PMC 155255 . PMID 11779843. doi:10.1101/gr.208902.
^ AMOS page with links to various papers
^ list of software including mapping assemblers in the SeqAnswers discussion forum.
^ Kamath, Govinda M.; Shomorony, Ilan; Xia, Fei; Courtade, Thomas; Tse, David N. HINGE: Long-Read Assembly Achieves Optimal Repeat Resolution. Genome Research. 1 August 2016: gr.216465.116. doi:10.1101/gr.216465.116.
^ Grabherr, Manfred G.; Haas, Brian J.; Yassour, Moran; Levin, Joshua Z.; Thompson, Dawn A.; Amit, Ido; Adiconis, Xian; Fan, Lin; Raychowdhury, Raktima. Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nature Biotechnology. 2011-07-01, 29 (7): 644–652. ISSN 1087-0156. PMC 3571712 . PMID 21572440. doi:10.1038/nbt.1883 （英语）.
^ Boisvert, Sébastien; Laviolette, François; Corbeil, Jacques. Ray: simultaneous assembly of reads from a mix of high-throughput sequencing technologies. Journal of Computational Biology. October 2010, 17 (11): 1519–33. PMC 3119603 . PMID 20958248. doi:10.1089/cmb.2009.0238.

[Mardis2017-1] Mardis, ER. DNA sequencing technologies: 2006–2016. Nature Protocols. 2017, 12: 213–218. doi:10.1038/nprot.2016.182.

[Miller2010-2] Miller, JR., Koren, S., Sutton, G. Assembly algorithms for next-generation sequencing data. Genomics. 2010, 95 (6): 315–327. doi:10.1016/j.ygeno.2010.03.001.

[Ekblom2014-3] 3.0 ^3.1 Ekblom, R., Wolf, J. A field guide to whole-genome sequencing, assembly and annotation. Evolutionary Applications. 2014, 7 (9): 1026–1042. doi:10.1111/eva.12178.

[Sharman2001-4] Sharman, A. The many uses of a genome sequence. Genome Biology. 2001, 2 (6): 4013.1–4013.4.

[5] Myers, E. W.; Sutton, GG; Delcher, AL; Dew, IM; Fasulo, DP; Flanigan, MJ; Kravitz, SA; Mobarry, CM; et al. A whole-genome assembly of Drosophila. Science. March 2000, 287 (5461): 2196–204. Bibcode:2000Sci...287.2196M. PMID 10731133. doi:10.1126/science.287.5461.2196.

[6] Batzoglou, S.; Jaffe, DB; Stanley, K; Butler, J; Gnerre, S; Mauceli, E; Berger, B; Mesirov, JP; Lander, ES. ARACHNE: a whole-genome shotgun assembler. Genome Research. January 2002, 12 (1): 177–89. PMC 155255 . PMID 11779843. doi:10.1101/gr.208902.

[7] AMOS page with links to various papers

[8] st of software including mapping assemblers in the SeqAnswers discussion forum.

[9] Kamath, Govinda M.; Shomorony, Ilan; Xia, Fei; Courtade, Thomas; Tse, David N. HINGE: Long-Read Assembly Achieves Optimal Repeat Resolution. Genome Research. 1 August 2016: gr.216465.116. doi:10.1101/gr.216465.116.

[10] Grabherr, Manfred G.; Haas, Brian J.; Yassour, Moran; Levin, Joshua Z.; Thompson, Dawn A.; Amit, Ido; Adiconis, Xian; Fan, Lin; Raychowdhury, Raktima. Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nature Biotechnology. 2011-07-01, 29 (7): 644–652. ISSN 1087-0156. PMC 3571712 . PMID 21572440. doi:10.1038/nbt.1883 （英语）.

[11] Boisvert, Sébastien; Laviolette, François; Corbeil, Jacques. Ray: simultaneous assembly of reads from a mix of high-throughput sequencing technologies. Journal of Computational Biology. October 2010, 17 (11): 1519–33. PMC 3119603 . PMID 20958248. doi:10.1089/cmb.2009.0238.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

@@ 第3行： / 第3行： @@
 '''序列組裝'''（{{lang|en|Sequence assembly}}）是[[生物資訊學]]中的一種分析方法。此方法通過[[序列比對]]和序列合併等演算，將短片段的DNA建構成為較長的連續序列。此技術的創立，是因為被測序的[[核酸]]分子通常長度都遠大於目前存在的[[DNA測序]]技術。而此分析能試圖從有限長度的DNA測序結果，重建出原本被測序分子的樣貌。
-序列組裝最常被使用在[[高通量測序]]資料的分析上（例如基因組[[霰彈槍定序法|霰彈槍定序]]，或者RNA轉錄體測序）。這一類的測序技術會產生大量的測序片段（read，複數reads），而這些片段的長度依照不同的技術，短為數十，常可至上萬個[[鹼基對]]。而序列組裝旨在合併這些短片段來重建原本的分子序列。
+序列組裝最常被使用在[[高通量測序]]資料的分析上（例如基因組[[霰彈槍定序法|霰彈槍定序]]，或者RNA轉錄體測序）。這一類的測序技術會產生大量的測序片段（read，複數reads），而這些片段的長度依照不同的技術，短為數十，長可至上萬個[[鹼基對]](前者如[[Illumina]]的定序平台，後者如{{link-en|Pacific Biosciences}} [[SMRT-sequencing]]或{{link-en|Nanopore sequencing}})<ref name=Mardis2017>{{cite journal|author=Mardis, ER.| year=2017| title=DNA sequencing technologies: 2006–2016| url=http://www.nature.com/nprot/journal/v12/n2/abs/nprot.2016.182.html| journal=Nature Protocols| volume=12| pages=213–218| doi=10.1038/nprot.2016.182}}</ref>。而序列組裝旨在合併這些短片段來重建原本的分子序列。
-我們可將序列組裝想像成從大量片段的文字中拼湊出一整篇文章的過程：被測序的分子就是那篇文章，而測序片段（reads）就是那段文章中，隨機切取出來的句子。要重建出這段文章最直觀的方式，就是找到句子中重疊的部分，一旦找到夠多重疊的部分，我們就有機會將每個句子連接到一起，進而得到原始的文章。不難想像，此過程的困難不僅僅在於需要進行大量的片段比對，還會因原本文章的複雜度而製造更多問題：例如原本的文章可能有許多重復的段落，而帶有這些重複段落的文句可能會重疊在一起；又或者我們所拿到的句子中若有錯別字，亦會增加尋找重疊片段的難度。同樣的問題也同樣存在於生物資訊的序列組裝分析裡。
+我們可將序列組裝想像成從大量片段的文字中拼湊出一整篇文章的過程：被測序的分子就是那篇文章，而測序片段（reads）就是那段文章中，隨機切取出來的句子。其中一種重建出這段文章的方式，就是找到句子中重疊的部分，因為一旦找到夠多重疊的部分，我們就有機會將每個句子連接到一起，進而得到原始的文章。不難想像，此過程的困難不僅僅在於需要進行大量的片段比對，還會因原本文章的複雜度而製造更多問題：例如原本的文章可能有許多重復的段落，而帶有這些重複段落的文句可能會重疊在一起；又或者我們所拿到的句子中若有錯別字，亦會增加尋找重疊片段的難度。同樣的問題也同樣存在於生物資訊的序列組裝分析裡。
+[[File:Seqassemble.png|居中|缩略图|450x450像素|重複片段(repeats)的問題：假設黑色序列是原來被測序分子，我們可難到這段序列中有兩次CGGAGAGG的重複。如果我們今天只能拿到較短的測序片段(上方，粉紅色)，那麼我們會無法斷定CGGAGAGG這個序列來自分子的何處。相反的，較長的測序片段(下方，綠，紅，藍色)則可解決這個問題。]]
-== 基因組組裝 ==
+== 方法 ==
+依照參考序列（reference sequence）的有無，序列組裝可分為<ref name=Miller2010>{{cite journal|author=Miller, JR., Koren, S., Sutton, G.| year=2010 |title=Assembly algorithms for next-generation sequencing data| url=http://www.sciencedirect.com/science/article/pii/S0888754310000492| journal=Genomics| volume=95| issue=6|pages=315–327| doi=10.1016/j.ygeno.2010.03.001}}</ref>：
+# ''' ''De-novo''組裝'''：在沒有參考序列的情況下，僅使用序列片段所提供的資訊來組裝的方法(拉丁語：{{lang|lt|de novo}}，意指「新的」）
+# '''Mapping組裝'''：在有參考序列的情況下，將測序片段比對(align/map)至參考序列上，以取得組裝結果
+# '''引導式組裝(guided assembly)'''：介於de-novo組裝與mapping組裝之間 - 在有參考序列的情況下，以其作為引導，並結合使用序列片段本身的資訊進行組裝
+舉例來說，在進行{{link-en|全基因組測序分析|whole genome sequencing|}}時，de-novo組裝可能被使用在非[[模式物種]]基因組的分析上，因為其沒有臨進物種的基因組提供參考。相反的，如果有有鄰近或相同物種的基因組可做參考，則可使用mapping組裝或引導式組裝（{{lang|en|genome guided assembly}}）。
+''De-novo''組裝又可分為三種演算法：
+(1) Overlap - Layout - Consensus，OLC法：即文章前段所舉的例子。此演算法分為三個步驟(圖一) - 先找出測序片段中'''重疊'''的部分(Overlap)，接著'''配置'''出這些片段可能的順序(Layout)，最後從這些片段中找出'''保守'''的序列(Consensus)，組裝得到原始序列。此方法雖然直觀，但其電腦演算量較大，故通常被使用在組裝資料量不大而測序長度較長的資料上（例如Pac-Bio的測序結果）<ref name=Ekblom2014>{{cite journal| author=Ekblom, R., Wolf, J.| year=2014 |title=A field guide to whole-genome sequencing, assembly and annotation| url=http://onlinelibrary.wiley.com/doi/10.1111/eva.12178/abstract| journal=Evolutionary Applications| volume=7| issue=9|pages=1026–1042| doi=10.1111/eva.12178}}</ref>。
+(2) {{link-en|De-Bruijn|De-Bruijn graph}}圖法，DBG法：此方法使用數學[[圖論]]中{{link-en|De-Bruijn Graph|De-Bruijn圖}}的概念，先將每個測序片段拆解成{{link-en|k-mer}}（一個字串中所有長度為k的可能字串子集合）。接著從這些k-mer重疊的區段建構出De-Bruijn圖，再利用演算法解出De-Bruijn圖的結構並取得組裝結果（圖二）。此方法雖不如OLC法直觀，但在電腦演算需求上較OLC法小，故通常被用於資料量大而片段短的分析上（例如Illumina的測序結果）<ref name=Ekblom2014></ref>。
+(3) [[貪心法|貪婪演算法]]
+[[File:OLC,Overlap-Layout-consensus.png|居中|缩略图|600x600像素|圖一．OLC法示意圖]]
+[[File:De-bruijn-dna-assembly.png|居中|缩略图|600x600像素|圖二．DBG法示意圖]]
+== 應用 ==
+# 全[[基因組]]組裝：組裝一個生物的基因組序列，可被應用於基因表現分析、個體間基因體差異比對、基因體層級的疾病研究等<ref name=Sharman2001>{{cite journal|author=Sharman, A.| year=2001 |title=The many uses of a genome sequence| url=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC138940/| journal=Genome Biology| volume=2| issue=6|pages=4013.1–4013.4}}</ref>。
+# [[RNA]][[轉錄組]]組裝：從RNA測序並組裝，取得[[基因表現|表現的基因]]的序列與表現量資料
+# EST組裝
+== 序列組裝程式==
 最早的序列組裝程式大約在1980至1990年代初期被發明。其雛形是[[序列比對|序列比对]]分析的程式。 隨著定序技術的進步以及被定序生物複雜度的增加(從小的 [[病毒]] 在 [[质粒|质體]]至 [[细菌]] 和最後 [[真核生物]])，序列組裝程式所採用的演算法也越趨複雜。基本上，組裝程式都至少要能應付下面三大問題：
 * 大量的原始數據：一次的[[高通量測序]]可能產出數百至上千[[GB]] 的測序資料。為了分析如此大量的資料，組裝程式通常都需要在[[超級電腦]]或[[電腦叢集]]上運作。
@@ 第13行： / 第39行： @@
 * {{link-en|測序錯誤|sequencing error}}：測序錯誤可能產生自機器和技術本身的限制，而這樣的錯誤增加了序列比對的難度。<br>
 基因組組裝程式Celera<ref>{{cite journal|title=A whole-genome assembly of Drosophila|url=http://www.sciencemag.org/cgi/pmidlookup?view=long&pmid=10731133|last2=Sutton|first2=GG|date=March 2000|journal=Science|issue=5461|doi=10.1126/science.287.5461.2196|volume=287|pages=2196–204|bibcode=2000Sci...287.2196M|pmid=10731133|last3=Delcher|first3=AL|last4=Dew|first4=IM|last5=Fasulo|first5=DP|last6=Flanigan|first6=MJ|last7=Kravitz|first7=SA|last8=Mobarry|first8=CM|last9=Reinert|first9=KH|display-authors=8|last1=Myers|first1=E. W.|last10=Remington|first10=K. A.|last11=Anson|first11=E. L.|last12=Bolanos|first12=R. A.|last13=Chou|first13=H. H.|last14=Jordan|first14=C. M.|last15=Halpern|first15=A. L.|last16=Lonardi|first16=S|last17=Beasley|first17=E. M.|last18=Brandon|first18=R. C.|last19=Chen|first19=L|last20=Dunn|first20=P. J.|last21=Lai|first21=Z|last22=Liang|first22=Y|last23=Nusskern|first23=D. R.|last24=Zhan|first24=M|last25=Zhang|first25=Q|last26=Zheng|first26=X|last27=Rubin|first27=G. M.|last28=Adams|first28=M. D.|last29=Venter|first29=J. C.}}</ref> 和Arachne<ref>{{cite journal|title=ARACHNE: a whole-genome shotgun assembler|url=http://www.genome.org/cgi/pmidlookup?view=long&pmid=11779843|last2=Jaffe|first2=DB|date=January 2002|journal=Genome Research|issue=1|doi=10.1101/gr.208902|volume=12|pages=177–89|pmc=155255|pmid=11779843|last3=Stanley|first3=K|last4=Butler|first4=J|last5=Gnerre|first5=S|last6=Mauceli|first6=E|last7=Berger|first7=B|last8=Mesirov|first8=JP|last9=Lander|first9=ES|last1=Batzoglou|first1=S.|author7-link=Bonnie Berger}}</ref> 在2000年被研發出來 - 當時科學家試著組裝第一個較大型[[真核生物]]的基因組(果蝇)，緊接著是隔年的[[人类基因组計畫]]。這兩個程式能处理約100至300亿个鹼基對的基因組。 隨後，更大更複雜的組裝程式也被發明，例如阿莫斯組裝程式(AMOS, A Modular Open-source Assembler)<ref>[http://amos.sourceforge.net/ AMOS page] with links to various papers</ref> 等。
-[[File:Seqassemble.png|居中|缩略图|450x450像素|重複片段(repeats)的問題：假設黑色序列是原來被測序分子，我們可難到這段序列中有兩次CGGAGAGG的重複。如果我們今天只能拿到較短的測序片段(上方，粉紅色)，那麼我們會無法斷定CGGAGAGG這個序列來自分子的何處。相反的，較長的測序片段(下方，綠，紅，藍色)則可解決這個問題。]]
-== De-novo 組裝與引導式組裝 ==
-依照參考序列（reference sequence）的有無，序列組裝可分為：
-# de-novo組裝：完全沒有參考序列的情況下，完全使用序列片段所提供的資訊來組裝的方法(拉丁語：{{lang|lt|de novo}}，意指「新的」）
-# 引導式組裝：在有參考序列的情況下，我們可將測序所得的序列片段回貼(remap)至參考序列上，再從回貼結果建立出一个类似的但不一定完全相同的序列
-例子：在{{link-en|全基因組測序分析|whole genome sequencing|}}中，de-novo 組裝可能被應用在非模式物種的基因組組裝上 - 因為我們沒有相進物種的基因組提供參考。相反的，如果有一個基因組與你的測序物種很接近，那就可以考慮以該物種的基因組作為參考，進行引導式組裝（{{lang|en|genome guided assembly}}）。
+下表列出了部分能夠進行''de-novo''組裝的程式。<ref>[http://seqanswers.com/forums/showthread.php?t=43 list of software including mapping assemblers in the SeqAnswers discussion forum.]</ref>
-== 組裝程式(部分) ==
-下表列出了一些能夠進行de novo組裝的程式。<ref>[http://seqanswers.com/forums/showthread.php?t=43 list of software including mapping assemblers in the SeqAnswers discussion forum.]</ref>
 {| border="1" class="wikitable sortable" style="margin-bottom: 10px;"
 !程式名稱