DNA測序

維基百科,自由的百科全書
前往: 導覽搜尋

DNA測序DNA sequencing,或譯DNA定序)是指分析特定DNA片段的鹼基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)與鳥嘌呤的(G)排列方式。快速的DNA測序方法的出現極大地推動了生物學和醫學的研究和發現。

在基礎生物學研究中,和在眾多的應用領域,如診斷,生物技術,法醫生物學,生物系統學中,DNA序列知識已成為不可缺少的知識。具有現代的DNA測序技術的快速測序速度已經有助於達到測序完整的DNA序列,或多種類型的基因組測序和生命物種,包括人類基因組和其他許多動物,植物和微生物物種的完整DNA序列。

RNA測序則通常將RNA提取後,反轉錄為DNA後使用DNA測序的方法進行測序。目前應用最廣泛的是由弗雷德里克·桑格發明的Sanger雙脫氧鏈終止法(Chain Termination Method)[1]。新的測序方法,例如454生物科學的方法和焦磷酸測序法

自動化chain-termination DNA測序結果的一個例子.

應用[編輯]

DNA測序可用於確定任何生物的單個基因的序列,較大的遺傳區域(即基因簇或操縱子的簇),完整的染色體或整個基因組。 DNA測序也是對RNA蛋白質進行測序的最有效方法(通過對開放閱讀框測序)。目前,DNA測序已成為生物學和其他科學領域(如醫學,法醫學或人類學等)的關鍵技術。

分子生物學[編輯]

分子生物學中,DNA測序可被用於研究基因組及其編碼的蛋白質。利用測序獲得的信息,科研人員能夠識別基因的變化,基因與疾病和表型的關聯,並確定潛在的藥物靶點。

進化生物學[編輯]

由於DNA是攜帶有遺傳信息的大分子,在進化生物學中,DNA測序被用於研究不同生物體之間的相關性以及它們是如何進化的。

宏基因組學(或元基因組學)[編輯]

宏基因組學是一門直接取得環境中所有遺傳物質的研究。環境包括但不限於水體,污水,污垢,從空氣中過濾出的碎片或者從生物體採集的樣本。了解在特定環境中存在哪些生物體對於生態學流行病學微生物學和其他領域的研究至關重要。DNA測序使研究人員能夠確定微生物群中可能存在哪些類型的微生物

醫學[編輯]

醫療人員可通過對患者基因(基因組)的測序結果確定該患者是否有攜帶遺傳性疾病的風險。需要注意的是,該方法屬於基因檢測,有些基因檢測不會用到DNA測序技術。

法醫學[編輯]

DNA測序可以與DNA圖譜鑑定(基因指紋分析,英語:DNA profiling)一起用於法醫鑑定和親子鑑定。 DNA測試在過去的幾十年中發展迅猛,目前已能夠做到將DNA鑑定結果與被調查對象聯繫起來。指紋,唾液,毛囊等中的DNA特徵可以將不同的生物體進行區分。測試DNA是一種可以檢測DNA鏈中特定基因組並生成唯一的個性化DNA模型的技術。每一種有機體都有其DNA特徵,並可以通過DNA測試來確定。兩個人具有完全相同的DNA特徵是非常罕見的,因此保證了DNA測試的成功。

歷史[編輯]

DNA結構與功能的發現[編輯]

弗雷德里克·桑格,DNA測序的先驅者。桑格是少數獲得兩項諾貝爾獎的科學家之一,其中一項為蛋白質測序,另一項為DNA測序。

脫氧核糖核酸(DNA)最早在1869年由Friedrich Miescher發現並分離出來,但由於當時普遍認為遺傳信息保存於蛋白質而不是DNA中,因此在過去幾十年中DNA一直沒有得到充分研究。1944年,由於Oswald Avery,Colin MacLeod和Maclyn McCarty的一些實驗表明,純化的DNA可以將一種細菌變成另一種細菌,這種情況才發生了變化。這也是首次DNA顯示出改變細胞特性的能力。

1953年,James Watson和Francis Crick根據Rosalind Franklin研究的結晶X射線結構提出了他們的雙螺旋DNA模型。根據該模型,DNA由彼此纏繞的兩條核苷酸鏈組成,通過氫鍵連接在一起並以相反方向運行。每條鏈由四個互補的核苷酸組成:腺嘌呤(A),胞嘧啶(C),鳥嘌呤(G)和胸腺嘧啶(T),其中A與T配對,C與G配對。他們提出的這種結構,使得每條單鏈都可被用於重建另一條鏈,並且讓遺傳信息代代相傳。

對蛋白質進行測序的基礎首先由弗雷德里克·桑格(Frederick Sanger)的工作奠定,他於1955年完成了胰島素(胰腺分泌的一種蛋白質)中所有胺基酸序列的測序工作。這是首個確鑿的證據證明蛋白質是具有特定分子模式的化學實體,而不是懸浮在流體中的隨機混合物。桑格在胰島素測序方面的成功使得X射線晶體學家大為振奮,包括沃森和克里克,他們現在正試圖理解DNA如何指導細胞內蛋白質的形成。在1954年10月弗雷德里克·桑格出席一系列講座後不久,克里克開始發展一種理論,認為DNA中核苷酸的排列決定了蛋白質中胺基酸的序列,從而幫助確定蛋白質的功能。他於1958年發表了這一理論。

RNA測序[編輯]

RNA測序是最早的核苷酸測序形式之一。 RNA測序的主要標誌是1972年和1976年Walter Fiers及其同事在根特大學(根特,比利時)確定並發表的第一個完整基因序列和噬菌體MS2的完整基因組。傳統的RNA測序方法需要創建一個用於測序的互補cDNA(Complementary DNA)分子。

全基因組測序[編輯]

第一個完整的DNA基因組測序是在1977年噬菌體φX174的測序工作。醫學研究委員會的科學家在1984年破譯了Epstein-Barr病毒的完整DNA序列,發現它含有172,282個核苷酸。 該序列的完成標誌著DNA測序的一個重要轉折點,它在沒有病毒基因譜知識的情況下實現了DNA測序。

20世紀80年代初,Pohl及其同事開發了一種在電泳時將測序反應混合物的DNA分子轉移到固定基質上的非放射性方法。隨後GATC Biotech公司的DNA測序儀「Direct-Blotting-Electrophoresis-System GATC 1500」商業化,該測序儀在EU基因組測序程序的框架以及酵母釀酒酵母染色體II的完整DNA序列中廣泛使用。加利福尼亞理工學院的Leroy E. Hood實驗室於1986年宣布了第一台半自動DNA測序機。隨後,Applied Biosystems在1987年推出了第一台全自動測序儀ABI 370。以及Dupont公司的Genesis 2000,該儀器使用了一種新的螢光標記技術,可在單一泳道中識別所有四個雙脫氧核苷酸。到1990年,美國國立衛生研究院(NIH)已開始對支原體,大腸桿菌,秀麗隱杆線蟲和釀酒酵母進行大規模測序實驗,費用為每個鹼基0.75美元。同時,人類cDNA序列的測序始於Craig Venter的實驗室,試圖獲取人類基因組的編碼部分。 1995年,Venter,Hamilton Smith及其基因組研究所(TIGR)的同事發表了第一個完整的自由生物體細菌流感嗜血桿菌(Haemophilus influenzae)的基因組。該環形染色體中含有1,830,137個鹼基,其在《科學》雜誌中的發表標誌著全基因組鳥槍法測序的首次公開使用,擺脫了初始繪製工作的需要。

基本方法[編輯]

Maxam-Gilbert測序法[編輯]

馬克薩姆-吉爾伯特測序(英語:Maxam-Gilbert sequencing)是一項由阿倫·馬克薩姆英語Allan Maxam沃爾特·吉爾伯特於1976~1977年間開發的DNA測序方法。此項方法基於:對核鹼基特異性地進行局部化學改性,接下來在改性核苷酸毗鄰的位點處DNA骨架發生斷裂[2]

Sanger測序法[編輯]

Sanger(桑格)雙脫氧鏈終止法弗雷德里克·桑格(Frederick Sanger)於1975年發明的。測序過程需要先做一個聚合酶連鎖反應(PCR)。PCR過程中,雙脫氧核苷酸可能隨機地被加入到正在合成中的DNA片段里。由於雙脫氧核糖核苷酸又少了一個原子,一旦它被加入到DNA鏈上,這個DNA鏈就不能繼續增加長度。最終的結果是獲得所有可能獲得的、不同長度的DNA片段。目前最普遍最先進的方法,是將雙脫氧核糖核苷酸進行不同螢光標記。將PCR反應獲得的總DNA通過毛細管電泳分離,跑到最末端的DNA就可以在雷射的作用下發出螢光。由於ddATP, ddGTP, ddCTP, ddTTP(4種雙脫氧核糖核苷酸)螢光標記不同,計算機可以自動根據顏色判斷該位置上鹼基究竟是A,T,G,C中的哪一個[3]

高級方法和de novo測序法[編輯]

霰彈槍定序法[編輯]

霰彈槍定序法Shotgun sequencing,又稱鳥槍法)是一種廣泛使用的為長DNA測序的方法,比傳統的定序法快速,但精確度較差。曾經使用於塞雷拉基因組(Celera Genomics)公司所主持的人類基因組計劃

Bridge PCR[編輯]

新一代測序[編輯]

隨著人們對低成本測序的需求與日俱增,推動了高通量測序(或稱為二代測序新一代測序下一代測序)的發展,這些技術對測序過程多路復用,同時產生上千或上百萬條序列[4][5]。高通量測序技術的目的是降低DNA測序的成本,這個成本比同樣可實現測序的染料終止法來得低得多[6]。超高通量測序過程中可同時運行高達500,000次的邊合成邊測序[7][8][9]

需要根據多個片段序列所重疊的區域將它們全部組裝起來。
新一代測序方法的比較 [10][11]
方法 單分子實時測序(Pacific Bio) 離子半導體(Ion Torrent sequencing) 焦磷酸測序(454) 邊合成邊測序(Illumina) 邊連接邊測序(SOLiD sequencing) 鏈終止法(Sanger sequencing)
讀長 5,500 bp to 8,500 bp avg (10,000 bp N50); maximum read length >30,000 bases[12][13][14] up to 400 bp 700 bp 50 to 300 bp 50+35 or 50+50 bp 400 to 900 bp
精確度 99.999% consensus accuracy; 87% single-read accuracy[15] 98% 99.9% 98% 99.9% 99.9%
每次運行可獲取讀段數 50,000 per SMRT cell, or ~400 megabases[16][17] up to 80 million 1 million up to 3 billion 1.2 to 1.4 billion N/A
每次運行耗時 30 minutes to 2 hours [18] 2 hours 24 hours 1 to 10 days, depending upon sequencer and specified read length[19] 1 to 2 weeks 20 minutes to 3 hours
每百萬鹼基所耗成本(美元) $0.33-$1.00 $1 $10 $0.05 to $0.15 $0.13 $2400
優勢 Longest read length. Fast. Detects 4mC, 5mC, 6mA.[20] Less expensive equipment. Fast. Long read size. Fast. Potential for high sequence yield, depending upon sequencer model and desired application. Low cost per base. Long individual reads. Useful for many applications.
劣勢 Moderate throughput. Equipment can be very expensive. Homopolymer errors. Runs are expensive. Homopolymer errors. Equipment can be very expensive. Requires high concentrations of DNA. Slower than other methods. Have issue sequencing palindromic sequence.[21] More expensive and impractical for larger sequencing projects.

454生物科學和焦磷酸測序法[編輯]

454測序法由454生物科學發明,是一個類似焦磷酸測序法的新方法。2003年向GenBank提交了一個腺病毒全序列[22],使得他們的技術成為Sanger測序法後第一個被用來測生物基因組全序列的新方法。454使用類似於焦磷酸測序的方法,有著相當高的讀取速度,大約為5小時可以測兩千萬鹼基對[23]

正在開發的測序法[編輯]

奈米孔DNA測序法[編輯]

參見[編輯]

參考文獻[編輯]

  1. ^ http://www.bioon.com/experiment/nua2/89939.shtml
  2. ^ Maxam AM, Gilbert W. A new method for sequencing DNA. Proc. Natl. Acad. Sci. U.S.A. February 1977, 74 (2): 560–4. Bibcode:1977PNAS...74..560M. PMC 392330. PMID 265521. doi:10.1073/pnas.74.2.560. 
  3. ^ http://en.wikipedia.org/wiki/Chain_termination_method
  4. ^ Hall, Nell. Advanced sequencing technologies and their wider impact in microbiology. J. Exp. Biol. May 2007, 209 (Pt 9): 1518–1525. PMID 17449817. doi:10.1242/jeb.001370. 開放獲取內容
  5. ^ Church, George M. Genomes for all. Sci. Am. January 2006, 294 (1): 46–54. PMID 16468433. doi:10.1038/scientificamerican0106-46. Paid subscription required
  6. ^ 引用錯誤:沒有為名為pmid18165802的參考文獻提供內容
  7. ^ Kalb, Gilbert; Moxley, Robert. Massively Parallel, Optical, and Neural Computing in the United States. IOS Press. 1992. ISBN 90-5199-097-9. [頁碼請求]
  8. ^ Ten Bosch, J. R.; Grody, W. W. Keeping Up with the Next Generation. The Journal of Molecular Diagnostics. 2008, 10 (6): 484–492. PMC 2570630. PMID 18832462. doi:10.2353/jmoldx.2008.080027.  編輯開放獲取內容
  9. ^ Tucker, T.; Marra, M.; Friedman, J. M. Massively Parallel Sequencing: The Next Big Thing in Genetic Medicine. The American Journal of Human Genetics. 2009, 85 (2): 142–154. PMC 2725244. PMID 19679224. doi:10.1016/j.ajhg.2009.06.022.  編輯開放獲取內容
  10. ^ Quail, Michael; Smith, Miriam E; Coupland, Paul; 等. A tale of three next generation sequencing platforms: comparison of Ion torrent, pacific biosciences and illumina MiSeq sequencers. BMC Genomics. 1 January 2012, 13 (1): 341. PMC 3431227. PMID 22827831. doi:10.1186/1471-2164-13-341. 開放獲取內容
  11. ^ Liu, Lin; Li, Yinhu; Li, Siliang; 等. Comparison of Next-Generation Sequencing Systems. Journal of Biomedicine and Biotechnology (Hindawi Publishing Corporation). 1 January 2012, 2012: 1–11. doi:10.1155/2012/251364. 開放獲取內容
  12. ^ New Products: PacBio's RS II; Cufflinks | In Sequence | Sequencing | GenomeWeb
  13. ^ After a Year of Testing, Two Early PacBio Customers Expect More Routine Use of RS Sequencer in 2012. GenomeWeb. 10 January 2012. 需註冊
  14. ^ Pacific Biosciences Introduces New Chemistry With Longer Read Lengths
  15. ^ http://www.nature.com/nmeth/journal/v10/n6/full/nmeth.2474.html
  16. ^ De novo bacterial genome assembly: a solved problem? | In between lines of code
  17. ^ Rasko, David A.; Webster, Dale R.; Sahl, Jason W.; 等. Origins of the Strain Causing an Outbreak of Hemolytic–Uremic Syndrome in Germany. N Engl J Med. 25 August 2011, 365 (8): 709–717. doi:10.1056/NEJMoa1106920. 開放獲取內容
  18. ^ Tran, Ben; Brown, Andrew M.K.; Bedard, Philippe L.; Winquist, Eric; Goss, Glenwood D.; Hotte, Sebastien J.; Welch, Stephen A.; Hirte, Hal W.; Zhang, Tong; Stein, Lincoln D.; Ferretti, Vincent; Watt, Stuart; Jiao, Wei; Ng, Karen; Ghai, Sangeet; Shaw, Patricia; Petrocelli, Teresa; Hudson, Thomas J.; Neel, Benjamin G.; 等. Feasibility of real time next generation sequencing of cancer genes linked to drug response: Results from a clinical trial. Int. J. Cancer. 1 January 2012: 1547–1555. doi:10.1002/ijc.27817. Paid subscription required
  19. ^ van Vliet, Arnoud H.M. Next generation sequencing of microbial transcriptomes: challenges and opportunities. FEMS Microbiology Letters. 1 January 2010, 302 (1): 1–7. doi:10.1111/j.1574-6968.2009.01767.x. 開放獲取內容
  20. ^ Murray, I. A.; Clark, T. A.; Morgan, R. D.; Boitano, M.; Anton, B. P.; Luong, K.; Fomenkov, A.; Turner, S. W.; Korlach, J.; Roberts, R. J. The methylomes of six bacteria. Nucleic Acids Research. 2 October 2012, 40 (22): 11450–62. PMC 3526280. PMID 23034806. doi:10.1093/nar/gks891. 
  21. ^ Yu-Feng Huang, Sheng-Chung Chen, Yih-Shien Chiang, Tzu-Han Chen & Kuo-Ping Chiu. Palindromic sequence impedes sequencing-by-ligation mechanism. BMC systems biology. 2012,. 6 Suppl 2: S10. PMID 23281822. doi:10.1186/1752-0509-6-S2-S10. 
  22. ^ 存檔副本. [2006-11-17]. (原始內容存檔於2006-10-29). 
  23. ^ 存檔副本. [2006-11-17]. (原始內容存檔於2006-10-29).