最大簡約法

维基百科,自由的百科全书
跳转至: 导航搜索

最大簡約法英语Maximum parsimony)是一種常使用於系統發生學計算的方式,可用來根據分子序列的變異程度,來分析生物之間的演化關係,進而建構出演化樹

「簡約」一般有「經濟的」或「儉省的」之義,但在生物學中,「簡約法」是屬於無母數統計的一種統計方法以估計親緣關係。以最大簡約法建構的親緣關係樹是以演化過程具有最少次變化為前提,表示現存資料在過去的演化過程應由最少次步驟所形成。這項概念由Walter M. Fitch在1971年所提出。[1].

雖然演化過程並非必定由最少次步驟所形成,但普遍上認為較簡約的步驟比起較繁複的步驟在演化過程中更容易發生。因此,「簡約」的概念仍是建構親緣關係的重要標準。[2]

在最大簡約法的概念下,所需變異次數最少的一棵演化樹為最合適的結果。不過由於趨同演化現象的存在,最大簡約法有時會使得原本不同起源的生物被歸為相近生物。一般而言,最大簡約法大多使用於相近物種之間演化關係的分析。

發展歷史[编辑]

於1950年代,電子計算機開始在學術界間流行,使得生物學家有機會利用電子計算機分析資料量龐大的系統發生學問題。於1957年,兩位昆蟲學家,Charles D. Michener與Robert R. Sokal,所發發表的論文中以數學的角度討論如何對不同類別的生物進行分類學工作,並跨及系統發生學的概念。[3]隨後,Robert R. Sokal與Peter H. A. Sneath在1963年出版的著作《Principles of Numerical Taxonomy》中報導了多項分類學在數學上的分析方法及實例,並提出分類學應以系統發生學為基礎的概念。該著作亦被數學家、統計學家及精神測定學家視為重要學術基礎。在同一時代,分子生物學在方法上亦有重要發展,例如測定蛋白質序列,而提供了系統發生學者嶄新的分析材料來源。

於1963年,Luigi L. Cavalli-Sforza與Anthony W. F. Edwards在研討會中首次以「parsimony」的字眼描述他們用來分析人類中不同族群的親緣關係,並在1965年的出版文章中以該親緣分析的結果繪製成人類不同族群的基因型在世界地圖上分化的路徑。[4][5]然而,這些文章雖引出簡約法的概念,並沒有提出簡約法的演算方式

Joseph Camin與Robert R. Sokal於1965年發表的文章中首次報導基於簡約法的演算法。[6]在這篇文章中,作者們明確指出簡約法的意涵:

……我們提出此研究方法的正確性的依據是:大自然確實是以簡約為前提……(... the correctness of our approach depends on the assumption that nature is, indeed, parsimounious,...

隨後,Roland Bartcher於1966年以FORTRAN程式語言實作了此演算法。[7]至1966年,R. V. Eck與M. O. Dayhoff的著作中報導了針對蛋白質胺基酸序列為對象的簡約法演算法。[8]

簡約法的概念及其演算法雖然在1957至1966年被多位學者提出,但造成普及是源自Walter M. Fitch與Emanuel Margoliash在1967年所發表的文章。[9]該文章中引入了權重分子時鐘的概念。隨後,Walter M. Fitch發表了針對DNA序列的演算法,成為最著名的演算法。[2]

理論背景[编辑]

簡約法利用系統發生學上的離散資料作為特徵所構成的矩陣估計一個或多個最佳的系統發生樹,而這些資料來源可能是有遺傳關係的多個物種或多個族群,之後最大簡約法在可能的親緣樹中挑選需最少步驟可形成者作為所估計的親緣關係樹。最大簡約法可使用於分析大多數的系統發生資料,但在近年由於其它方法的興起,目前較常使用於形態資料而非核酸或蛋白質資料。

估計系統發生樹並不是一件簡單的事。在給定一群分類群之後則可產生非常多種系統發生樹,例如,10個物種按排列可以構成超過2,000,000種無根樹。在諸多可能的親緣樹中,必須藉由特定標準以選出與資料最相符者。然而,資料往往並不能由簡單的演算法所分析。理想上預期某個演化特徵(例如表型等位基因)在演化中勢必經歷呈由一分二、由二分四的過程,所以可以推論共享有相同特徵的分類群之親緣關係較相近,而與不具有此特徵的分類群之親緣關係較遠(在該特徵並不存在於共同祖先的前提下;即Symplesiomorphy英语Symplesiomorphy)。在這個概念下,我們可以預期蝙蝠與猴的親緣關係較近而蝙蝠與魚則較遠,因為蝙蝠與猴共享有體毛的相同特徵。然而,我們並不能說蝙蝠與猴的親緣關係較近而蝙蝠與鯨魚則較遠,因為我們以三者的共同祖先具有體毛特徵為前提。

然而,演化過程有諸多現象,包括趨同演化平行演化祖徵重現evolutionary reversal),也就是多個非同源物種發生相同特徵(homoplasy)的現象,使得以上述概念估計親緣關係樹時發生偏差。由於諸多原因,二個物種可能發生相同特徵但並非源自於他們的共同祖先。假如我們視這項相同特徵為二物種關係相近的證據,則會重建一個錯誤的親緣關係樹。此外,具有趨同特徵的親緣資料可能因取用不同部份資料進行分析而估計出結果非常不同的親緣關係樹。因此,估計親緣關係樹的方法必須藉由選取最符合所有資料的親緣關係樹以解決上述衝途(即使有少部份資料仍支持錯誤結論)。簡約法常被錯誤地以「趨同並不常發生」為前提。事實上,趨同演化所產生的特徵在最大簡約法上仍有分析價值,而普遍存在的趨同特徵並不能系統性地影響以簡約法為基礎的分析結果。 [10]

與親緣關係樹不相符的資料並不能簡單地視為「雜訊」,而可能在親緣關係樹的某些部份提供了親緣關係之訊號。在上述蝙蝠、猴與鯨魚的例子中,不具有體毛特徵的鯨魚反應出哺教動物始祖可能不具有體毛(即homoplastic)。這暗示著體毛這項特徵可能在蝙蝠與猴的共同祖先發生,但鯨魚的祖先早在體毛特徵發生之前即分化至其它支系。然而,鯨目的物種在演化史上確實失去體毛而非直接繼承自無體毛的祖先。究竟如何決定最佳的親緣關係樹,包括找出與親緣關係樹不相符的資料,是一項複雜的過程。最大簡約法即是被設計成解決這項困難的研究方法。

特徵資料[编辑]

最大簡約法所需要輸入的資料是多個分類群或族群的「特徵」。雖然對親緣特徵並沒有絕對的定義,但實務上常以某項屬性作為特徵,例如動物的體長。屬性可以是與形態學 (生物學)分子遺傳生理動物行為學相關的,但以能夠呈現遺傳變異為原則。至於選用的屬性是否可被直接遺傳(如基因)或被間接遺傳(如動物行為學)則尚無定論。

每一項特徵必須被分類為離散的變數,稱為特徵狀態。特徵狀態經常以描述詞呈現,例如「眼睛顏色」這項特徵的特徵狀態可以是「藍色」及「棕色」等描述詞。特徵可以具有二種以上的狀態。僅具有一種狀態的特徵因為缺乏呈現變異的資訊,所以在最大簡約法並沒有功用且常被事先排除。

對特徵賦予某個狀態在系統發生分析上並不是絕對科學的,並且常常具有爭議。例如在上述眼睛顏色的例子中,如何明確地賦予某個體具有「淡褐色」眼睛的特徵狀態是不確定的:應分類作淡褐色、綠色或藍色?在通常情況下,相似特徵被賦予相同的特徵狀態,所以可以將淡褐色與綠色賦予相同狀態(因為二者皆為淺色),或是採用更多的狀態來同時描述同一個特徵。由此可知,對特徵賦予某個狀態可能模凌兩可而存在爭議。

這些模凌兩可的特徵狀態是造成使用特徵資料進行系統分類分析發生錯誤的主要原因。在上述眼睛顏色的例子中,「有無眼睛」也是一個可能的特徵,但不具有眼睛的個體即無法被賦予「眼睛顏色」的狀態而造成空缺值。在這種情況下,實務上使用「?」、「X」或「-」等符號以表示未知的特徵狀態。目前最大簡約法將這些未知的特徵狀態的發生原因一律視為「對分析不具特定效果」,也就是說,分析過程對於某個「?」資料視為基於最大簡約下最可能的某一項狀態。

遺傳資料,例如核酸或蛋白質序列,對這些基於特徵的系統分析方法(包括最大概似法)是合適的,因為核酸或蛋白質序列本身即為離散資料。例如在核酸序列中,特定位點只可能是腺嘌呤胞嘧啶鳥嘌呤胸腺嘧啶尿嘧啶或排比後的序列空缺(常記為「-」);例如在蛋白質序列中,每一個位點必為一個基本胺基酸或序列空缺。在這些情況下,對特徵賦予某個狀態幾乎沒有模凌兩可的可能情形,除非定序方法無法明確顯示何種狀態或序列排比存在爭議。序列空缺有時也被視為一種特徵,不過應對它賦予如何狀態則尚無共識。

無序與有序特徵[编辑]

特徵可以是無序或有序的。對二元特徵(如有或無)而言,無序或有序沒太大差別。對多狀態特徵而言,無序特徵可被視為「差異皆相等」,即在演化上狀態間轉換所需步驟數完全相同且不存在或不需要任何過渡狀態。對多狀態的有序特徵而言,狀態間轉換需要特定的過程且需要存在過渡狀態。換句話說,不同特定狀態間轉換所需要的步驟是不同的。如上述眼睛顏色的例子,若以無序特徵考量眼睛顏色這項特徵,則眼睛顏色在四種顏色間的轉換是相同距離的;若以有序特徵考量眼睛顏色特徵,則可能有「棕—淺褐—綠—藍」的順序,使得由棕色轉變至綠色有2個步驟而由棕色轉變至藍色有3個步驟,且淺褐色是棕色轉變至綠色的過渡狀態。

對有序特徵賦予狀態是否有效或適當是存在爭議的。當狀態的順序存在明顯邏級、狀態的順序可在個體發生學上驗證、或存在演化過程的明顯趨勢時,對有序特徵賦予狀態是相對容易的。然而,有些專家拒絕對採用有序特徵,因為有序特徵乃基於不可能完全被驗證的演化歷史。

特徵或狀態的權重[编辑]

特徵是可以被賦予不同的權重,使得在方法上認定某些特徵與真正的演化過程有較大或較小的關聯性。我們可以對在演化上容易反映演化歷史的特徵給予較大的權重而使該特徵轉換時需要更多的步驟。過去對特徵賦予不同的權重有許多討論。目前大多數人採用權重全相等(即放棄權重)的方式進行分析,但仍採用權重的情況仍十分常見。例如,等位基因频率資料常是比例資料且被設定為低權重的有序資料。又例如核酸序列中的第三位鹼基由於多不影響對特定胺基酸的配對,所以容易形成中性的變異,故應給予較低的權重以免對估計真實的系統發生樹造成干擾。

除了特徵間可賦予不同權重,同特徵內的不同狀態亦可賦予不同的權重。這種情況常發生在核酸序列資料上,因為核酸轉換機率並非全然相等。某些核酸轉換的機率較低(例如A-C、A-T、G-C、G-T等)故可賦予較高的權重以表示需較多的步驟方可產生這些變化。

未知狀態[编辑]

有些系統發生學者偏好保留大量的未知狀態(以「?」符號記)以表示無法得知狀態、懷疑狀態的真實性、或是視該特徵乃非同源物種的相同特徵(homoplasy)。理論上與模擬研究已指出這種保留大量未知狀態的方式並不能改善結果反而犧牲了分析的正確性。[來源請求]

類群的抽樣[编辑]

簡約法分析(或任何親緣樹分析)所需要的時間與多少類群被納入是呈比例關係的。此外,由於在分析中納入較多的類群必增加親緣關係樹的分支,故納入大量類群的分析將存在許多不確定性。由於收集資料有時間和金錢的限制,所以大多數的分析只採用某分類群內的部份可收集的子類群。事實上,某些學者主張僅納入4個類群(產生有意義之無根樹的最少類群數)即可達成一個正確的親緣分析,而納入越多的特徵比納入越多的類群更有價值。因此,納入多少類群作為分析資料仍未有共識且存在爭議。

無論以實務、理論及模擬的角度切入,已有許多研究指出納入足夠的類群具有高度重要性。這些研究大多數可總結一個現象:系統分析資料是一個特徵數乘以類群數的矩陣,故增加一倍的類群數與增加一倍的特徵數對該矩陣大小的貢獻量是相同的。此外,增加一個類群即使每一個特徵皆納入一個新的樣本,但更重要的是,這通常也納入了特徵狀態的「組合」。這些特徵狀態的組合不僅可決定該類群應位於親緣樹的哪個分支,也可能因改變了對特徵變化的估計而修正原本存在類群之間的親緣關係。

簡約法最大的弱點是容易產生長枝吸引效應long-branch attraction),而這經常在取樣的類群數不足之下發生(尤其是僅採用4個類群的情況下)。在這種情況下,僅藉由增加納入分析的特徵數量並無法有效地增加分析結果的正確性。若新納入分析的不是特徵而是類群,則往往可以去除長支吸引效應(尤其是化石資料)並有效地增加估計特徵在類群間的變化之正確性。由於目前已了解增加類群對分析具有重要的正向影響,採用數百個類群但僅納入千計的特徵仍可能產生正確性高的的分析結果。[來源請求]

雖然許多研究已指出增加類群數的重要性,但如何選擇採樣的策略仍需要更多研究。由於電腦的運算能力不斷進步以及定序的成本降低,有越來越多的親緣分析納入以百計的類群,且納入的特徵數也持續增加。

分析方法[编辑]

最大簡約法挑選無根親緣樹的例子。在4個類群的資料可排列產生3個不同樹形的最大簡約無根樹,其中具有最少步驟的無根樹為最大簡約法所偏好。

最大簡約法的概念非常直接:對所有可能的親緣關係樹計算其簡約程度(如特徵轉換的次數),並選取最簡約的樹(如特徵轉換的次數最少者)為最佳的親緣關係樹。

親緣關係樹的簡約程度乃藉由一個簡單的演算法推估演化過程中特徵發生轉變的「步驟」。所謂一個步驟是指某個特徵的狀態發生轉變(即成為另一個狀態)。在有序特徵中,同一個特徵內的狀態發生變化可能包括多個步驟。無論如何,這些步驟的結果被視為可以解釋現有資料的特徵分布。簡單來說,我們認為現有資料的特徵是由演化過程中特徵轉變步驟的結果。按排列組合產生諸多不同樹型的可能親緣關係樹,並以演算法推估每種樹型中最簡約(即最少次狀態轉變)的特徵轉變歷史。最終,在諸多可能的親緣關係樹之中,最大簡約法所偏好的是具有最少步驟的親緣關係樹。

簡約法分析基本上產生點估計,缺乏任何形式的信賴區間,這一點常被批評。已有幾種方法可以用來評估支持度。

刀切法Jackknifing)和自助法Bootstrapping),為統計上重新抽樣的步驟,已被應用於簡約法分析。刀切法重新抽樣的過程採取抽後不放回(即抽樣對象最多只會被抽一次),抽樣對象可以是特徵或分類單元。但如果抽樣對象為分類單元,之後的解釋會很複雜,因為我們感興趣的是樹形,而比較包含不同分類單元的樹的差異並不易懂。自助法採取抽後放回(即抽樣對象可被多次抽取),抽樣對象只有特徵,因為加入重複的分類單元至數據中並不會改變簡約法分析的結果。分析親緣關係時,自助法很常被使用。這兩種方法均可藉由大量重複抽樣的過程擾動原始數據。「自助百分比」(而非P值)用來評估支持度。

另一種估計支持度的方法為布雷默爾支持度Bremer support),即衰退指數decay index)(嚴格而言它並非一個指數)。其值常常很低(典型上為1或2步),但常和自助支百分比成比例。然而,衰退指數的值並不易懂,且常被反對自助法的作者接受(雖然許多型態系統分類學家,尤其是古生物學家,常常兩種值皆發表)。

演算法[编辑]

藉由特定的演算法可以估計特徵轉變在親緣關係樹上的過程,其中最著名的是由Walter M. Fitch所提出,但該演算法僅適用於較少類群之分析。大規模類群須藉由其它演算法,以僅計算部份可產生最大簡約程度之親緣關係樹的方式求解。

Fitch演算法[编辑]

以Fitch演算法計算有根樹的簡約程度之範例。

Fitch演算法源自於Walter M. Fitch在1971年所提出的概念,其內容是根據每個特定的特徵由現有二姊妹類群或支系之狀態以交集的方式估計上游節點的可能狀態;若該交集為空集合則以聯集取代交集並累加簡約分數。[2]

Fitch演算法可以一般化地表示成:在一個具有n個類群的親緣關係樹T中,某個特徵c具有k個可能狀態之,並將某節點v的狀態記為c(v),則對每個外部節點(即末端節點)的狀態之集合

S(v) = {c(v)}

而對每個具有uw子代節點的內部節點的狀態之集合


S(v) =
\begin{cases} 
S(u) \cap S(w),  & S(u) \cap S(w) \neq \varnothing \\
S(u) \cup S(w),  & S(u) \cap S(w) = \varnothing
\end{cases}

在起初賦予簡約分數z = 0,再逐一對每個節點v估計S(v)。每當


S(v) = S(u) \cap S(w) = \varnothing

z := z + 1。 在估計每個節點後,最終z即為該親緣關係樹發生狀態轉變的總次數。

適合大規模類群的演算法[编辑]

當愈分析的類群規模很大時,簡約法會遭遇到[[NP困难]]。下列為試圖解決此問題的幾種方法:

枝條綑紮法(Branch and Bound
由Hendy and Penny於1982年所提出。[11]此演算法考慮無根樹,先將三個分類單元構成一棵無根樹,計算需要幾步才可以解釋這棵樹所有的位點。然後估計再增加一物種所需最少的改變次數。此估計值為增加新物種的所有位點改變的總和。在運算過程中,將保留估計值最小的樹形。
最近鄰交換(Nearest neighbor interchange, NNI
最近鄰交換重新排列樹形的方法為解散子樹(subtree)的連接關係來形成不同的樹形。利用爬山演算法hill-climbing algorithms),永遠將最好的鄰居移置一起,直到沒有更好的鄰居存在。
子樹刪除-再接法(Subtree pruning and regrafting, SPR
由Maddison於1991年所提出。[12]將一子樹從原始樹上移除,再將子樹插回原始樹上其他的位置,以產生新的樹形。
子樹切斷-重連法(Tree Bisection and Reconnection, TBR
將子樹從母樹的內節點(interior node)上拆除,然後嘗試創造出所有可能將子樹和母樹的連接方法。這個方法常產生更多種連接的方法,故有更高的機會找到較好的樹。

最大簡約法在親緣分析上的問題[编辑]

最大簡約法是一種非常簡單的方法,也因此使其被廣為使用。然而,它並沒有統計一致性英语Consistency_(statistics)statistically consistent)。也就是說,當給予足夠的數據時,它不保證能產生具有高或然率的真正的樹。一致性,這裡指的是增加更多的數據後,將會單調收斂於正確答案,是一種任何統計方法均有的令人滿意的特性。如Joseph Felsenstein英语Joseph Felsenstein在1987年證明,[13]最大簡約法在一致的條件下可以是不一致的。這種已知會發生的情形被稱為長枝吸引效應。舉例來說,有兩個物種(A和C)具有長枝(有高度的鹼基置換率),而另外兩個物種(B和C)具有短枝。A和B是從共同祖先分化而來,C和D亦是。

為了簡單起見,假設我們考慮單一的二元特徵(它可以是+或-)。由於從B到D的距離短,在所有情況下,絕大多數會判定B和D是相同的。在此我們假設此兩者均為+ (+和-可被任意分配和置換)。在此情況下,有四個其它的可能性。A和C可以均為+,在這種情況下,所有的分類群均相同,且所有的樹均具有相同的長度。A可為+C可為-,在這種情況下,僅有一個特徵不相同,我們不能學到任何東西,所有的樹均具有相同長度。同樣地,A可為-C可為+。剩下唯一的可能為A和C均為-。然而,在這種情況下,我們將A和C分成一組,並將B和D分為一組。因此,當我們有一個這種類型的樹時,我們收集愈多數據(如研究更多特徵),愈傾向得到錯誤的樹。

SAW(以Siddal和Whiting命名)是一個簡單且有效的方法來測定樹形是否有受長枝吸引影響。若懷疑一對分類群(A和B)發生長枝吸引,只需移除分類群A (「鋸」除此分枝) 並重新執行分析。然後以相同方法移除B,再次執行分析。如果兩者中有任一分類群出現在不同的分枝點,即具有長枝吸引的證據。由於在分析時僅放入一長枝,此長枝不可能會吸引其他分類群,若處理間分類群的位置為一致的,則表示沒有長枝吸引的問題。[14]

估計親緣關係有幾種其他的方法可供選擇,包含最大似然法貝葉斯親緣關係推論近鄰結合法,和雙叉樹演算法quartet methods)。其中,前兩者均使用似然函數,並且,若使用得當,理論上可避免長枝吸引。此兩種方法均為參數的,表示其依賴一個明確的特徵演化模型。其已被證明,對於一些次佳的模型,這些方法亦可以是不一致的。[來源請求]

最大簡約法的另一個問題為尋找最簡約的樹是一個NP困难問題[15]。目前唯一可用、有效的解決方法為,給予一個任意的巨大分類群,利用探索方法不保證最簡約的樹會被重新找到。這些方法使用爬山演算法hill-climbing algorithms)逐漸接近最佳的樹。然而,其已被證明可以有次佳解的「樹島」,且分析可以被困在這些局部最佳en/Local_optima局部最佳local optima)處。因此,需要複雜的、靈活的探索方法,來確保樹空間已經被充分探索。一些探索方法可供選擇,包括最近鄰交換英语Nearest_neighbor_interchangeNearest Neighbor Interchange, NNI)、子樹切斷-重連法英语Nearest_neighbor_interchangeTree Bisection and Reconnection, TBR),及phylogenetic ratchet。這個問題並非最大簡約法獨有,任何利用到最佳標準的方法均面臨相同的問題,且沒有簡單的解決方法。

批評[编辑]

最大簡約法曾被斷言其最主要的問題,尤其在古生物學,是其假設兩物種要在相同位置共享相同核甘酸的唯一方法為此兩者需有血緣關係。這宣告簡約法假設所有相似性均為同源 (其他解釋則為荒謬的,如主張兩物種也許沒有血緣關係)。但顯然並非如此: 當以特徵的任何型式為基礎來估計親緣關係時,簡約法是利用尋找最佳親緣關係樹來測試相似性的同源性。

舉例來說,鳥和蝙蝠擁有翅膀,而鱷魚和人類則無。若這是唯一可用的數據,最大簡約法會傾向將鱷魚和人類分在同一組,鳥和蝙蝠分在同一組(其他親緣關係推論的方法亦同)。但根據更多數據而非單一特徵(翅膀),我們相信實際上比起鳥或鱷魚,人類和蝙蝠的關係較近。若分析中包含額外的數據,就算僅是微小的片段,如骨骼結構、軟組織英语Soft_tissue形態、皮膜、行為、遺傳…等,鳥和蝙蝠依據翅膀所產生之微小的親緣關係訊號,會被支持(人類、蝙蝠)(鳥、鱷魚)的數據壓倒。

簡約法常被認為不適合用來推論親緣關係,因為「演化並非最簡約的」。在多數情況下,明確的替代假說並沒有被提出,若沒替代假說可用,任何統計方法均傾向沒有假說。此外,也不清楚若句子「演化為簡約」為真,代表什麼意義。這可能意味著歷史上發生特徵的改變的次數,可能比用簡約法所估計出來的次數多。由於簡約法以發生最少次特徵改變來解釋樹,所以此情況極有可能發生。然而,曾有模擬的研究顯示,測試已知的體外培養(in vitro)病毒之親緣關係,多數情況並非最簡約。簡約法利用特徵改變次數來挑選最佳的樹,。只要特徵改變在樹上是隨機分布的(一個合理的虛無預期),則結果不應有偏差。實際上,此方法很健全: 利用最大簡約法來選樹具有最小的偏差。

做一個比喻:根據一開始估計的工作成本來選擇承包商,但實際完成的成本很可能會高於初始的估價。儘管如此,選擇提供最低估價的承包商,理論上應該可獲得最終成本為最低的結果。這是因為,在沒有其他數據時,我們會假設所有承包商均具有相同的成本超支風險。實際上,不良的經營手法也許會使此結果產生偏差;在系統發生中亦同,某些特殊的親緣關係問題(如長枝吸引效應,如上所述)可能會造成偏差。然而,在這兩個例子中,基於估計本身,也無法描述結果是否將會產生偏差,或偏差的程度。簡約法亦同,在缺乏和其他證據比較的狀況下,無法明確描述數據是否會造成誤導。

按照同樣的思路,簡約法以哲學的角度認為發生演化改變是罕見的,或趨同(收斂和逆轉)在演化的過程中是少有的。這並非完全正確:簡約法認為經歷最少次收斂和逆轉過程的樹為最佳的,但這可能是相對大量趨同事件所產生的結果。更恰當的說法為簡約法假設數據中暗指只有最少次的改變。如上述,我們不需認定這是唯一發生的變化,只是當沒有證據時,簡單地不去推斷有發生改變。簡單來說,「簡約法是做最少的假設,而非假設趨同演化發生的次數是最少的」。

簡約法的概念也和奧卡姆剃刀的概念( 即「最簡單的解釋是最好的」)一致。簡約法偏好的解答,需要最少數的未經證實的假設和不被支持的結論。這在科學上是很常見的方法,尤其是當處理系統如此複雜如同拒絕簡單模型。簡約法不必然要產生一個「簡單」的假設。事實上,如同一般規則,多數特徵是如此複雜,故沒有真正「簡單」的解決方法。

參見[编辑]

參考文獻[编辑]

  1. ^ Walter M. Fitch. Toward defining the course of evolution: minimum change for a specified tree topology. Systematic Zoology. 1971.December, 20 (4): 406–416. 
  2. ^ 2.0 2.1 2.2 E. T. Jaynes, edited by G. Larry Bretthorst. Probability Theory: The Logic of Science. Cambridge, United Kingdom: Cambridge University Press, Cambridge. 2003. ISBN 9780521592710. 
  3. ^ Michener, Charles D. and Sokal, Robert R. A Quantitative Approach to a Problem in Classification. Evolution. 1957.Jan., 11 (2): 130–162. 
  4. ^ Edwards, A.W.F., and L.L. Cavalli-Sforza. 1964. Reconstruction of evolutionary trees. pp. 67–76 in Phenetic and Phylogenetic Classification, ed. V. H. Heywood and J. McNeill. Systematics Association pub. no. 6, London.
  5. ^ Cavalli-Sforza, L.L. and A.W.F. Edwards. 1965. Analysis of human evolution. pp. 923–933 in Genetics Today. Proceedings of the XI International Congress of Genetics, The Hague, The Netherlands, September 1963, volume 3, ed. S. J. Geerts, Pergamon Press, Oxford.
  6. ^ Camin, J. H., and R. R. Sokal. 1965. A method for deducing branching sequences in phylogeny. Evolution 19: 311-326.
  7. ^ Bartcher, R. L. (1966). Fortran IV program for estimation of cladistic relationships using the IBM 7040. Lawrence, Kan.: University of Kansas.
  8. ^ Eck, R. V. and M. O. Dayhoff. 1966. Atlas of Protein Sequence and Structure. National Biomedical Research Foundation, Silver Springs, Maryland.
  9. ^ Fitch and Margoliash 1967. Fitch WM & Margoliash E (1967) Construction of phylogenetic trees. Science 155:279 284.
  10. ^ Elliott Sober. Parsimony in Systematics: Philosophical Issues. Annual Review of Ecology and Systematics. 1983.November, 14: 335–357. doi:10.1146/annurev.es.14.110183.002003. 
  11. ^ M. D. Hendy; D. Penny. Branch and bound algorithms to determine minimal evolutionary trees. Mathematical Biosciences. 1982, 60: 133–142. 
  12. ^ D. R. Maddison. The discovery and importance of multiple islands of most-parsimonious trees. Systematic Zoology. 1991, 40: 315–328. 
  13. ^ Joseph Felsenstein. Cases in which Parsimony or Compatibility Methods Will be Positively Misleading. Systematic Zoology. 1978.12, 27 (4): 401–410. 
  14. ^ Mark E. Siddall; Michael F. Whiting. Long-Branch Abstractions. Cladistics. 1999, 15: 9–24. 
  15. ^ William H. E. Day. Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology. 1987, 49 (4): 461–467.