自助法

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

統計學中,自助法(Bootstrap Method,Bootstrapping,或自助抽樣法拔靴法)是一種從給定訓練集中有放回的均勻抽樣,也就是說,每當選中一個樣本,它等可能地被再次選中並被再次添加到訓練集中。自助法由Bradley Efron於1979年在《Annals of Statistics》上發表。當樣本來自能以正態分布來描述的總體,其抽樣分布英語Sampling Distribution為正態分布;但當樣本來自的總體無法以正態分布來描述,則以漸進分析法、自助法等來分析。採用隨機可置換抽樣(random sampling with replacement)。對於小數據集,自助法效果很好。

.632自助法[編輯]

最常用的一種是.632自助法,假設給定的數據集包含d個樣本。該數據集有放回地抽樣d次,產生d個樣本的訓練集。這樣原數據樣本中的某些樣本很可能在該樣本集中出現多次。沒有進入該訓練集的樣本最終形成檢驗集(測試集)。 顯然每個樣本被選中的概率是1/d,因此未被選中的概率就是(1-1/d),這樣一個樣本在訓練集中沒出現的概率就是d次都未被選中的概率,即(1-1/d)d。當d趨於無窮大時,這一概率就將趨近於e-1=0.368,所以留在訓練集中的樣本大概就占原來數據集的63.2%。

參見[編輯]

參考文獻[編輯]

  1. 范明/孟小峰. 数据挖掘:概念与技术. 機械工業出版社. 2012年8月: 241. ISBN 978-7-111-39140-1 (中文).