跟大家講解下有關bootstrapping是什么,相信小伙伴們對這個話題應該也很關注吧,現在就為小伙伴們說說bootstrapping是什么,小編也收集到了有關bootstrapping是什么的相關資料,希望大家看到了會喜歡。
Bootstrapping算法,指的就是利用有限的樣本資料經由多次重復抽樣,重新建立起足以代表母體樣本分布的新樣本。bootstrapping的運用基于很多統計學假設,因此采樣的準確性會影響假設的成立與否。(推薦學習:Bootstrap視頻教程)
統計學中,bootstrapping可以指依賴于重置隨機抽樣的一切試驗。bootstrapping可以用于計算樣本估計的準確性。對于一個采樣,我們只能計算出某個統計量(例如均值)的一個取值,無法知道均值統計量的分布情況。但是通過自助法(自舉法)我們可以模擬出均值統計量的近似分布。有了分布很多事情就可以做了(比如說有你推出的結果來進而推測實際總體的情況)。
bootstrapping方法的實現很簡單,假設抽取的樣本大小為n:
在原樣本中有放回的抽樣,抽取n次。每抽一次形成一個新的樣本,重復操作,形成很多新樣本,通過這些樣本就可以計算出樣本的一個分布。新樣本的數量通常是1000-10000。如果計算成本很小,或者對精度要求比較高,就增加新樣本的數量。
優點:簡單易于操作。
缺點:bootstrapping的運用基于很多統計學假設,因此假設的成立與否會影響采樣的準確性。
機器學習中,Bootstrap 方法指的是借助替換的隨機采樣,它是一個重采樣,允許模型或算法更好地理解存在于其中的偏差、方差和特征。數據的采樣允許重采樣包含不同的偏向,然后將其作為一個整體進行包含。如圖 1 所示,其中每個樣本群有不同的部分,而且各不相同。接著這會影響到數據集的整體均值、標準差和其他描述性指標。反過來,它可以發展出更多魯棒的模型。
Bootstrapping 同樣適用傾向于過擬合的小數據集。
使用 Bootstrap 的原因是它可以測試解決方案的穩定性。使用多個樣本數據集測試多個模型可以提高魯棒性。或許一個樣本數據集的平均值比其他數據集大,或者標準差不同。這種方式可以識別出過擬合且未使用不同方差數據集進行測試的模型。
使用
Bootstrapping 越來越普遍的原因之一是計算能力的提升。出現比之前更多次數的重排列、重采樣。Bagging 和 Boosting 都使用 Bootstrapping
更多Bootstrap相關技術文章,請訪問Bootstrap教程欄目進行學習!
以上就是bootstrapping是什么的詳細內容,更多請關注php中文網其它相關文章!
來源:php中文網