學習筆記 提升方法

2022-11-24 18:02:53 字數 1783 閱讀 3845

提升(boosting)方法是一種常用的統計學習方法,應用廣泛且有效。在分類問題中,它通過改變訓練樣本的權重,學習多個分類器,並將這些分類器進行線性組合,提高分類效能。

大多數的提升方法都是改變訓練資料的概率分佈(訓練資料的權值分佈),針對不同的訓練資料分佈呼叫弱學習演算法學習一系列弱分類器。這樣,關鍵就在於如何改變訓練資料的權值,以及如何組合這些弱分類器。adaboost的做法是提高那些前一輪弱分類器錯誤分類樣本的權值。

adaboost演算法

初始化訓練資料的權值分佈$$d_1 = (w_, ...,w_,...,w_), w_ = \frac, i = 1,2,...,n$$

對\(m = 1,2,...,m\)

a. 使用具有權值分佈\(d_m\)的訓練資料集學習,得到基本分類器$$g_m(x): \mathcal \rightarrow $$

b. 計算\(g_m(x)\)在訓練資料集上的分類誤差率$$e_m = p(g_m(x_i)\neq y_i)=\sum_^ w_ i(g_m(x_i) \neq y_i)$$

c. 計算\(g_x(x)\)的係數$$\alpha_m = \frac \log \frac$$

d. 更新訓練資料集的權值分佈$$d_ = (w_, ... ,w_, ..., w_)$$ $$w_ = \frac} \exp(-\alpha_m y_i g_m(x_i)), i = 1,2,...,n$$,這裡,\(z_m\)是規範因子$$z_m = \sum_^n w_ \exp (-\alpha_m y_i g_m(x_i))$$它使\(d_m\)成為一個概率分佈。(簡單點就是正確的除以\(\alpha\),錯誤的乘以\alpha,規範因子不要也問題不大吧)

構建基本分類器的線性組合$$f(x) = \sum_^m \alpha_m g_m (x)$$得到最終的分類器$$g(x) = sign(f(x)) = sign(\sum_^m \alpha_m g_m(x))$$

可認為adaboost演算法是模型為加法模型,損失函式為指數函式,學習演算法為前向分步演算法時的二分類學習方法。可以由前向分步演算法推匯出adaboost。

加法模型$$f(x) = \sum_^m \beta_m b(x; \gamma_m)$$,其中,\(b(x; \gamma_m)\)為基函式,\(\gamma_m\)為基函式的引數,\(\beta_m\)為基函式的係數。

每一步中極小化損失函式$$(\beta_m, \gamma_m) = \arg \min_ \sum_^n l(y_i, f_(x_i) + \beta b(x_i; \gamma))$$

提升樹是以分類樹或迴歸樹為基本分類器的提升方法。提升樹被認為是統計學習中效能最好的方法之一。

當採用平方誤差損失函式時,損失函式化簡為:$$[r - t(x; \theta_m)]^2$$,其中$$r = y - f_(x)$$是當前模型擬合資料的殘差。

初始化\(f_0(x) = 0\)

對\(m = 1, 2, ...,m\)

計算殘差\(r_ = y_i - f_(x_i), i = 1, 2, ..., n\)

擬合殘差\(r_\)學習一個迴歸樹,得到\(t(x; \theta_m)\)

更新\(f_m(x) = f_(x) + t(x; \theta_m)\)

得到迴歸問題提升樹$$f_m(x) = \sum_^m t(x; \theta_m)$$

(注:本文為讀書筆記與總結,側重演算法原理,**為[《統計學習方法》](一書第八章)

出處:[

pytesseract 識別率低提升方法

from pil import image from pil import imageenhance import pytesseract img image.open sanyecao.jpg img img.convert rgb 這裡也可以嘗試使用l enhancer imageenhance...

提升SRAM效能的傳統方法

隨著諸如醫療電子和無線感測節點等應用的興起,低功耗晶片受到了越來越廣泛的關注.這類晶片對效能和功耗要求苛刻.靜態隨機儲存器 sram 作為晶片的重要組成部分,大程度上影響著晶片的面積和功耗,因此其功耗的優化成了晶片功耗優化的關鍵所在。sram單元的資料保持功能是通過背靠背的反相器實現的,因此為了使單...

面試 提升頁面效能優化的方法有哪些?

1 資源壓縮合並,減少http請求 html壓縮,css壓縮,js壓縮,檔案 公共庫合併 2.非核心 非同步載入 非同步載入的方式 defer async src適用 把js 封裝在函式裡面動態載入onload回掉 非同步載入的區別 3.利用瀏覽器快取 快取的分類 h5 localstorage s...