Gradient Boosting in Regression
Abstract
Szeroko stosowane w praktyce metody nieparametryczne wykorzystujące tzw. drzewa
regresyjne mają jedną istotną wadę. Otóż wykazują one niestabilność, która oznacza, że niewielka
zmiana wartości cech obiektów w zbiorze uczącym może prowadzić do powstania zupełnie
innego modelu. Oczywiście wpływa to negatywnie na ich trafność prognostyczną. Tę wadę
można jednak wyeliminować, dokonując agregacji kilku indywidualnych modeli w jeden.
Znane są trzy metody agregacji modeli i wszystkie opierają się na losowaniu ze zwracaniem
obiektów ze zbioru uczącego do kolejnych prób uczących: agregacja bootstrapowa (boosting),
losowanie adaptacyjne (bagging) oraz metoda hybrydowa, łącząca elementy obu poprzednich.
W analizie regresji szczególnie warto zastosować gradientową, sekwencyjną, odmianę metody
boosting. W istocie polega ona wykorzystaniu drzew regrcsyjnych w kolejnych krokach do
modelowania reszt dla modelu uzyskanego w poprzednim kroku. The successful tree-based methodology has one serious disadvantage: lack of stability.
That is, regression tree model depends on the training set and even small change in a predictor
value could lead to a quite different model. In order to solve this problem single trees are
combined into one model. There are three aggregation methods used in classification: bootstrap
aggregation (bagging), adaptive resample and combine (boosting) and adaptive bagging (hybrid
bagging-boosting procedure).
In the field of regression a variant of boosting, i.e. gradient boosting, can be used.
Friedman (1999) proved that boosting is equivalent to a stepwise function approximation in
which in each step a regression tree models residuals from last step model.
Collections