Unbiased Recursive Partitioning Algorithm in Regression Trees
Streszczenie
Drzewa klasyfikacyjne i regresyjne są bardzo popularnym narzędziem predykcji. Budowa
takiego modelu polega na stopniowym podziale wielowymiarowej przestrzeni cech na
rozłączne obszary aż do uzyskania maksymalnej ich homogeniczności ze względu na wartość
zmiennej objaśnianej y. Podział ten kontynuowany jest w kolejnych krokach, w oparciu
o wartości wybranych zmiennych objaśniających. Istnieje wiele możliwych sposobów wyboru
tych zmiennych, a jednym z najpopularniejszych jest algorytm wyczerpującego przeszukiwania
(ang. exhaustive search) opracowany przez Breimana (Breimana et al., 1984).
Zaproponowany przez Hothoma, Hornika i Zeileisa, (2006) sposób doboru zmiennych
znany pod nazwą nieobciążonej metody rekurencyjnego podziału (ang. unbiased
recurcive partitioning) opierający się na zastosowaniu testów permutacyjnych miał na
celu ominięcie podstawowej wady tradycyjnego podejścia, jakim jest tendencja do wyboru
zmiennych dających wiele potencjalnych możliwości podziału.
Okazuje się, że w przypadku dyskryminacji to nowatorskie podejście prowadzi do
uzyskania modeli zapewniających bardzo zbliżone wyniki klasyfikacji jak podejście
tradycyjne, a w podejściu wielomodelowym może doprowadzić do pogorszenia poprawności
klasyfikacji.
Zasadniczym celem referatu jest przedstawienie wyników badań, które mają na celu
porównanie dokładności predykcji na podstawie drzew regresyjnych, które doboru
zmiennych objaśniających dokonują za pomocą algorytmu wyczerpującego przeszukiwania
oraz za pomocą podejścia bazującego na testach permutacyjnych. Ponadto porównane
zostaną wyniki predykcji modeli zagregowanych, w których modelami składowymi
będą te dwa rodzaje drzew regresyjnych. Classification and regression trees are very popular tool for prediction.
The construction of these models is based on recursive partitioning of multidimensional
attribute space into disjoint homogenous regions till gaining the maximum homogeneity
from the point of view of the dependent variable value.
The main aim of this research is to apply in regression trees unbiased recursive partitioning
algorithm proposed by Hothom, Homik and Zeileis (2006), which is based on
permutation tests. The research takes into consideration both single and aggregated
approach and compare the results with classical method of tree model construction based
on exhaustive search algorithm proposed by Breiman et al. (1984).
Collections