Unbiased Recursive Partitioning Algorithm in Regression Trees

Rozmus, Dorota

Oglądaj/Otwórz

Folia Oeconomica 228 2009 74-80.pdf (3.248MB)

Data

2009

Autor

Rozmus, Dorota

Metadata

Pokaż pełny rekord

Streszczenie

Drzewa klasyfikacyjne i regresyjne są bardzo popularnym narzędziem predykcji. Budowa takiego modelu polega na stopniowym podziale wielowymiarowej przestrzeni cech na rozłączne obszary aż do uzyskania maksymalnej ich homogeniczności ze względu na wartość zmiennej objaśnianej y. Podział ten kontynuowany jest w kolejnych krokach, w oparciu o wartości wybranych zmiennych objaśniających. Istnieje wiele możliwych sposobów wyboru tych zmiennych, a jednym z najpopularniejszych jest algorytm wyczerpującego przeszukiwania (ang. exhaustive search) opracowany przez Breimana (Breimana et al., 1984). Zaproponowany przez Hothoma, Hornika i Zeileisa, (2006) sposób doboru zmiennych znany pod nazwą nieobciążonej metody rekurencyjnego podziału (ang. unbiased recurcive partitioning) opierający się na zastosowaniu testów permutacyjnych miał na celu ominięcie podstawowej wady tradycyjnego podejścia, jakim jest tendencja do wyboru zmiennych dających wiele potencjalnych możliwości podziału. Okazuje się, że w przypadku dyskryminacji to nowatorskie podejście prowadzi do uzyskania modeli zapewniających bardzo zbliżone wyniki klasyfikacji jak podejście tradycyjne, a w podejściu wielomodelowym może doprowadzić do pogorszenia poprawności klasyfikacji. Zasadniczym celem referatu jest przedstawienie wyników badań, które mają na celu porównanie dokładności predykcji na podstawie drzew regresyjnych, które doboru zmiennych objaśniających dokonują za pomocą algorytmu wyczerpującego przeszukiwania oraz za pomocą podejścia bazującego na testach permutacyjnych. Ponadto porównane zostaną wyniki predykcji modeli zagregowanych, w których modelami składowymi będą te dwa rodzaje drzew regresyjnych.

Classification and regression trees are very popular tool for prediction. The construction of these models is based on recursive partitioning of multidimensional attribute space into disjoint homogenous regions till gaining the maximum homogeneity from the point of view of the dependent variable value. The main aim of this research is to apply in regression trees unbiased recursive partitioning algorithm proposed by Hothom, Homik and Zeileis (2006), which is based on permutation tests. The research takes into consideration both single and aggregated approach and compare the results with classical method of tree model construction based on exhaustive search algorithm proposed by Breiman et al. (1984).

URI

http://hdl.handle.net/11089/7081

Collections

Acta Universitatis Lodziensis. Folia Oeconomica nr 228/2009 [43]