Feature Selection in High Dimensional Regression Problem
Streszczenie
There are three main approaches to feature selection problem considered in
statistical and machine learning literature: filters, wrappers and embedded methods. Filters
evaluate and exclude some variables before learning a model. Wrappers use learning algorithm for
evaluation of the feature subsets and involve search techniques in the feature subset space.
Embedded methods use feature selection as an integral part of learning algorithm. When features
outnumber examples, filters or embedded methods are recommended. The goal of this paper is to
compare popular filters and embedded methods in high dimensional problem. In the simulation
study, redundant variables will be included in the artificially generated data. Metody selekcji zmiennych dyskutowane obecnie w literaturze dzielone są na trzy główne
podejścia: dobór zmiennych dokonywany przed etapem budowy modelu, przeszukiwanie
przestrzeni cech i selekcja zmiennych na podstawie oceny jakości modelu oraz metody
z wbudowanym mechanizmem selekcji zmiennych. W przypadku, gdy liczba zmiennych jest
większa od liczby obserwacji rekomendowane są głównie podejścia pierwsze lub trzecie. Celem
artykułu jest porównanie wybranych metod reprezentujących te podejścia w przypadku dużego
wymiaru przestrzeni cech. W przeprowadzonych symulacjach, do sztucznie generowanych danych
włączano zmienne skorelowane.
Collections