The influence of irrelevant variables on classification error in rules induction
Streszczenie
Typowym zadaniem data mining jest wykrycie niespodziewanych i systematycznych relacji
w danych, gdy nie ma wcześniejszych oczekiwań co do natury tych relacji. W dużych zbiorach, które
nie były zgromadzone w celu prowadzonej przez badacza analizy, zwykle występuje wiele zmiennych
nieistotnych, co może obniżyć jakość modelu dyskryminacyjnego. W takich sytuacjach stosowane są
metody selekcji zmiennych. W nieparametrycznych i adaptacyjnych metodach dyskryminacji (drzewa
klasyfikacyjne, indukcja reguł) selekcja zmiennych jest częścią algorytmu uczącego. Za pomocą
symulacji badany jest wpływ zmiennych nieistotnych na błąd klasyfikacji w tych metodach.
Collections