Investigation of the efficiency of a novel algorithm for the choice of variables in cluster analysis on real world data sets
Streszczenie
W artykule badana jest efektywność algorytmu do wyboru zmiennych w analizie skupień
zaproponowanego przez Autora na zbiorach danych ze świata realnego. Ocena tego algorytmu na
syntetycznych zbiorach danych w postaci mieszanin rozkładów normalnych była przedmiotem
innego badania – algorytm spisał się dobrze. Ideą algorytmu jest wybieranie jako istotnych tych
zmiennych, których wariancja nie zmniejsza się tak bardzo jak wariancja zmiennych maskujących
po zastosowaniu jednego kroku procedury średniego przesunięcia do wszystkich obserwacji zbioru
danych.
Collections