Modification of Talavera Method of Variable Selection in Cluster Analysis
Streszczenie
Talavera has proposed a method of variable selection in cluster analysis for data
sets in which only variables measured on nominal scale are present. He examined the method on
a couple of data sets basing his assessment on the case in which one can use a data grouping algorithm
(he used the COBWEB algorithm). In other approaches some authors try to select variables
without referring to any particular grouping method. In the paper, we investigate the efficiency of
the Talavera method on real world data sets, referring only to the succession of variables and the
greatest jump criterion. Some data sets with variables measured on stronger scales are also investigated
after previous descretization. Talavera zaproponował metodę wybierania zmiennych tworzących strukturę skupień w zbiorze
danych dla zbiorów, w których występują tylko zmienne mierzone na skali nominalnej. Autor
zbadał tę metodę na kilku empirycznych zbiorach opierając ocenę na tym jak spisywała się metoda
w połączeniu z ustalonym sposobem grupowania danych (algorytm COBWEB). W innych podejściach
do tego samego zagadnienia autorzy starają się oprzeć wybór zmiennych na samym uporządkowaniu
zbioru zmiennych bez odwoływania się do grupowania obserwacji. W artykule badana
jest efektywność metody również w odniesieniu do empirycznych zbiorów danych, uzależniona
tylko od uporządkowania zmiennych, oparta na kryterium największego skoku. Rozważane są
również zbiory z niektórymi zmiennymi mierzonymi na mocniejszych skalach z po uprzedniej
dyskretyzacji zmiennych.
Collections