dc.contributor.author | Korzeniewski, Jerzy | |
dc.date.accessioned | 2015-06-30T13:15:42Z | |
dc.date.available | 2015-06-30T13:15:42Z | |
dc.date.issued | 2013 | |
dc.identifier.issn | 0208-6018 | |
dc.identifier.uri | http://hdl.handle.net/11089/10324 | |
dc.description.abstract | The original HINoV method (Carmone et al., 1999 ) is not robust to the presence
of correlated unimodal and uniform variables among noisy variables (e.g. Korzeniewski, 2012).
Moreover, HINoV can be applied only to a single cluster structure analysis. In the article,
a modification is proposed consisting in grouping all variables (separately for each reference
variable) into two classes. One of the classes consists of variables similar to the reference variable,
the other consists of variables which are “less similar”. Similarity between two variables is based
on the similarity of the data set division into an established number of clusters (from 2 to 10)
measured with the modified Rand index. We arrive at a zero-one matrix describing relations
between every pair of variables. Then, a set of variables creating the same (the strongest) cluster
structure is selected by means of a criterion optimizing the matrix division into four blocks. After
completing the first stage selection one can search another cluster structure applying the same
procedure to the set of remaining variables. The modification is assessed in a broad experiment
based on 2250 data sets generated from the mixtures of normal distribution. | pl_PL |
dc.description.abstract | Oryginalna metoda HINoV jest zupełnie nieodporna na występowanie wśród zmiennych
zanieczyszczających strukturę skupień zmiennych skorelowanych jednomodalnych lub
równomiernych. Ponadto HINoV można stosować tylko w przypadku jednej struktury skupień.W referacie zaproponowana jest modyfikacja polegająca na tym, by, oddzielnie, dla każdej
ustalonej zmiennej, grupować zmienne w dwie klasy zmiennych podobnych i niepodobnych do
niej w sensie podobieństwa podziału zbioru danych na daną liczbę skupień (od 2 do 10).
Otrzymujemy wówczas macierz zerojedynkową opisującą związki pomiędzy każdą parą
zmiennych. Następnie, podzbiór zmiennych tworzących tę samą (najsilniejszą) strukturę skupień
wybierany jest za pomocą kryterium optymalizującego podział macierzy na cztery bloki. Po
wybraniu zmiennych tworzących jedną strukturę skupień można, w dalszym kroku, wybierać
zmienne tworzące następną strukturę skupień spośród zmiennych, które nie zostały wybrane
w pierwszym kroku. W celu selekcji właściwego bloku macierzy stosowane jest kryterium
stabilności podziału zbioru danych oparte na wielokrotnym losowaniu połowy zbioru
i porównywaniu podziałów otrzymanych przy pomocy metody k-średnich. Modyfikacja oceniona
jest w obszernym eksperymencie symulacyjnym na 2250 zbiorach danych wygenerowanych
w postaci mieszanin rozkładów normalnych. | pl_PL |
dc.language.iso | en | pl_PL |
dc.publisher | Wydawnictwo Uniwersytetu Łódzkiego | pl_PL |
dc.relation.ispartofseries | Acta Universitatis Lodziensis, Folia Oeconomica;286 | |
dc.subject | cluster analysis | pl_PL |
dc.subject | variable choice | pl_PL |
dc.subject | multiple cluster structures | pl_PL |
dc.title | Modification of Hinov Method of Variable Selection for Multiple Cluster Structure Analysis | pl_PL |
dc.title.alternative | Modyfikacja metody HINoV selekcji zmiennych w analizie wielokrotnych struktur skupień | pl_PL |
dc.type | Article | pl_PL |
dc.page.number | [173]-180 | pl_PL |
dc.contributor.authorAffiliation | University of Lodz, Department of Statistical Methods | pl_PL |
dc.references | Brusco M. J., Cradit J.D., (2001), A variable-selection heuristics for K-means clustering, Psychometrika 66 | pl_PL |
dc.references | Carmone F. J. Jr., Kara Ali, Maxwell S. (1999), HINoV: A New Model to Improve Market Segment Definition by Identifying Noisy Variables, Journal of Marketing Research, Vol. 36, No. 4 | pl_PL |
dc.references | Friedman J., Meulman J. (2004), Clustering Objects on Subsets of Attributes, Journal of the Royal Statistical Society, Series B 66 | pl_PL |
dc.references | Gatnar E., Walesiak M. (2004), Metody Statystycznej Analizy Wielowymiarowej w Badaniach Marketingowych, Wydawnictwo AE we Wrocławiu | pl_PL |
dc.references | Korzeniewski J. (2012), Metody selekcji zmiennych w analizie skupień. Nowe procedury, Wydawnictwo Uniwersytetu Łódzkiego | pl_PL |
dc.references | Steinley D., Brusco M. (2007), A new variable weighting and selection procedure for K-means cluster analysis, Psychometrika 66 | pl_PL |
dc.references | Steinley D., Brusco M. (2008), Selection of Variables in Cluster Analysis: An Empirical Comparison of Eight Procedures, Psychometrika 73 No. 1 | pl_PL |
dc.references | Steinley D., Henson R. (2005) OCLUS: An analytic method for generating clusters with known overlap. Journal of Classification, 22 | pl_PL |