Internal Cluster Quality Indexes for Classification of Symbolic Data

Dudek, Andrzej

dc.contributor.author	Dudek, Andrzej
dc.date.accessioned	2015-04-03T06:29:51Z
dc.date.available	2015-04-03T06:29:51Z
dc.date.issued	2009
dc.identifier.issn	0208-6018
dc.identifier.uri	http://hdl.handle.net/11089/7688
dc.description.abstract	This paper describes main classification methods used for symbolic data (e.g. data in form of: single quantitative value, categorical value, interval, multivalued variable, multivaliued variable with weights) presents difficulties of measuring clustering quality for symbolic data (such as lack of "traditional" data matrix), presents which of known indexes like Silhouette index, Ball index, Hartingan index, Baker and Hubert index, Huberta and Levine index, Ratkovski index, Ball index, Hartigan index, Krzanowski and Lai index, Scott index, Marriot index, Rubin index, Friedman index may be used for validation of such type of data and what indexes are specific only for symbolic data. Simulation results arc used to propose most adequate indexes for each classification algorithm.	pl_PL
dc.description.abstract	Artykuł opisuje procedury klasyfikacyjne, które mogą być używane dla danych symbolicznych (tj. dla danych mogących być reprezentowanych w postaci: liczb, danych jakościowych, przedziałów liczbowych, zbioru wartości, zbioru wartości z wagami), przedstawia problemy związane z mierzeniem jakości klasyfikacji dla tych procedur (takie jak brak „klasycznej" macierzy danych) oraz przedstawia, które ze znanych indeksów, takich jak: Silhouette, indeks Calińskiego-Harabasza, indeks Bakera-Huberta, indeks Huberta-Levine, indeks Ratkowskiego, indeks Balia, indeks Hartigana, indeks Krzanowskiego-Lai, indeks Scotta, indeks Marriota, indeks Rubina i indeks Friedmana, mogą być wykorzystane dla tego typu danych oraz jakie są miary jakości podziału specyficzne dla danych symbolicznych. Na podstawie przeprowadzonych symulacji zaproponowane zostały indeksy faktycznie odzwierciedlające strukturę klas dla poszczególnych algorytmów klasyfikacyjnych.	pl_PL
dc.description.sponsorship	Zadanie pt. „Digitalizacja i udostępnienie w Cyfrowym Repozytorium Uniwersytetu Łódzkiego kolekcji czasopism naukowych wydawanych przez Uniwersytet Łódzki” nr 885/P-DUN/2014 zostało dofinansowane ze środków MNiSW w ramach działalności upowszechniającej naukę	pl_PL
dc.language.iso	en	pl_PL
dc.publisher	Wydawnictwo Uniwersytetu Łódzkiego	pl_PL
dc.relation.ispartofseries	Acta Universitatis Lodziensis. Folia Oeconomica;225
dc.subject	classification	pl_PL
dc.subject	clustering	pl_PL
dc.subject	cluster quality indexes	pl_PL
dc.subject	symbolic data	pl_PL
dc.title	Internal Cluster Quality Indexes for Classification of Symbolic Data	pl_PL
dc.title.alternative	Mierniki jakości klasyfikacji dla danych symbolicznych	pl_PL
dc.type	Article	pl_PL
dc.page.number	[91]-100	pl_PL
dc.contributor.authorAffiliation	Wrocław University of Economics, Chair of Econometrics and Informatics	pl_PL
dc.references	Baker F.B., Hubert L.J.(1975), Measuring the power of hierarchical cluster analysis, „Journal of the American Statistical Association”, 70,349, 31-38.
dc.references	Bock H.H., Didау E. (eds) (2000), Analysis of symbolic data. Explanatory methods for extracting statistical information from complex data, Springer Verlag, Berlin.
dc.references	Caliński R.B., Harabasz J.(1974), A dendrite method for cluster analysis, “Communications in Statistics”, 3, 1-27.
dc.references	Chavcnt M., De CarvaIho F.A.T., Verde R. and Lechevallier Y.(2003), Trois nouvelle mćthodes dc classification automatique de données symboliques de type intervalle, “Revue dc Statistique Appliquce” , LI 4, 5-29.
dc.references	Didау E.(2002), An introduction to symbolic data analysis and the SODAS software, “J.S.D.A., International E-Joumal”.
dc.references	Gordon A. D.(1999), Classification, Chapman & Hall/CRC, London.
dc.references	Hubert L.J.(1974), Approximate evaluation technique for the single-link anil complete-link hierarchical clustering procedures, “Journal of the American Statistical Association”, 69, 347, 698-704.
dc.references	Hubert L.J., Levinc J.R. ( 1976), Evaluating object set partitions: free sort analysis and some generalizations, “Journal of Verbal Learning and Verbal Behaviour”, 15, 549-570.
dc.references	Kaufman L., Rousseeuw P.J.(1990), Finding groups in data: an introduction to cluster analysis, Wiley, New York.
dc.references	Krzanowski W.J., Lai Y.T.(1985), A criterion for determining the number of groups in a data set using sum of squares clustering, “Biometrics”, 44, 23-34.
dc.references	MaIerba D., Espozitо F., Giovallc V., Tamma V. (2001), Comparing dissimilarity measures for symbolic data analysis, “New Techniques and Technologies for Statistics” (ETK-NTTS'O I), 473-481.
dc.references	Mc Quilly L.L.(1966), Similarity Analysis by Reciprocal Pairs for Discrete and Continuous Data, “Educational and Psychological Measurement”, 26, 825-831.
dc.references	Milligan G.W. , Cooper M.C.(1985), An examination of procedures for determining the number of clusters in a data set, “Psychometrika”, 2, 159-179.
dc.references	Rousseeuw P.J.(1987), Silhouettes: a graphical aid to the interpretation and validation of cluster analysis, “Journal of Computational and Applied Mathematics”, 20, 53-65.
dc.references	Verde R.(2004), Clustering methods in symbolic data analysis, Classification, “Clustering and Data Mining”, Berlin-Springer-Verlag, 299-318.
dc.references	Weingessel A., Dimitriadou A., DоInicar S.(1999), An examination of indexes for determining the number of clusters in binary data sets, available at URL: http://www.wu- -wicn.ac.at/am/wp99.htm#29.

Pliki tej pozycji

Nazwa:: 88-97.pdf
Rozmiar:: 4.240MB
Format:: PDF

Oglądaj/Otwórz

Pozycja umieszczona jest w następujących kolekcjach

Acta Universitatis Lodziensis. Folia Oeconomica nr 225/2009 [30]
Methodological Aspects and Applications of Multivariate Statistical Analysis edited by Czeslaw Domański and Anna Witaszczyk

Pokaż uproszczony rekord