A proposal of a new method of choosing starting points for k-means grouping
Streszczenie
When one groups set elements with the help of k-means it is crucial
to choose starting points properly. If they are chosen incorrectly one may arrive at badly
grouped elements. In the paper a new method of choosing starting points is proposed. It
is based on the distance matrix only. Starting points are chosen so as to improve the
classical method of choosing points which are as far from one another as possible. The
quality of grouping is assessed by means of silhouette indices — it is compared with the
quality of grouping done with randomly chosen starting points and with maximum
distance interval method. Sets from Euclidean spaces are generated with the help of
CLUSTGEN software written by J. Milligana. Gdy grupujemy punkty zbioru metodą k-średnich to zasadniczym problemem jest
właściwy wybór punktów startowych. Jeśli są one źle wybrane to grupowanie może być
złe. W artykule zaproponowana jest nowa metoda wyboru punktów startowych. Metoda
ta jest oparta wyłącznie na znajomości macierzy odległości. Punkty startowe są
wybierane tak, by poprawić wybór, który otrzymamy przy pomocy metody klasycznej
polegającej na wyborze punktów możliwie jak najbardziej od siebie oddalonych. Jakość
grupowania jest oceniana przy pomocy indeksów sylwetkowych - porównywana jest
z jakością grupowania otrzymanego przy losowym wyborze punktów startowych oraz
przy wyborze metodą klasyczną. Zbiory z przestrzeni euklidesowych są generowane
przy pomocy programu CLUSTGEN autorstwa J. Milligana.
Collections