K-nearest neighbour classification for symbolic data
Streszczenie
Reguła kNN (k Nearest Neighbours) została zaproponowana w pracy (Fix E., Hodges J. L.
[1951]) i jest jednym z najlepszych klasyfikatorów dla danych w ujęciu klasycznym. W najprost-
szym ujęciu metoda k-najbliższych sąsiadów polega na tym, że klasyfikowany obiekt jest
zaliczany do klasy najliczniej reprezentowanej wśród jego k „najbliższych sąsiadów”. Jeżeli w tej
samej odległości, co k-ty „sąsiad” znajdą się jeszcze inne elementy, to wszyscy ci „sąsiedzi” biorą
udział w głosowaniu.
W artykule zaprezentowano adaptację metody KNN dla danych symbolicznych, którą za-
proponował zespół pod kierownictwem D. Malerby (por. Malerba i in. [2004]). Badania przepro-
wadzono na danych symbolicznych w różnych modelach (generowanych za pomocą procedury
cluster. Gen z pakietu clusterSim dla programu R). Modele te zawierały znaną liczbę klas.
Dodatkowo do każdego modelu dodano różną liczbę zmiennych zakłócających i wartości
odstających, które zniekształcają oryginalną strukturę klas.
Collections