Classification of Large Data Sets. Comparison of Performance of Chosen Algorithms
Abstract
Researchers analyzing large (> 100,000 objects) data sets with the methods of
cluster analysis often face the problem of computational complexity of algorithms, that sometimes
makes it impossible to analyze in an acceptable time. Common solution of this problem is to use
less computationally complex algorithms (like k-means), which in turn can in many cases give
much worse results than for example algorithms using eigenvalues decomposition . The results of
analysis of the actual sets of this type are therefore usually a compromise between quality and
computational capabilities of computers. This article is an attempt to present the current state of
knowledge on the classification of large datasets, and identify ways to develop and open problems. Badacze analizujący przy pomocy metod analizy skupień duże (> 100.000 obiektów) zbiory
danych, stają często przed problemem złożoności obliczeniowej algorytmów, uniemożliwiającej
niekiedy przeprowadzenie analizy w akceptowalnym czasie. Jednym z rozwiązań tego problemu
jest stosowanie mniej złożonych obliczeniowo algorytmów (hierarchiczne aglomeracyjne,
k-średnich), które z kolei mogą w wielu sytuacjach dawać zdecydowanie gorsze rezultaty niż np.
algorytmy wykorzystujące dekompozycję względem wartości własnych. Rezultaty rzeczywistych
analiz tego typu zbiorów są więc zazwyczaj kompromisem pomiędzy jakością a możliwościami
obliczeniowymi komputerów. Artykuł jest próbą przedstawienia aktualnego stanu wiedzy na temat
klasyfikacji dużych zbiorów danych oraz wskazania dróg rozwoju i problemów otwartych.
Collections