Pokaż uproszczony rekord

dc.contributor.authorKubus, Mariusz
dc.date.accessioned2019-02-14T11:31:13Z
dc.date.available2019-02-14T11:31:13Z
dc.date.issued2018
dc.identifier.issn0208-6018
dc.identifier.urihttp://hdl.handle.net/11089/26811
dc.description.abstractRandom forests are currently one of the most preferable methods of supervised learning among practitioners. Their popularity is influenced by the possibility of applying this method without a time consuming pre‑processing step. Random forests can be used for mixed types of features, irrespectively of their distributions. The method is robust to outliers, and feature selection is built into the learning algorithm. However, a decrease of classification accuracy can be observed in the presence of redundant variables. In this paper, we discuss two approaches to the problem of redundant variables. We consider two strategies of searching for best feature subset as well as two formulas of aggregating the features in the clusters. In the empirical experiment, we generate collinear predictors and include them in the real datasets. Dimensionality reduction methods usually improve the accuracy of random forests, but none of them clearly outperforms the others.en_GB
dc.description.abstractLasy losowe są obecnie jedną z najchętniej stosowanych przez praktyków metod klasyfikacji wzorcowej. Na jej popularność wpływ ma możliwość jej stosowania bez czasochłonnego, wstępnego przygotowywania danych do analizy. Las losowy można stosować dla różnego typu zmiennych, niezależnie od ich rozkładów. Metoda ta jest odporna na obserwacje nietypowe oraz ma wbudowany mechanizm doboru zmiennych. Można jednak zauważyć spadek dokładności klasyfikacji w przypadku występowania zmiennych redundantnych. W artykule omawiane są dwa podejścia do problemu zmiennych redundantnych. Rozważane są dwa sposoby przeszukiwania w podejściu polegającym na doborze zmiennych oraz dwa sposoby konstruowania zmiennych syntetycznych w podejściu wykorzystującym grupowanie zmiennych. W eksperymencie generowane są liniowo zależne predyktory i włączane do zbiorów danych rzeczywistych. Metody redukcji wymiarowości zwykle poprawiają dokładność lasów losowych, ale żadna z nich nie wykazuje wyraźnej przewagi.pl_PL
dc.language.isoenen_GB
dc.publisherWydawnictwo Uniwersytetu Łódzkiegoen_GB
dc.relation.ispartofseriesActa Universitatis Lodziensis. Folia Oeconomica;339
dc.rightsThis work is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 License.en_GB
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0en_GB
dc.subjectrandom forestsen_GB
dc.subjectredundant variablesen_GB
dc.subjectfeature selectionen_GB
dc.subjectclustering of featuresen_GB
dc.subjectlasy losowepl_PL
dc.subjectzmienne redundantnepl_PL
dc.subjectdobór zmiennychpl_PL
dc.subjecttaksonomia cechpl_PL
dc.titleThe Problem of Redundant Variables in Random Forestsen_GB
dc.title.alternativeProblem zmiennych redundantnych w metodzie lasów losowychpl_PL
dc.typeArticleen_GB
dc.page.number7-16
dc.contributor.authorAffiliationOpole University of Technology, Faculty of Production Engineering and Logistics, Department of Mathematics and IT Applications
dc.identifier.eissn2353-7663
dc.referencesBreiman L. (1996), Bagging predictors, “Machine Learning”, vol. 24(2), pp. 123–140.pl_PL
dc.referencesBreiman L. (2001), Random forests, “Machine Learning”, vol. 45, pp. 5–32.pl_PL
dc.referencesFreund Y., Schapire R. E. (1996), Experiments with a new boosting algorithm, Proceedings of the 13th International Conference on Machine Learning, Morgan Kaufmann, San Francisco.pl_PL
dc.referencesGatnar E. (2001), Nieparametryczna metoda dyskryminacji i regresji, Wydawnictwo Naukowe PWN, Warszawa.pl_PL
dc.referencesGrabiński T., Wydymus S., Zeliaś A. (1982), Metody doboru zmiennych w modelach ekonometrycznych, Państwowe Wydawnictwo Naukowe PWN, Warszawa.pl_PL
dc.referencesGranitto P. M., Furlanello C., Biasioli F., Gasperi F. (2006), Recursive feature elimination with random forest for PTR‑MS analysis of agroindustrial products, “Chemometrics and Intelligent Laboratory Systems”, vol. 83(2), pp. 83–90.pl_PL
dc.referencesGregorutti B., Michel B., Saint‑Pierre P. (2017), Correlation and variable importance in random forests, “Statistics and Computing”, vol. 27, issue 3, pp. 659–678.pl_PL
dc.referencesGuyon I., Gunn S., Nikravesh M., Zadeh L. (2006), Feature Extraction: Foundations and Applications, Springer, New York.pl_PL
dc.referencesHall M. (2000), Correlation‑based feature selection for discrete and numeric class machine learning, Proceedings of the 17th International Conference on Machine Learning, Morgan Kaufmann, San Francisco.pl_PL
dc.referencesHapfelmeier A., Ulm K. (2013), A new variable selection approach using Random Forests, “Computational Statistics and Data Analysis”, vol. 60, pp. 50–69.pl_PL
dc.referencesHastie T., Tibshirani R., Friedman J. (2009), The Elements of Statistical Learning: Data Mining. Inference and Prediction, 2nd edition, Springer, New York.pl_PL
dc.referencesKorf R. E. (1999), Artificial intelligence search algorithms, [in:] M. J. Atallah, Algorithms and Theory of Computation Handbook, CRC Press, Boca Raton–London–New York–Washington.pl_PL
dc.referencesKursa M. B., Rudnicki W. R. (2010), Feature selection with the Boruta package, “Journal of Statistical Software”, vol. 36, issue 11, pp. 1–13, http://www.jstatsoft.org/v36/i11/ [accessed: 15.02.2018].pl_PL
dc.referencesToloşi L., Lengauer T. (2011), Classification with correlated features: unreliability of feature ranking and solutions, “Bioinformatics”, vol. 27, issue 14, pp. 1986–1994, https://doi.org/10.1093/bioinformatics/btr300.pl_PL
dc.referencesYe Y., Wu Q., Zhexue Huang J., Ng M. K., Li X. (2013), Stratified sampling for feature subspace selection in random forests for high dimensional data, “Pattern Recognition”, vol. 46(3), pp. 769–787, https://doi.org/10.1016/j.patcog.2012.09.005.pl_PL
dc.referencesYu L., Liu H. (2004), Efficient feature selection via analysis of relevance and redundancy, “Journal of Machine Learning Research”, no. 5, pp. 1205–1224.pl_PL
dc.contributor.authorEmailmarikubu@wp.pl
dc.identifier.doi10.18778/0208-6018.339.01
dc.relation.volume6en_GB
dc.subject.jelC1
dc.subject.jelC38
dc.subject.jelC52


Pliki tej pozycji

Thumbnail

Pozycja umieszczona jest w następujących kolekcjach

Pokaż uproszczony rekord

This work is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 License.
Poza zaznaczonymi wyjątkami, licencja tej pozycji opisana jest jako This work is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 License.