Odkrywanie wiedzy w wypowiedziach tekstowych. Metoda budowy słownika klasyfikacyjnego

Tomanek, Krzysztof; Bryda, Grzegorz

dc.contributor.author	Tomanek, Krzysztof
dc.contributor.author	Bryda, Grzegorz
dc.contributor.editor	Niedbalski, Jakub
dc.date.accessioned	2018-04-18T07:10:24Z
dc.date.available	2018-04-18T07:10:24Z
dc.date.issued	2014
dc.identifier.citation	Tomanek K., Bryda G., Odkrywanie wiedzy w wypowiedziach tekstowych. Metoda budowy słownika klasyfikacyjnego, [w:] Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analizy danych jakościowych, J. Niedbalski (red.), Wydawnictwo Uniwersytetu Łódzkiego, Łódź 2014, http://dx.doi.org/10.18778/7969-549-2.11	pl_PL
dc.identifier.isbn	978-83-7969-549-2
dc.identifier.uri	http://hdl.handle.net/11089/24533
dc.description.abstract	Wykorzystywanie wiedzy o składni języka, semantyce i logice powiązań pomiędzy elementami wypowiedzi to atrakcyjny obszar w eksploracji danych oraz analizach tekstowych. Jak dotąd metody analizy i klasyfikacji tekstów nie zawsze wykorzystują oferowane we wspomnianych obszarach osiągnięcia. Celem artykułu jest pokazanie metody, która integruje rozwiązania zaczerpnięte z różnych obszarów wiedzy naukowej. Zadania, jakie stawiają przed sobą autorzy, to: (a) wykorzystanie wiedzy z zakresu: językoznawstwa, NLP, logiki, statystyki w celu budowy rzetelnego narzędzia analitycznego w środowisku CAQDAS; (b) zastosowanie przewidzianych w CAQDAS rozwiązań oraz dodanie do nich nowych technik wspierających budowę narzędzi klasyfikacyjnych; (c) ocena zastosowanego rozwiązania. Zdaniem autorów metoda budowy słowników analitycznych, której wynikiem ma być narzędzie dokonujące trafnej klasyfikacji, wymaga syntezy wielu rozwiązań. Z jednej strony konieczna jest znajomość podstaw języka wyszukiwania treści, z drugiej – owocne okazuje się wykorzystanie narzędzi zbudowanych przez językoznawców (Thesaurus, słowniki synonimów, słowników relacji leksykalnych), badaczy jakościowych (lista przymiotnikowa ACL) oraz metodologów (indeks podobieństwa, proces deduplikacji oparty na mechanizmie machine learning, miara trafności klasyfikacji). W ramach proponowanego podejścia autorzy opisują krok po kroku proces budowy słownika kategoryzacyjnego, akcentują pułapki i ważne decyzje, jakie w ramach tego procesu napotyka analityk.	pl_PL
dc.description.abstract	Using knowledge of syntax, semantics and logic links between elements of expression is an attractive area in Data Mining and text analysis. Methods of text analysis and text classification do not always use resolutions like these. The purpose of this article is to show a method that integrates the solutions taken from different areas of scientific knowledge. The goals authors deal with are: (a) the use of knowledge in the following field: linguistics, NLP, logic, statistics in order to build a reliable analytical tool in CAQDAS environment; (b) the use of application available in CAQDAS solutions and developing them with new techniques for classification tools; (c) assessment of the adopted solution. The method for dictionary building requires a synthesis of many solutions. To build accurate classification dictionary one needs: the basics of the language content search, Thesaurus, synonym dictionary, lexical relations definitions. Authors describe a step-by-step process of building a classification dictionary, accentuate the pitfalls and important decisions, which appears to be important during the analysis process.	pl_PL
dc.language.iso	pl	pl_PL
dc.publisher	Wydawnictwo Uniwersytetu Łódzkiego	pl_PL
dc.relation.ispartof	Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analizy danych jakościowych;
dc.rights	Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/pl/	*
dc.subject	Text Mining	pl_PL
dc.subject	CAQDAS	pl_PL
dc.subject	słownik klasyfikacyjny	pl_PL
dc.subject	słownik analityczny	pl_PL
dc.subject	przetwarzanie języka naturalnego	pl_PL
dc.subject	NLP	pl_PL
dc.subject	Thesaurus	pl_PL
dc.subject	Słowosieć	pl_PL
dc.title	Odkrywanie wiedzy w wypowiedziach tekstowych. Metoda budowy słownika klasyfikacyjnego	pl_PL
dc.title.alternative	Knowledge Discovery in Textual Statements. Construction Method of Classification Dictionary	pl_PL
dc.type	Book chapter	pl_PL
dc.rights.holder	© Copyright by Uniwersytet Łódzki, Łódź 2014	pl_PL
dc.page.number	219-248	pl_PL
dc.contributor.authorAffiliation	Uniwersytet Jagielloński	pl_PL
dc.contributor.authorBiographicalnote	Krzysztof Tomanek – doktor socjologii. Jego zainteresowania badawcze dotyczą zagadnień: teorii zaufania, lojalności, zastosowań koncepcji Quality of Life w badaniach społecznych. Najważniejsze zainteresowania metodologiczne obejmują: metodologię badań, metodologię analiz danych jakościowych, aplikację technik Text Mining do analiz danych jakościowych. Prowadzi grant badawczy MNiSW dotyczący Festiwalu Kultury Żydowskiej w Krakowie (wspólnie z dr Annąmarią Orla-Bukowską). Jest autorem projektów ogólnopolskich badań konsumenckich. Jego publikacje dotyczą wykorzystania technik analizy treści w CAQDAS, prowadzi ogólnopolskie projekty badań konsumenckich.	pl_PL
dc.contributor.authorBiographicalnote	Grzegorz Bryda – dr, adiunkt w Instytucie Socjologii UJ, Pełnomocnik Rektora UJ ds. ewaluacji jakości systemu kształcenia. Zainteresowania: teoria socjologiczna, kognitywistyka, zastosowanie informatyki i NLP w analizie danych jakościowych (CAQDAS i Text Mining), modelowanie procesów społecznych. Współpracuje z instytucjami publicznymi i prywatnymi w zakresie metodologii badań społecznych oraz analizy danych ilościowych i jakościowych.	pl_PL
dc.references	Bernstein Basil (1971), Class, Codes and Control, Routledge, London.	pl_PL
dc.references	Bourdieu Pierre (2009), Doksa i życie codzienne. O habitusie, oświeconej fałszywej świadomości i rapie rozmawiają krytyk ideologii i realista, rozmowa z Terrym Eagletonem, „Recykling Idei”, nr 12.	pl_PL
dc.references	Broniarek Wojciech (2010), Gdy Ci słowa zabraknie. Słownik synonimów, Haroldson, Brwinów.	pl_PL
dc.references	Brosz Maciej (2012), Komputerowe wspomaganie badań jakościowych. Zastosowanie pakietu NVivo w analizie materiałów nieustrukturyzowanych, „Przegląd Socjologii Jakościowej”, t. VII, nr 1, s. 98–125.	pl_PL
dc.references	Bryda Grzegorz, Tomanek Krzysztof (2014), Od CAQDAS do Text Miningu. Nowe techniki w analizie danych jakościowych, [w:] Jakub Niedbalski (red.), Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analizy danych jakościowych, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.	pl_PL
dc.references	Chapman Pete, Clinton Julian, Kerber Randy, Khabaza Thomas, Reinartz Thomas, Shearer Colin, Wirth Rüdiger (2000), CRISP-DM 1.0. A Step-by-step Data Mining Guide, SPSS, New York.	pl_PL
dc.references	Fayyad Usama M., Piatetsky-Shapiro Gregory, Smyth Padhraic (1996), Knowledge Discovery and Data Mining: Towards a Unifying Framework, “Knowledge Discovery and Data Mining”, no. 2–4, s. 82–88; www.facweb.iitkgp.ernet.in/~shamik/autumn2004/dwdm/papers/Knowledge% 20Discovery%20and%20Data%20Mining%20Towards%20a%20Unifying%20Framework% 20%281996%29.pdf [dostęp: 1.05.2014].	pl_PL
dc.references	Fellbaum Christiane (1998), WordNet: An Electronic Lexical Database, MIT Press, Cambridge; http://wordnet.princeton.edu [dostęp: 1.05.2014].	pl_PL
dc.references	Gadomski Adam Maria (2013), Meta-Ontological Assumptions: Information, Preferences and Knowledge (IPK): Universal Cognitive Architecture; http://erg4146.casaccia.enea.it/ wwwerg26701/gad-dict.htm [dostęp: 1.05.2014].	pl_PL
dc.references	Greene Jennifer C. (2006), Toward a Methodology of Mixed Methods Social Inquiry, “Research in the Schools”, vol. 13, no. 1, s. 93–98.	pl_PL
dc.references	Hayek Friedrich A. (1945), The Use of Knowledge in Society, “The American Economic Review”, vol. 35, no. 4, s. 519–530.	pl_PL
dc.references	Hotho Andreas, Nürnberger Andreas, Paaß Gerhard (2005), A Brief Survey of Text Mining, “German Journal for Computer Linguistics and Speech Technology”, vol. 20 (1), s. 19–62.	pl_PL
dc.references	Kobos Mateusz, Mańdziuk Jacek (2008), Metody sztucznej inteligencji w przewidywaniu wartości indeksu giełdowego z wykorzystaniem artykułów prasowych, [w:] Cezary Orłowski, Zdzisław Kowalczuk, Edward Szczerbicki (red.), Zarządzanie wiedzą i technologiami informatycznymi, Pomorskie Wydawnictwo Naukowo-Techniczne PWNT, Gdańsk.	pl_PL
dc.references	Kodeks wartości akademickich; www.uj.edu.pl/c/document_library/get_file?uuid=d63b4be0-5eee-4d94-bd32-3b1ccef396f6&groupId=10172 [dostęp: 1.01.2015].	pl_PL
dc.references	Kordasiewicz Anna, Haratyk Karol (2013), Między wizerunkiem a praktyką – diagnoza stanu wykorzystania programów komputerowych wspomagających analizę danych jakościowych w Polsce, „Przegląd Socjologiczny”, t. LXII/1, s. 167–187.	pl_PL
dc.references	Kripke Saul (2001), Nazywanie a konieczność, przeł. Bohdan Chwedeńczuk, Fundacja Aletheia, Warszawa.	pl_PL
dc.references	Lofland John, Snow A. David, Anderson Leon, Lofland Lyn H. (2009), Analiza układów społecznych. Przewodnik metodologiczny po badaniach jakościowych, Scholar, Warszawa.	pl_PL
dc.references	Martowska Katarzyna (2012), Lista Przymiotnikowa. Harrison G. Gough, Alfred B. Heilbrun Jr. Polska Normalizacja, Pracownia testów psychologicznych Polskiego Towarzystwa Psychologicznego, Warszawa.	pl_PL
dc.references	Micek Dorota, Beźnic Szymon (2004), Jakościowe badania marketingowe – fokusy i wywiady pogłębione – funkcje, zastosowania; www.cem.pl [dostęp: 1.05.2014].	pl_PL
dc.references	Miller George A. (1995), WordNet: A Lexical Database for English, “Communications of the ACM”, vol. 38, no. 11, s. 39–41.	pl_PL
dc.references	Niedbalski Jakub (2013), Odkrywanie CAQDAS. Wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.	pl_PL
dc.references	Peirce Charles Sanders (1931–1935), Collected Papers, vol. 1–6, Harvard University Press, Cambridge.	pl_PL
dc.references	Powers David M. (2007/2011), Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation, “Journal of Machine Learning Technologies”, vol. 2 (1), s. 37–63.	pl_PL
dc.references	Provali Research, oprogramowanie; http://provalisresearch.com [dostęp: 1.10.2014].	pl_PL
dc.references	Putnam Hilary (1990), Realism with a Human Face, Harvard University Press, Cambridge.	pl_PL
dc.references	Quine Van Orman Willard (1999), Słowo i przedmiot, przeł. Cezary Cieśliński, Fundacja Aletheia, Warszawa.	pl_PL
dc.references	Ramos Juan (2014), Using TF-IDF to Determine Word Relevance in Document Queries, Rutgers University, Piscataway, New York.	pl_PL
dc.references	Rorty Richard (1996), Przygodność, ironia i solidarność, przeł. Wacław Jan Popowski, Spacja, Warszawa.	pl_PL
dc.references	Silverman David (2007), Interpretacja danych jakościowych, PWN, Warszawa.	pl_PL
dc.references	Skvoretz John (1998), Theoretical Models: Sociology’s Missing Links, [w:] Alan Sica (ed.), What is Social Theory? The Philosophical Debates, Blackwell, Oxford.	pl_PL
dc.references	Słowosieć; http://nlp.pwr.wroc.pl/projekty/slowosiec2 [dostęp: 1.10.2014].	pl_PL
dc.references	Sperber Dan, Wilson Deirdre (2004), Relevance Theory, [w:] Gregory Ward, Laurence Horn (eds), Handbook of Pragmatics, Blackwell, Oxford.	pl_PL
dc.references	Tomanek Krzysztof (2014a), Analiza sentymentu – metoda analizy danych jakościowych. Przykład zastosowania oraz ewaluacja słownika RID i metody klasyfikacji Bayesa w analizie danych jakościowych, „Przegląd Socjologii Jakościowej”, t. 10, nr 2, s. 118–136; www.przegladsocjologiijakosciowej. org [dostęp: 2.01.2015].	pl_PL
dc.references	Tomanek Krzysztof (2014b), Jak nauczyć metodę samodzielności? O „samouczących się” metodach analizy treści, [w:] Jakub Niedbalski (red.), Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analizy danych jakościowych, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.	pl_PL
dc.references	Witten Ian H., Frank Eibe, Hall Mark A. (2005), Data Mining: Practical Machine Learning Tools and Techniques, 2nd ed., Morgan Kaufmann, Amsterdam–Boston–Heidelberg–London–New York–Oxford–Paris–San Diego–San Francisco–Singapore–Sydney–Tokyo.	pl_PL
dc.references	Yung-Shen Lin, Jung-Yi Jiang, Shie-Jue Lee (2014), A Similarity Measure for Text Classification and Clustering, [w:] IEEE Transactions on Knowledge and Data Engineering IEEE Transactions on Knowledge and Data Engineering (Impact Factor: 1.89), 07.2014; 26 (7), s. 1575–1590.	pl_PL
dc.identifier.doi	10.18778/7969-549-2.11