Odkrywanie wiedzy w wypowiedziach tekstowych. Metoda budowy słownika klasyfikacyjnego
Abstract
Wykorzystywanie wiedzy o składni języka, semantyce i logice powiązań pomiędzy elementami wypowiedzi to atrakcyjny obszar w eksploracji danych oraz analizach tekstowych. Jak dotąd metody analizy i klasyfikacji tekstów nie zawsze wykorzystują oferowane we wspomnianych obszarach osiągnięcia. Celem artykułu jest pokazanie metody, która integruje rozwiązania zaczerpnięte z różnych obszarów wiedzy naukowej. Zadania, jakie stawiają przed sobą autorzy, to: (a) wykorzystanie wiedzy z zakresu: językoznawstwa, NLP, logiki, statystyki w celu budowy rzetelnego narzędzia analitycznego w środowisku CAQDAS; (b) zastosowanie przewidzianych w CAQDAS rozwiązań oraz dodanie do nich nowych technik wspierających budowę narzędzi klasyfikacyjnych; (c) ocena zastosowanego rozwiązania. Zdaniem autorów metoda budowy słowników analitycznych, której wynikiem ma być narzędzie dokonujące trafnej klasyfikacji, wymaga syntezy wielu rozwiązań. Z jednej strony konieczna jest znajomość podstaw języka wyszukiwania treści, z drugiej – owocne okazuje się wykorzystanie narzędzi zbudowanych przez językoznawców (Thesaurus, słowniki synonimów, słowników relacji leksykalnych), badaczy jakościowych (lista przymiotnikowa ACL) oraz metodologów (indeks podobieństwa, proces deduplikacji oparty na mechanizmie machine learning, miara trafności klasyfikacji). W ramach proponowanego podejścia autorzy opisują krok po kroku proces budowy słownika kategoryzacyjnego, akcentują pułapki i ważne decyzje, jakie w ramach tego procesu napotyka analityk. Using knowledge of syntax, semantics and logic links between elements of expression is an attractive area in Data Mining and text analysis. Methods of text analysis and text classification do not always use resolutions like these. The purpose of this article is to show a method that integrates the solutions taken from different areas of scientific knowledge. The goals authors deal with are: (a) the use of knowledge in the following field: linguistics, NLP, logic, statistics in order to build a reliable analytical tool in CAQDAS environment; (b) the use of application available in CAQDAS solutions and developing them with new techniques for classification tools; (c) assessment of the adopted solution. The method for dictionary building requires a synthesis of many solutions. To build accurate classification dictionary one needs: the basics of the language content search, Thesaurus, synonym dictionary, lexical relations definitions. Authors describe a step-by-step process of building a classification dictionary, accentuate the pitfalls and important decisions, which appears to be important during the analysis process.
Collections
The following license files are associated with this item: