Metodyka dla analizy treści w projektach stosujących techniki text mining i rozwiązania CAQDAS piątej generacji
DOI:
https://doi.org/10.18778/1733-8069.13.2.07Słowa kluczowe:
analiza treści, Mixed Methods, Big Data, techniki text mining, CAQDASAbstrakt
Projekty, w których przychodzi nam pracować z dużymi wolumenami danych tekstowych, pochodzących z rożnych źródeł i zapisanych w różnorodnych formatach, rodzą wiele dylematów natury metodologicznej, wymagają często niestandardowych decyzji i rozwiązań. W szczególności zadanie polegające na opracowaniu danych o różnorodnej jakości, nieustrukturyzowanych typu quan i qual wymagać może pracy, w której dynamicznie zmieniają się strategie analizy danych, sposoby przekształcania danych tekstowych. Artykuł opisuje przykład takiej właśnie „dynamicznej” metodyki. Wykazała ona swoją wartość w zadaniu polegającym na klasyfikacji wypowiedzi pisanych. W tak zarysowanym kontekście autor artykułu mierzy się z następującymi celami: (a) czy można zastosować oprogramowanie klasy CAQDAS do pracy półautomatycznej lub automatycznej zastępującej część manualnej pracy nad klasyfikacją wypowiedzi? (b) jak skonstruować metodykę klasyfikacji dla danych o różnorodnej jakości? (c) kiedy klasyfikacja automatyczna jest przydatna, a kiedy nie ma szans powodzenia? W artykule zaznaczone zostaną momenty, w których analityk sięga po wiedzę typową dla analiz danych jakościowych oraz te, kiedy wiedza z tego obszaru nie jest już wystarczająca do realizacji wskazanych celów (natural language processing, uczenie maszynowe). Przykład projektu będący tłem artykułu wymusił zastosowanie kilku narzędzi i języków wspierających pracę na danych. Praca nad transformacją, klasyfikacją oraz wizualizacją wyników wymagała zastosowania bazy MySQL oraz programów: R, QDA Miner, Wordstat, QlikSense. Roli i ograniczeniom narzędzi klasy CAQDAS poświęconych zostało także kilka uwag.
Pobrania
Bibliografia
Acerbi Alberto i in. (2013) The Expression of Emotions in 20th Century Books. „PLoS ONE”, vol. 8, no. 3, s. 1–6.
Google Scholar
DOI: https://doi.org/10.1371/journal.pone.0059030
Appel Markus, Richter Tobias (2010) Transportation and Need for Affect in Narrative Persuasion: A Mediated Moderation Model. „Media Psychology”, vol. 13, s. 101–135.
Google Scholar
DOI: https://doi.org/10.1080/15213261003799847
Bolasco Sergio, Ratta-Rinaldi della Francesca (2004) Experiments on Semantic Categorisation of Texts: Analysis of Positive and Negative Dimension. „JADT 2004: 7es Journées internationals d’Analyse statistique des Données Textuelles” [dostęp 1 maja 2014 r.]. Dostępny w Internecie http://lexicometrica.univ-paris3.fr/jadt/jadt2004/pdf/JADT_018.pdf
Google Scholar
Bolc Leonard, Jerzy Cytowski (1989–1991) Metody przeszukiwania heurystycznego, t. 1–2. Warszawa: PWN.
Google Scholar
Cichosz Paweł (2000) Systemy uczące się. Warszawa: WNT.
Google Scholar
Cole Ron i in. (1996) Survey of the State of the Art in Human Language Technology. Cambridge University Press [dostęp 5 maja 2017 r.]. Dostępny w Internecie http://www.dfki.de/~hansu/HLT-Survey.pdf
Google Scholar
DeWall Nathan C. i in. (2011) Tuning in to Psychological Change: Linguistic Markers of Psychological Traits and Emotions over Time in Popular U.S. Song Lyrics. „Psychology of Aesthetics, Creativity, and the Arts”, vol. 5, no. 3, s. 200–207.
Google Scholar
DOI: https://doi.org/10.1037/a0023195
Duch Włodzisław (1997) Fascynujący świat programów komputerowych. Poznań: Wydawnictwo Nakom.
Google Scholar
Duggleby Wendy (2005) What about Focus Group Interaction Data? „Qualitative Health Research”, vol. 15, no. 6, s. 832–840.
Google Scholar
DOI: https://doi.org/10.1177/1049732304273916
Eder Maciej (2014) Metody ścisłe w językoznawstwie i pułapki pozornego obiektywizmu. Przykład stylometrii. „Teksty Drugie”, t. 2, s. 90–105.
Google Scholar
Eder Maciej, Piasecki Maciej (2015) System do klasyfikacji tekstu i analizy stylometrycznej, referat wygłoszony podczas warsztatów CLARIN [dostęp 20 marca 2017 r.]. Dostępny w Internecie http://clarin-pl.eu/pliki/warsztaty/Stylometria%20i%20klasyfikacja%20-%20warsztaty.ppt
Google Scholar
Forslid Erik, Wiken Niklas (2015) Automatic Irony and Sarcasm Detection in Social Media, UPPTEC F 15045 Examensarbete 30 [dostęp 30 listopada 2016 r.]. Dostępny w Internecie http://uu.diva-portal.org/smash/get/diva2:852975/FULLTEXT01.pdf
Google Scholar
Gonzalez Avelino J., Dankel Douglas D. (1993) The Engineering of Knowledge-Based Systems: Theory and Practice. Upper Saddle River, NJ: Prentice-Hall International.
Google Scholar
Jordan Joanne i in. (2007) Using Focus Groups to Research Sensitive Issues: Insights from Group Interviews on Nursingin the Northern Ireland “Troubles”. „International Journal of Qualitative Methods”, vol. 6, no. 4 [dostęp 14 kwietnia 2017 r.]. Dostępny w Internecie http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.533.61&rep=rep1&type=pdf
Google Scholar
DOI: https://doi.org/10.1177/160940690700600401
Kaplowitz Michael D. (2000) Statistical Analysis of Sensitive Topics inGroup and Individual Interviews. „Quality & Quantity”, vol. 34, s. 419–431
Google Scholar
DOI: https://doi.org/10.1023/A:1004844425448
Kidd Pamela S., Parshall Mark B. (2000) Getting the Focus and the Group: Enhancing Analytical Rigor in Focus Group Research. „Qualitative Health Research”, vol. 10, no. 3, s. 293–308.
Google Scholar
DOI: https://doi.org/10.1177/104973200129118453
Lieberman Erez i in. (2007) Quantifying the Evolutionary Dynamics of Language. „Nature”, vol. 449, no. 7163, s. 713–716.
Google Scholar
DOI: https://doi.org/10.1038/nature06137
Liu Bing (2012) Sentiment Analysis and Opinion Mining [dostęp 1 maja 2014 r.]. Dostępny w Internecie www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf
Google Scholar
Michael Jean Baptiste (2011) Quantitative Analysis of Culture Using Millions of Digitized Books. Program for Evolutionary Dynamics. Cambridge: Harvard University.
Google Scholar
Niedbalski Jakub (2013) CAQDAS – oprogramowanie do komputerowego wspomagania analizy danych jakościowych. Historia, ewolucja i przyszłość. „Przegląd Socjologiczny”, t. 62, nr 1, s. 153–166.
Google Scholar
DOI: https://doi.org/10.18778/7969-549-2.01
Niedbalski Jakub, red. (2014) Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analiz danych jakościowych. Łódź: Wydawnictwo Uniwersytetu Łódzkiego.
Google Scholar
Pagel Mark, Atkinson Quentin D., Meade Andrew (2007) Frequency of Word-Use Predicts Rates of Lexical Evolution Throughout Indoeuropean History. „Nature”, vol. 449, s. 717–720.
Google Scholar
DOI: https://doi.org/10.1038/nature06176
Piskorski Jakub (2001) Shallow Text Processor for Information Extraction from Free-Text Business Documents. Poznań: Akademia Ekonomiczna w Poznaniu.
Google Scholar
Rosa Krzysztof (2015) Listy pożegnalne niedoszłych samobójców. Analiza treści. „Przegląd Socjologiczny”, t. 64, nr 4, s. 103–128.
Google Scholar
Rybicki Jan, Heydel Magdalena (2013) The Stylistics and Stylometry of Collaborative Translation: Woolf’s “Night and Day” in Polish. „Digital Humanities 2012: digital diversity: cultures, languages and methods”, vol. 28, no. nr 4, s. 708–717.
Google Scholar
DOI: https://doi.org/10.1093/llc/fqt027
Schanie Carrie L., Pinto-Foltz Melissa D., Logsdon Cynthia M. (2008) Analysis of Popular Press Articles Concerning Postpartum Depression: 1998-2006. „Issues Ment. Health Nurs.”, vol. 29, no. 11, s. 1200 –1216.
Google Scholar
DOI: https://doi.org/10.1080/01612840802370509
Schwaber Ken (2013) Scrum Gide [dostęp 20 marca 2017 r.]. Dostępny w Internecie http://www.scrumguides.org/docs/scrumguide/v1/Scrum-Guide-PL.pdf
Google Scholar
Smith Marc in. (2009) C&T ’09: Proceedings of the Fourth International Conference on Communities and Technologies [dostęp 5 maja 2017 r.]. Dostępny w Internecie http://www.connectedaction.net/wp-content/uploads/2009/08/2009-CT-NodeXL-and-Social-Queries-a-social-media-network-analysis-toolkit.pdf
Google Scholar
Sołdacki Przemysław (2006) Zastosowanie metod płytkiej analizy tekstu do przetwarzania dokumentów w języku polskim. Niepublikowana praca doktorska, Politechnika Warszawska, Wydział Elektroniki i Technik Informacyjnych, Instytut Informatyki [dostęp 27 listopada 2017 r.]. Dostępny w Internecie https://www.google.pl/url?sa=t&rct=j&q=&esrc=s-&source=web&cd=1&ved=0ahUKEwjli7q5iMvQAhXDFSwKHfNPAPwQFggkMAA&url=https%3A%2F%2Frepo.pw.edu.pl%2Fdocstore%2Fdownload.seam%253Bjsessionid%3DF74241A1317DC5E22F87A22B33BE1F6F%3FfileId%3DWEiTI-b192c072-00cc-41df-9bba-a2b0a211e9bc&usg=AFQjCNH-0laWKScvxkvp6FNAqRhpaHuKr0A&bvm=bv.139782543,d.bGg&cad=rja
Google Scholar
Taboada Maite i in. (2011) Lexicon-Based Methods for Sentiment Analysis. „Journal of Computational Linguistics”, vol. 37, no. 2, s. 267–307.
Google Scholar
DOI: https://doi.org/10.1162/COLI_a_00049
Tomanek Krzysztof (2014a) Analiza sentymentu: historia i rozwój metody w ramach CAQDAS [w:] Niedbalski Jakub, red., Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analiz danych jakościowych. Łódź: Wydawnictwo Uniwersytetu Łódzkiego, s. 155–172.
Google Scholar
DOI: https://doi.org/10.18778/7969-549-2.08
Tomanek Krzysztof (2014b) Jak nauczyć metodę samodzielności [w:] Niedbalski Jakub, red., Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analiz danych jakościowych. Łódź: Wydawnictwo Uniwersytetu Łódzkiego, s. 174.
Google Scholar
Tomanek Krzysztof (2014c) „Analiza sentymentu” – metoda analizy danych jakościowych. Przykład zastosowania oraz ewaluacja słownika RID i metody klasyfikacji Bayesa w analizie danych jakościowych. „Przegląd Socjologii Jakościowej”, t. 10, nr 2, s. 118–136.
Google Scholar
DOI: https://doi.org/10.18778/1733-8069.10.2.07
Tomanek Krzysztof (2015) Społeczność fanów nauki w świecie wirtualnym. Analiza eksploracyjna treści i aktywności społeczności internetowej skupionej wokół fanpage’a „I fucking love science”. „Edukacja Humanistyczna”, nr 1(32), s. 123–138.
Google Scholar
Tomanek Krzysztof (2016) Analiza argumentacji. Praktyczne implikacje zastosowania modelu argumentacji Stephena Toulmina do analiz danych tekstowych [w:] Wojciech Doliński i in., red., Rzeczywistość i zapis. Problemy badania tekstów w naukach społecznych i humanistycznych. Łódź: Wydawnictwo Uniwersytetu Łódzkiego, s. 229–242.
Google Scholar
Tomanek Krzysztof, Bryda Grzegorz (2015) Odkrywanie postaw dydaktyków zawartych w komentarzach studenckich. Analiza treści z zastosowaniem słownika klasyfikacyjnego. „Przegląd Socjologiczny”, t. 64, nr 4, s. 51–81.
Google Scholar
Weizenbaum Joseph (2008) Moglibyśmy mieć raj. „Forum”, nr 28, s. 28–29.
Google Scholar
Zaśko-Zielińska Monika (2014) Ślady idiolektów w listach pożegnalnych zgromadzonych w Polskim Korpusie Listów Pożegnalnych Samobójców [w:] R. Cieśla, red., Dokument i jego badania. Wrocław: Katedra Kryminalistyki Wydziału Prawa, Administracji i Ekonomii Uniwersytetu Wrocławskiego, s. 425–435.
Google Scholar
Pobrania
Opublikowane
Jak cytować
Numer
Dział
Licencja
Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne – Bez utworów zależnych 4.0 Międzynarodowe.