Methodology for Content Analysis in Text Mining Projects and Fifth Generation of CAQDAS

Authors

  • Krzysztof Tomanek Uniwersytet Jagielloński, Instytut Socjologii, ul. Grodzka 52, 31-044 Kraków

DOI:

https://doi.org/10.18778/1733-8069.13.2.07

Keywords:

Content Analysis, Mixed Methods Approach, Big Data, Text Mining, CAQDAS

Abstract

Projects which we work with—large volumes of text data that are acquired from various sources and stored in a variety of formats—rise many dilemmas of a methodological nature, often require unstandardized decisions and solutions. In particular, compiling data of various quality, unstructured types, and of quan and qual nature requires dynamic strategies, ideas, and ways of analysis. The article describes an example of this approach. It shows its value in classification of written statements. In such context, the author of the article faces the following objectives: (a) can we use CAQDASso that semiautomatic or automatic work would replace some manual work regarding classification of the expressions; (b) how to construct a classification methodology for data of various quality; (c) when the automatic classification is useful and when there is no chance of success? The article will be marked with moments in which the analyst reaches for knowledge typical for qualitative data analysis, and when the knowledge of this area is no longer sufficient to classify content (natural language processing, machine learning). An example of a project being the background of this article forced the use of several tools and languages to support work with the data. Work on the transformation, classification, and visualization of results required applications such as: MySQL, R, QDA Miner, WordStat, Qlik Sense. Role and limits of the computer-assisted qualitative data analysis software tools have also been noted.

Downloads

Download data is not yet available.

Author Biography

Krzysztof Tomanek, Uniwersytet Jagielloński, Instytut Socjologii, ul. Grodzka 52, 31-044 Kraków

Krzysztof Tomanek, napisał doktorat z zakresu nauk społecznych na Uniwersytecie Jagiellońskim. Główne obszary zainteresowania i rozwoju naukowego: metodologia nauk społecznych, big data, data mining, text mining, badania z zakresu zaufania i lojalności, wizualizacja danych oraz interaktywne wizualizacje danych. Autor artykułów naukowych i popularnonaukowych z zakresu praktycznych zastosowań analiz tekstu, sentyment analysis, CAQDAS.

References

Acerbi Alberto i in. (2013) The Expression of Emotions in 20th Century Books. „PLoS ONE”, vol. 8, no. 3, s. 1–6.
Google Scholar DOI: https://doi.org/10.1371/journal.pone.0059030

Appel Markus, Richter Tobias (2010) Transportation and Need for Affect in Narrative Persuasion: A Mediated Moderation Model. „Media Psychology”, vol. 13, s. 101–135.
Google Scholar DOI: https://doi.org/10.1080/15213261003799847

Bolasco Sergio, Ratta-Rinaldi della Francesca (2004) Experiments on Semantic Categorisation of Texts: Analysis of Positive and Negative Dimension. „JADT 2004: 7es Journées internationals d’Analyse statistique des Données Textuelles” [dostęp 1 maja 2014 r.]. Dostępny w Internecie http://lexicometrica.univ-paris3.fr/jadt/jadt2004/pdf/JADT_018.pdf
Google Scholar

Bolc Leonard, Jerzy Cytowski (1989–1991) Metody przeszukiwania heurystycznego, t. 1–2. Warszawa: PWN.
Google Scholar

Cichosz Paweł (2000) Systemy uczące się. Warszawa: WNT.
Google Scholar

Cole Ron i in. (1996) Survey of the State of the Art in Human Language Technology. Cambridge University Press [dostęp 5 maja 2017 r.]. Dostępny w Internecie http://www.dfki.de/~hansu/HLT-Survey.pdf
Google Scholar

DeWall Nathan C. i in. (2011) Tuning in to Psychological Change: Linguistic Markers of Psychological Traits and Emotions over Time in Popular U.S. Song Lyrics. „Psychology of Aesthetics, Creativity, and the Arts”, vol. 5, no. 3, s. 200–207.
Google Scholar DOI: https://doi.org/10.1037/a0023195

Duch Włodzisław (1997) Fascynujący świat programów komputerowych. Poznań: Wydawnictwo Nakom.
Google Scholar

Duggleby Wendy (2005) What about Focus Group Interaction Data? „Qualitative Health Research”, vol. 15, no. 6, s. 832–840.
Google Scholar DOI: https://doi.org/10.1177/1049732304273916

Eder Maciej (2014) Metody ścisłe w językoznawstwie i pułapki pozornego obiektywizmu. Przykład stylometrii. „Teksty Drugie”, t. 2, s. 90–105.
Google Scholar

Eder Maciej, Piasecki Maciej (2015) System do klasyfikacji tekstu i analizy stylometrycznej, referat wygłoszony podczas warsztatów CLARIN [dostęp 20 marca 2017 r.]. Dostępny w Internecie http://clarin-pl.eu/pliki/warsztaty/Stylometria%20i%20klasyfikacja%20-%20warsztaty.ppt
Google Scholar

Forslid Erik, Wiken Niklas (2015) Automatic Irony and Sarcasm Detection in Social Media, UPPTEC F 15045 Examensarbete 30 [dostęp 30 listopada 2016 r.]. Dostępny w Internecie http://uu.diva-portal.org/smash/get/diva2:852975/FULLTEXT01.pdf
Google Scholar

Gonzalez Avelino J., Dankel Douglas D. (1993) The Engineering of Knowledge-Based Systems: Theory and Practice. Upper Saddle River, NJ: Prentice-Hall International.
Google Scholar

Jordan Joanne i in. (2007) Using Focus Groups to Research Sensitive Issues: Insights from Group Interviews on Nursingin the Northern Ireland “Troubles”. „International Journal of Qualitative Methods”, vol. 6, no. 4 [dostęp 14 kwietnia 2017 r.]. Dostępny w Internecie http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.533.61&rep=rep1&type=pdf
Google Scholar DOI: https://doi.org/10.1177/160940690700600401

Kaplowitz Michael D. (2000) Statistical Analysis of Sensitive Topics inGroup and Individual Interviews. „Quality & Quantity”, vol. 34, s. 419–431
Google Scholar DOI: https://doi.org/10.1023/A:1004844425448

Kidd Pamela S., Parshall Mark B. (2000) Getting the Focus and the Group: Enhancing Analytical Rigor in Focus Group Research. „Qualitative Health Research”, vol. 10, no. 3, s. 293–308.
Google Scholar DOI: https://doi.org/10.1177/104973200129118453

Lieberman Erez i in. (2007) Quantifying the Evolutionary Dynamics of Language. „Nature”, vol. 449, no. 7163, s. 713–716.
Google Scholar DOI: https://doi.org/10.1038/nature06137

Liu Bing (2012) Sentiment Analysis and Opinion Mining [dostęp 1 maja 2014 r.]. Dostępny w Internecie www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf
Google Scholar

Michael Jean Baptiste (2011) Quantitative Analysis of Culture Using Millions of Digitized Books. Program for Evolutionary Dynamics. Cambridge: Harvard University.
Google Scholar

Niedbalski Jakub (2013) CAQDAS – oprogramowanie do komputerowego wspomagania analizy danych jakościowych. Historia, ewolucja i przyszłość. „Przegląd Socjologiczny”, t. 62, nr 1, s. 153–166.
Google Scholar DOI: https://doi.org/10.18778/7969-549-2.01

Niedbalski Jakub, red. (2014) Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analiz danych jakościowych. Łódź: Wydawnictwo Uniwersytetu Łódzkiego.
Google Scholar

Pagel Mark, Atkinson Quentin D., Meade Andrew (2007) Frequency of Word-Use Predicts Rates of Lexical Evolution Throughout Indoeuropean History. „Nature”, vol. 449, s. 717–720.
Google Scholar DOI: https://doi.org/10.1038/nature06176

Piskorski Jakub (2001) Shallow Text Processor for Information Extraction from Free-Text Business Documents. Poznań: Akademia Ekonomiczna w Poznaniu.
Google Scholar

Rosa Krzysztof (2015) Listy pożegnalne niedoszłych samobójców. Analiza treści. „Przegląd Socjologiczny”, t. 64, nr 4, s. 103–128.
Google Scholar

Rybicki Jan, Heydel Magdalena (2013) The Stylistics and Stylometry of Collaborative Translation: Woolf’s “Night and Day” in Polish. „Digital Humanities 2012: digital diversity: cultures, languages and methods”, vol. 28, no. nr 4, s. 708–717.
Google Scholar DOI: https://doi.org/10.1093/llc/fqt027

Schanie Carrie L., Pinto-Foltz Melissa D., Logsdon Cynthia M. (2008) Analysis of Popular Press Articles Concerning Postpartum Depression: 1998-2006. „Issues Ment. Health Nurs.”, vol. 29, no. 11, s. 1200 –1216.
Google Scholar DOI: https://doi.org/10.1080/01612840802370509

Schwaber Ken (2013) Scrum Gide [dostęp 20 marca 2017 r.]. Dostępny w Internecie http://www.scrumguides.org/docs/scrumguide/v1/Scrum-Guide-PL.pdf
Google Scholar

Smith Marc in. (2009) C&T ’09: Proceedings of the Fourth International Conference on Communities and Technologies [dostęp 5 maja 2017 r.]. Dostępny w Internecie http://www.connectedaction.net/wp-content/uploads/2009/08/2009-CT-NodeXL-and-Social-Queries-a-social-media-network-analysis-toolkit.pdf
Google Scholar

Sołdacki Przemysław (2006) Zastosowanie metod płytkiej analizy tekstu do przetwarzania dokumentów w języku polskim. Niepublikowana praca doktorska, Politechnika Warszawska, Wydział Elektroniki i Technik Informacyjnych, Instytut Informatyki [dostęp 27 listopada 2017 r.]. Dostępny w Internecie https://www.google.pl/url?sa=t&rct=j&q=&esrc=s-&source=web&cd=1&ved=0ahUKEwjli7q5iMvQAhXDFSwKHfNPAPwQFggkMAA&url=https%3A%2F%2Frepo.pw.edu.pl%2Fdocstore%2Fdownload.seam%253Bjsessionid%3DF74241A1317DC5E22F87A22B33BE1F6F%3FfileId%3DWEiTI-b192c072-00cc-41df-9bba-a2b0a211e9bc&usg=AFQjCNH-0laWKScvxkvp6FNAqRhpaHuKr0A&bvm=bv.139782543,d.bGg&cad=rja
Google Scholar

Taboada Maite i in. (2011) Lexicon-Based Methods for Sentiment Analysis. „Journal of Computational Linguistics”, vol. 37, no. 2, s. 267–307.
Google Scholar DOI: https://doi.org/10.1162/COLI_a_00049

Tomanek Krzysztof (2014a) Analiza sentymentu: historia i rozwój metody w ramach CAQDAS [w:] Niedbalski Jakub, red., Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analiz danych jakościowych. Łódź: Wydawnictwo Uniwersytetu Łódzkiego, s. 155–172.
Google Scholar DOI: https://doi.org/10.18778/7969-549-2.08

Tomanek Krzysztof (2014b) Jak nauczyć metodę samodzielności [w:] Niedbalski Jakub, red., Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analiz danych jakościowych. Łódź: Wydawnictwo Uniwersytetu Łódzkiego, s. 174.
Google Scholar

Tomanek Krzysztof (2014c) „Analiza sentymentu” – metoda analizy danych jakościowych. Przykład zastosowania oraz ewaluacja słownika RID i metody klasyfikacji Bayesa w analizie danych jakościowych. „Przegląd Socjologii Jakościowej”, t. 10, nr 2, s. 118–136.
Google Scholar DOI: https://doi.org/10.18778/1733-8069.10.2.07

Tomanek Krzysztof (2015) Społeczność fanów nauki w świecie wirtualnym. Analiza eksploracyjna treści i aktywności społeczności internetowej skupionej wokół fanpage’a „I fucking love science”. „Edukacja Humanistyczna”, nr 1(32), s. 123–138.
Google Scholar

Tomanek Krzysztof (2016) Analiza argumentacji. Praktyczne implikacje zastosowania modelu argumentacji Stephena Toulmina do analiz danych tekstowych [w:] Wojciech Doliński i in., red., Rzeczywistość i zapis. Problemy badania tekstów w naukach społecznych i humanistycznych. Łódź: Wydawnictwo Uniwersytetu Łódzkiego, s. 229–242.
Google Scholar

Tomanek Krzysztof, Bryda Grzegorz (2015) Odkrywanie postaw dydaktyków zawartych w komentarzach studenckich. Analiza treści z zastosowaniem słownika klasyfikacyjnego. „Przegląd Socjologiczny”, t. 64, nr 4, s. 51–81.
Google Scholar

Weizenbaum Joseph (2008) Moglibyśmy mieć raj. „Forum”, nr 28, s. 28–29.
Google Scholar

Zaśko-Zielińska Monika (2014) Ślady idiolektów w listach pożegnalnych zgromadzonych w Polskim Korpusie Listów Pożegnalnych Samobójców [w:] R. Cieśla, red., Dokument i jego badania. Wrocław: Katedra Kryminalistyki Wydziału Prawa, Administracji i Ekonomii Uniwersytetu Wrocławskiego, s. 425–435.
Google Scholar

Published

2017-05-31

How to Cite

Tomanek, K. (2017). Methodology for Content Analysis in Text Mining Projects and Fifth Generation of CAQDAS. Przegląd Socjologii Jakościowej, 13(2), 128–143. https://doi.org/10.18778/1733-8069.13.2.07