W stronę nowej metodologii analizy treści. Podobieństwa i różnice pomiędzy modelowaniem tematycznym i jakościową analizą treści
DOI:
https://doi.org/10.18778/1733-8069.20.4.06Słowa kluczowe:
jakościowa analiza treści, analiza tematyczna, modelowanie tematyczne, text mining, mixed methodsAbstrakt
Celem artykułu jest krytyczna refleksja nad relacją pomiędzy jakościową analizą tematyczną i modelowaniem tematycznym (ang. topic modeling), jedną z bardziej popularnych odmian automatycznego przetwarzania tekstu. Na podstawie wyników jakościowej i ilościowej analizy dokumentów Konferencji Episkopatu Polski autorzy pokazują wady i zalety modelowania tematycznego. Negatywnie weryfikują tezę o zastępowalności analizy tematycznej przez modelowanie tematyczne i wskazują na niezbędność połączenia podejścia jakościowego z ilościowym w ramach metodologii metod mieszanych (ang. mixed methods). W ostatniej części opracowania przedstawiają możliwe sposoby łączenia obu metod, za pomocą których badacze jakościowi i badaczki jakościowe na podstawie paradygmatu metod mieszanych mogą skorzystać z modelowania tematycznego i – ze świadomością jego wad i zalet – wzbogacić swój warsztat, rozszerzyć zakres badań oraz usprawnić proces analizy.
Pobrania
Bibliografia
Aspers Patrik, Corte Ugo (2019), What is Qualitative in Qualitative Research, „Qualitative Sociology”, vol. 42(2), s. 139–160, https://doi.org/10.1007/s11133-019-9413-7
Google Scholar
Baranowski Mariusz, Cichocki Piotr (2021), Good and bad sociology: Does topic modelling make a difference?, „Society Register”, vol. 5(4), s. 7–22.
Google Scholar
Bazeley Pat (2010), Computer assisted integration of mixed methods data sources and analyses, [w:] Abbas Tashakkori, Charles Teddlie (red.), Handbook of mixed methods in social and behavioral research, Los Angeles: Sage Publications, s. 431–468.
Google Scholar
Blei David M. (2012), Probabilistic topic models, „Communications of the ACM”, vol. 55(4), s. 77–84, https://doi.org/10.1145/2133806.2133826
Google Scholar
Blei David M., Lafferty John D. (2006), A correlated topic model of Science, „Advances in Neural Information Processing Systems”, vol. 18, s. 147–154, https://doi.org/10.1214/07-AOAS114
Google Scholar
Blei David M., Ng Andrew Y., Jordan Michael I. (2003), Latent Dirichlet Allocation, „Journal of Machine Learning Research”, vol. 3, s. 993–1022.
Google Scholar
Boyd-Graber Jordan, Hu Yuening, Mimno David (2017), Applications of Topic Models, „Foundations and Trends in Information Retrieval”, vol. 11(2–3), s. 143–296, https://doi.org/10.1561/1500000030
Google Scholar
Braun Virginia, Clarke Victoria (2006), Using Thematic Analysis in Psychology, „Qualitative Research in Psychology”, vol. 3(2), s. 77–101.
Google Scholar
Braun Virginia, Clarke Victoria (2022), Thematic analysis: a practical guide, Los Angeles: Sage Publications.
Google Scholar
Brennan Timothy (2017), The digital-humanities bust: After a decade of investment and hype, what has the field accomplished? Not much, „Chronicle of Higher Education”, vol. 64(8).
Google Scholar
Brosz Maciej, Bryda Grzegorz, Siuda Piotr (2017), Big Data i CAQDAS a procedury badawcze w polu socjologii jakościowej, „Przegląd Socjologii Jakościowej”, vol. XIII, nr 2, s. 6–23.
Google Scholar
Bryda Grzegorz (2014), CAQDAS, Data Mining i odkrywanie wiedzy w danych jakościowych, [w:] Jakub Niedbalski (red.), Metody i techniki odkrywania wiedzy. Narzędzia CAQDAS w procesie analizy danych jakościowych, Łódź: Wydawnictwo Uniwersytetu Łódzkiego, s. 13–40.
Google Scholar
Bryda Grzegorz (2020), Whats and Hows? The Practice-Based Typology of Narrative Analyses, „Przegląd Socjologii Jakościowej”, vol. XVI, nr 3, s. 120–142.
Google Scholar
Chang Jonathan, Boyd-Graber Jordan L., Gerrish Sean, Wang Chong, Blei David M. (2009), Reading tea leaves: How humans interpret topic models, „Advances in Neural Information Processing Systems”, vol. 22, s. 1–9.
Google Scholar
Chen Yingying, Zhao Peng, Sei-Hill Kim, Chang Won Choi (2023), What We Can Do and Cannot Do with Topic Modeling: A Systematic Review, „Communication Methods and Measures”, vol. 17(2), s. 1–20, https://doi.org/10.1080/19312458.2023.2167965
Google Scholar
CLARIN-PL (b.r.), Shortextopic, https://ws.clarin-pl.eu/shortextopic [dostęp: 14.03.2023].
Google Scholar
CLARIN-PL (b.r.), Topiki, https://ws.clarin-pl.eu/topic [dostęp: 14.03.2023].
Google Scholar
Collingridge Dave S. (2013), A Primer on Quantitized Data Analysis and Permutation Testing, „Journal of Mixed Methods Research”, vol. 7(1), s. 81–97, https://doi.org/10.1177/1558689812454457
Google Scholar
Da Nan Z. (2019), The Computational Case against Computational Literary Studies, „Critical Inquiry”, vol. 45(3), s. 601–639, https://doi.org/10.1086/702594
Google Scholar
Delong Marek (2016), Konferencja Episkopatu Polski wobec wybranych kwestii politycznych i społecznych w Polsce w latach 1989–2014, Rzeszów: Wydawnictwo Uniwersytetu Rzeszowskiego.
Google Scholar
Delong Marek (2017a), Problem prawnej ochrony życia w enuncjacjach Konferencji Episkopatu Polski w latach 1989–2011, „UR Journal of Humanities and Social Sciences”, vol. 2(1), s. 84–97, https://doi.org/10.15584/johass.2017.1.5
Google Scholar
Delong Marek (2017b), Wybrane kwestie wychowania młodego pokolenia w enuncjacjach Konferencji Episkopatu Polski w latach 1989–2013, „Studia Sandomierskie. Teologia – Filozofia – Historia”, vol. 24(1), s. 249–260.
Google Scholar
Denzin Norman K. (2010), Moments, Mixed Methods, and Paradigm Dialogs, „Qualitative Inquiry”, vol. 16(6), s. 419–427, https://doi.org/10.1177/1077800410364608
Google Scholar
DiMaggio Paul (2015), Adapting computational text analysis to social science (and vice versa), „Big Data & Society”, vol. 2(2), s. 1–5, https://doi.org/10.1177/2053951715602908
Google Scholar
DiMaggio Paul, Nag Manish, Blei David (2013), Exploiting affinities between topic modeling and the sociological perspective on culture: Application to newspaper coverage of U.S. government arts funding, „Poetics”, vol. 41(6), s. 570–606, https://doi.org/10.1016/j.poetic.2013.08.004
Google Scholar
Eder Maciej (2016), Słowa znaczące, słowa kluczowe, słowozbiory – o statystycznych metodach wyszukiwania wyrazów istotnych, „Przegląd Humanistyczny”, vol. 60(3), s. 31–44.
Google Scholar
Enfield N.J. (2014), The Utility of Meaning: What Words Mean and Why, Oxford: Oxford University Press.
Google Scholar
Evans James A., Aceves Pedro (2016), Machine Translation: Mining Text for Social Theory, „Annual Review of Sociology”, vol. 42(1), s. 21–50, https://doi.org/10.1146/annurev-soc-081715-074206
Google Scholar
Flick Uwe (1992), Triangulation Revisited: Strategy of Validation or Alternative?, „Journal for the Theory of Social Behavior”, vol. 22(2), s. 175–197, https://doi.org/10.1111/j.1468-5914.1992.tb00215.x
Google Scholar
Flick Uwe (2010), Projektowanie badania jakościowego, przełożył Paweł Tomanek, Warszawa: Wydawnictwo Naukowe PWN.
Google Scholar
Friese Susanne (2019), Qualitative Data Analysis with Atlas.ti, Los Angeles: Sage Publications.
Google Scholar
Goldthorpe John H. (2012), Współczesna etnografia społeczna: problemy i perspektywy, [w:] John H. Goldthorpe, O socjologii: integracja badań i teorii, przełożyła Jerzyna Słomczyńska, Warszawa: Wydawnictwo IFiS PAN, s. 103–136.
Google Scholar
Grimmer Justin (2010), A Bayesian Hierarchical Topic Model for Political Texts: Measuring Expressed Agendas in Senate Press Releases, „Political Analysis”, vol. 18(1), s. 1–35, https://doi.org/10.1093/pan/mpp034
Google Scholar
Grimmer Justin, Stewart Brandon M. (2013), Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts, „Political Analysis”, vol. 21(3), s. 267–297, https://doi.org/10.1093/pan/mps028
Google Scholar
Grimmer Justin, Roberts Margaret E., Stewart Brandon M. (2022), Text as Data: A New Framework for Machine Learning and the Social Sciences, Princeton: Princeton University Press.
Google Scholar
Grootendorst Maarten (2022), BERTopic: Neural topic modeling with a class-based TF-IDF procedure, https://doi.org/10.48550/arXiv.2203.05794
Google Scholar
Hess Agnieszka, Hwaszcz Krzysztof (2022), Językoznawstwo korpusowe w badaniach medioznawczych – ujęcie historyczne i praktyczne, „Journal of Humanities and Social Sciences”, vol. 4(25), s. 118–132.
Google Scholar
Honnibal Matthew, Montani Ines, Van Landeghem Sofie, Boyd Adriane (2020), spaCy: Industrial-strength Natural Language Processing in Python, https://doi.org/10.5281/zenodo.1212303
Google Scholar
Hoyle Alexander, Goel Pranav, Hian-Cheong Andrew, Peskov Denis, Boyd-Graber Jordan, Resnik Philip (2021), Is automated topic model evaluation broken? The incoherence of coherence, „Advances in Neural Information Processing Systems”, vol. 34, s. 2018–2033.
Google Scholar
Index of /~rtuora/spacy (b.r.), http://mozart.ipipan.waw.pl/~rtuora/spacy/ [dostęp: 11.03.2023].
Google Scholar
Isoaho Karoliina, Gritsenko Daria, Mäkelä Eetu (2021), Topic Modeling and Text Analysis for Qualitative Policy Research, „Policy Studies Journal”, vol. 49, s. 300–324, https://doi.org/10.1111/psj.12343
Google Scholar
Kamasa Victoria (2013a), Rodzina w dyskursie polskiego Kościoła katolickiego. Badania korpusowe z perspektywy krytycznej analizy dyskursu, „Socjolingwistyka”, vol. 27, s. 139–152.
Google Scholar
Kamasa Victoria (2013b), Naming “In Vitro Fertilization”: Critical Discourse Analysis of the Polish Catholic Church’s Official Documents, „Procedia – Social and Behavioral Sciences”, vol. 95, s. 154–159.
Google Scholar
Klein Lauren F., Eisenstein Jacob, Sun Iris, Jacko J.A. (2015), Exploratory Thematic Analysis for Digitized Archival Collections, „Digital Scholarship in the Humanities”, vol. 30, s. 30–41.
Google Scholar
Krippendorff Klaus (2018), Content analysis: an introduction to its methodology, Los Angeles: Sage Publications.
Google Scholar
Kwiatkowska Agnieszka (2017), „Hańba w Sejmie” – zastosowanie modeli generatywnych do analizy debat parlamentarnych, „Przegląd Socjologii Jakościowej”, t. XIII, nr 2, s. 82–109.
Google Scholar
Kwiatkowska Agnieszka, Chwedczuk-Szulc Karol, Bolechów Bartosz (2022), Disentangling the Moral Rightness of Securitization: Data Mining of the Process of Framing and Shaping of Poland-United States Relations, „Polish Political Science Review”, vol. 10(1), s. 35–58, https://doi.org/10.2478/ppsr-2022-0003
Google Scholar
Leszczyńska Katarzyna, Zych Łukasz (2011), Wzory kobiecości w dyskursie Kościoła rzymskokatolickiego w Polsce, [w:] Krystyna Slany (red.), Kalejdoskop genderowy. W drodze do poznania płci społeczno-kulturowej w Polsce, Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, s. 201–216.
Google Scholar
Macanovic Ana (2022), Text mining for social science – The state and the future of computational text analysis in sociology, „Social Science Research”, vol. 49(1), 102784, https://doi.org/10.1016/j.ssresearch.2022.102784
Google Scholar
Mallet: MAchine Learning for LanguagE Toolkit (b.r.), https://mimno.github.io/Mallet/index [dostęp: 11.03.2023].
Google Scholar
Mann Gideon S., Mimno David, McCallum Andrew (2006), Bibliometric impact measures leveraging topic analysis, [w:] Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries (JCDL ‘06), New York: Association for Computing Machinery, s. 65–74, https://doi.org/10.1145/1141753.1141765
Google Scholar
Maryl Maciej, Eder Maciej (2017), Topic Patterns in an Academic Literary Journal: The Case of “Teksty Drugie”, https://dh-abstracts.library.virginia.edu/works/4012 [dostęp: 15.12.2022].
Google Scholar
McLevey John (2022), Doing computational social science: a practical introduction, Los Angeles: Sage Publications.
Google Scholar
Mimno David, Blei David M. (2011), Bayesian Checking for Topic Models, [w:] EMNLP’11 Proceedings of the Conference on Empirical Methods in Natural Language Processing, Edinburgh–Stroudsburg: Association for Computational Linguistics, s. 227–237.
Google Scholar
Moretti Franco (2016), Wykresy, mapy, drzewa. Abstrakcyjne modele na potrzeby literatury, przełożyli Tomasz Bilczewski, Anna Kowalcze-Pawlik, Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego.
Google Scholar
Nzabonimpa Jean Providence (2018), Quantitizing and qualitizing (im-)possibilities in mixed methods research, „Methodological Innovations”, vol. 11(2), s. 1–16, https://doi.org/10.1177/2059799118789021
Google Scholar
Onwuegbuzie J. Anthony, Johnson R. Burke, Collins M. Kathleen (2009), Call for mixed analysis: A philosophical framework for combining qualitative and quantitative approaches, „International Journal of Multiple Research Approaches”, vol. 3(2), s. 114–139, https://doi.org/10.5172/mra.3.2.114
Google Scholar
Pawłowski Adam, Walkowiak Tomasz (2022), Statistical tools, automatic taxonomies, and topic modelling in the study of self-promotional mission and vision texts of Polish universities, [w:] Makoto Yamazaki, Haruko Sanada, Reinhard Köhler, Sheila Embleton, Relja Vulanović, Eric S. Wheeler (red.), Quantitative Approaches to Universality and Individuality in Language, Berlin–Boston: De Gruyter Mouton, s. 131–145.
Google Scholar
Perrin Andrew J., Tepper Steven J., Caren Neal, Morris Sally (2014), Political and Cultural Dimensions of Tea Party Support, 2009–2012, „The Sociological Quarterly”, vol. 55(4), s. 625–652, https://doi.org/10.1111/tsq.12069
Google Scholar
Rahman Sajjadur, Kandogan Eser (2022), Characterizing Practices, Limitations, and Opportunities Related to Text Information Extraction Workflows: A Human-in-the-Loop Perspective, [w:] CHI Conference on Human Factors in Computing Systems, New Orleans: ACM, s. 1–15, https://doi.org/10.1145/3491102.3502068
Google Scholar
Roberts Margaret E., Stewart Brandon M., Tingley Dustin, Lucas Christopher, Leder-Luis Jetson, Kushner Gadarian Shana, Albertson Bethany, Rand David G. (2014), Structural Topic Models for Open-Ended Survey Responses, „American Journal of Political Science”, vol. 58(4), s. 1064–1082, https://doi.org/10.1111/ajps.12103
Google Scholar
Shadrova Anna (2021), Topic models do not model topics: epistemological remarks and steps towards best practices, „Journal of Data Mining & Digital Humanities”, 7595, https://doi.org/10.46298/jdmdh.7595
Google Scholar
Shah Dhavan V., Cappella Joseph N., Neuman W. Russell (2015), Big Data, Digital Media, and Computational Social Science: Possibilities and Perils, „The ANNALS of the American Academy of Political and Social Science”, vol. 659(1), s. 6–13, https://doi.org/10.1177/0002716215572084
Google Scholar
Skowronek Katarzyna (2006), Między sacrum a profanum: studium językoznawcze listów pasterskich Konferencji Episkopatu Polski (1945–2005), Kraków: Wydawnictwo Lexis.
Google Scholar
Skowronek Katarzyna (2007), Między sacrum a profanum, „Zeszyty Prasoznawcze”, nr 50(3–4), s. 191–192.
Google Scholar
Stubbs Michael (1996), Text and Corpus Analysis: Computer-Assisted Studies of Language and Culture, Oxford: Blackwell.
Google Scholar
Szwed Anna (2018), „Przyszłość ludzkości idzie przez rodzinę!”. Konstruowanie kryzysu rodziny w wypowiedziach Kościoła rzymskokatolickiego w Polsce – treści i funkcje, „Przegląd Religioznawczy”, t. 2, s. 81–96.
Google Scholar
Szwed Anna (2019), Typy legitymizacji w wypowiedziach hierarchów Kościoła rzymskokatolickiego w Polsce na temat gender i praw reprodukcyjnych, „Studia Socjologiczne”, t. 3, s. 81–108.
Google Scholar
Tang Jian, Meng Zhaoshi, Nguyen Xuan Long, Mei Qiaozhu, Zhang Ming (2014), Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis, [w:] Proceedings of the 31st International Conference on Machine Learning, vol. 32, New York: ACM, s. 190–198.
Google Scholar
Teddlie Charles, Tashakkori Abbas (2009), Foundations of mixed methods research: Integrating quantitative and qualitative approaches in the social and behavioral sciences, Los Angeles: Sage Publications.
Google Scholar
Underwood Ted (2019), Distant Horizons: Digital Evidence and Literary Change, Chicago: University of Chicago Press.
Google Scholar
Venugopalan Manju, Gupta Deepa (2022), An enhanced guided LDA model augmented with BERT based semantic strength for aspect term extraction in sentiment analysis, “Knowledge-Based Systems”, vol. 246, 108668.
Google Scholar
Vetulani Zygmunt, Vetulani Grażyna (2020), The case of Polish on its Way to Become a WellResourced-Language, [w:] Adda Gilles (red.), International conference on language technologies for all: enabling linguistic diversity and multilingualism worldwide. Proceedings of LT4All, Paris: UNESCO Headquarters, European Language Resources Association, s. 388–392.
Google Scholar
Wiedemann Gregor (2013), Opening up to Big Data: Computer-Assisted Analysis of Textual Data in Social Sciences, „Forum Qualitative Sozialforschung/Forum: Qualitative Social Research”, vol. 14(2), s. 332–357.
Google Scholar
Wiedemann Gregor (2016), Text mining for qualitative data analysis in the social sciences, New York–Berlin–Heidelberg: Springer.
Google Scholar
Woliński Marcin (2019), Morfeusz 2. Dokumentacja techniczna i użytkowa, http://download.sgjp.pl/morfeusz/Morfeusz2.pdf [dostęp: 21.01.2023].
Google Scholar
Opublikowane
Wersje
- 2025-01-10 - (2)
- 2024-11-30 - (1)
Jak cytować
Numer
Dział
Licencja
Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne – Bez utworów zależnych 4.0 Międzynarodowe.