Wan-Hua Her und Thomas Schmidt
Abstract
Dieser Beitrag ist Teil einer Reihe von Beiträgen, die Forschungsprojekte aus den Jahren 2018-2020 im Bereich Digital Humanities vorstellen. Im Folgenden werden vor allem aktuelle Forschungen zum Thema „Social-Media-Analyse“ präsentiert: Distant Reading und Kollokationsanalyse verschiedener Religionsforen und Text Mining in Depressionsforen.
Die drei Forschungsbeiträge sind:
- Distant Reading of Religious Online Communities: A Case Study for Three Religious Forums on Reddit
- Visualizing Collocations in Religious Online Forums
- Exploring Online Depression Forums via Text Mining: A Comparison of Reddit and a Curated Online Forum
1. Distant Reading of Religious Online Communities: A Case Study for Three Religious Forums on Reddit
Der erste Beitrag wurde auf der Tagung „Digital Humanities in the Nordic Counties“ (DHN 2020) von Thomas Schmidt (Mitarbeiter des Lehrstuhls für Medieninformatik), Florian Kaindl (Studierender des Lehrstuhls für Medieninformatik) und Christian Wolff (Professor des Lehrstuhls für Medieninformatik) vorgestellt.
Zum Thema komparative Religionswissenschaft setzen Schmidt et al. (2020a) Analysemethoden des Distant Readings wie beispielsweise Text- und Sentimentanalyse auf drei verschiedenen Online-Religionsforen ein, um die Inhalte und das Kommunikationsverhalten zu vergleichen. Die Quellen des Korpus stammen aus /r/Christianity, /r/Islam und /r/Occult, drei der beliebtesten religiösen/spirituellen Subforen auf Reddit, die sich jeweils auf Diskussionen über das Christentum, den islamischen Glauben sowie Mystik, Metaphysik und andere verwandte Themen konzentrieren.
Die Diskussionsbeiträge „submissions“ sowie deren Kommentare „comments“ vom 1. Juli 2018 bis zum 1. Juli 2019 wurden aus den Foren mit Hilfe eines Python Reddit API Wrapper extrahiert und als JSON-Dateien gespeichert. Dies führte zu einem Korpus von 41 394 Beiträgen, 759 992 Kommentaren und über 50 Millionen Tokens.
Um Einblicke in die Themen und Sprache zu erhalten, werden die am häufigsten vorkommenden Wörter (most frequent words, MFWs) analysiert. Zunächst werden die Stoppwörter entfernt, und die verbleibenden Tokens mit WordNet-Lemmatizer lemmatisiert, welcher als eine Universallösung für Lemmatisierung von Social-Media-Inhalten dient.
Die am häufigsten benutzten Bigramme in den Subforen werden ebenfalls analysiert. Ein Bigramm ist dabei eine Wortfolge, die aus zwei Wörtern besteht und kann Aufschluss über die Verwendung komplexerer sprachlicher Konzepte geben.
Sowohl im christlichen als auch im muslimischen Subreddit sind bestimmte Entitäten die häufigsten Bigramme, z.B. „Jesus Christ“, „holy spirit“ und „prophet Muhammad“. Auffällig ist auch, dass in /r/Christianity „schwule Menschen“ häufig vorkommt, was in den anderen Foren eher selten ist. In /r/Islam dominieren geografische und politische Begriffe wie „middle east“ und „saudi arabia“ sowie geistliche Autoritäten („Yasir Quadhi“, „Abu Bakr“, „Ibn Taymiyyah“). Die Bigramme von /r/Occult beziehen sich meist auf esoterische Konzepte und Praktiken.
Als nächstes werden Kollokationen analysiert, um religiöse Begriffe und deren Darstellungen näher zu betrachten. Die Stärke der Kollokation wird anhand Pointwise Mutual Information (PMI) gemessen, die die Kollokationen auf der Grundlage ihres tatsächlichen gemeinsamen Auftretens im Korpus im Vergleich zum erwarteten gemeinsamen Auftreten (wenn die Wörter unabhängig voneinander existieren) einstuft. Im Folgenden werden Visualisierungen der Kollokationen in Bezug auf „god“ und „death“ gezeigt.
Bei den christlichen und islamischen Subreddits sind die positiven Wörter („forgives“, „love“) häufiger zu sehen als die negativen („hates“, „punishing“). Bemerkenswert ist auch, dass die Existenz Gottes in /r/Islam viel mehr diskutiert wird („existence“). Die Kollokationen in /r/Occult deuten auf verschiedene Perspektiven auf Gott („Abrahamic“, „Egyptian“, „Christian“, „sun“) hin.
Die Kollokationen des Begriffs Tod heben die Unterschiede zwischen den Subforen noch deutlicher hervor. Sowohl in /r/Islam als auch in /r/Christianity werden starke Korrelationen mit „penalty“ gefunden. Im christlichen Forum wird der Tod viel diskutiert, insbesondere in Zusammenhang mit der Erzählung von Jesus („ascension“, „resurrection“). Die Kollokationen der Wörter „angel“ und „taste“ im muslimischen Subreddit beziehen sich auf bestimmte Koranpassagen. In /r/Occult ist der Tod mit spirituellen Konzepten wie „rebirth“ und „ego“ verbunden, die ebenfalls im Buddhismus bekannt sind.
Zuletzt werden Sentimentanalyse und Emotionsanalyse mithilfe von VADER (ein Python-Paket für Sentimentanalyse) und NRC Emotion Lexicon durchgeführt.
Die Ergebnisse beider Analysen weisen auf eine dominierende Positivität in den Inhalten aller Subforen hin. Der niedrigere Anteil an neutralen Sätzten in /r/Christianity ist ein Indiz dafür, dass die Diskussionen über Christentum mit Emotionen stärker aufgeladen und polarisiert sind.
Link zum Paper auf ResearchGate
Link zum Video der Präsentation auf der Tagung
2. Visualizing Collocations in Religious Online Forums
Aufbauend auf dem Korpus der Subforen /r/Christianity, /r/Islam und /r/Occult erweiterten Thomas Schmidt (Mitarbeiter des Lehrstuhls für Medieninformatik), Florian Kaindl (Studierende des Lehrstuhls für Medieninformatik) und Christian Wolff (Professor des Lehrstuhls für Medieninformatik) in diesem Beitrag die Untersuchung religiöser Kollokationen.
Zu diesem Zweck werden vor allem Wörter, die mit den Begriffen „life“, „religion“ und „love“ assoziiert sind, anhand PMI analysiert und visualisiert. Die Themen sind Ausgangspunkt anderer Wörter und deshalb im Zentrum des Wortdiagramms platziert, wobei die verwandten Wörter durch eine Linie mit dem jeweiligen Thema verbunden sind. Je stärker die Verbindung zum Thema, desto kürzer die Linie und desto näher liegen die Wörter zum Zentrum des Graphen. Der jeweilige PMI-Wert wird auf der Kante gezeigt.
Das Thema Liebe wird im christlichen Subreddit meist mit Zitaten aus der Bibel verbunden („enemies“, „agape“). Bei der islamischen Kollokationsanalyse korrelieren nicht nur geistliche Begriffe („god“, „prophet“) mit Liebe, sondern auch familienbezogene Begriffe.
Wenn es um Religion geht, werden in /r/Islam religiöse Richtungen wie „abrahamic“ und „culture“ diskutiert. In /r/Christianity sind Kollokationen über andere Religionen („islam“) zu finden. In /r/Occult geht man über die Religion hinaus und spricht von unterschiedlichen Weltanschauungen („Egypt“, „philosophy“, „science“).
Zum Thema Leben handelt es sich in /r/Christianity um Begriffe, die sich auf das Leben nach dem Tod beziehen, wie z.B. „eternal“ und „immortal“. In /r/Islam ist das Leben eher mit Wörtern verbunden, die den Sinn des Lebens („purpose“, „meaning“) beschreiben.
Mittels Kollokationsanalyse werden erste Erkenntnisse gewonnen, insbesondere welche Schlüsselbegriffe im Zentrum des jewiligen Subreddits stehen und wie sich die spirituellen Weltanschauungen und Verbindungen zu Familie und Politik differenzieren.
Link zum Paper auf ResearchGate
3. Exploring Online Depression Forums via Text Mining: A Comparison of Reddit and a Curated Online Forum
Der letzte Beitrag wurde 2020 von Luis Moßburger, Felix Wende, Kay Brinkmann (Studierende des Lehrstuhls für Medieninformatik) und Thomas Schmidt (Mitarbeiter des Lehrstuhls für Medieninformatik) auf dem Workshop „Social Media Mining for Health Applications Workshop & Shared Task“ präsentiert.
Die Entstehung von Online-Foren in den letzten Jahren hilft Menschen, die an Depression leiden und Zugang zur Kommunikation und Information benötigen. Das Subreddit /r/Depression, eine öffentliche Social-Media-Plattform, hat z.B. ca. 570 000 Mitglieder (Stand: 2020). Des Weiteren können BenutzerInnen sich auf professionell betreuten Foren wie Beyond Blue über wichtige Themen bezüglich Depression informieren und mit Experten über ihre Probleme sprechen.
In diesem Zusammenhang untersuchten Moßburger et al. (2020), wie sich Sprache und Inhalt einer Plattform wie /r/Depression vom professionell kuratierten Forum Beyond Blue unterscheiden. Das /r/Depression Korpus umfasst 60 Millionen Tokens und besteht aus Beiträgen „submissions“ und Kommentaren „comments“. Das relativ kleinere Korpus von Beyond Blue beträgt etwa 5 Millionen Tokens und basiert auf Themen „threads“ und Antworten „answers“.
In beiden Foren ist „time“ das am häufigsten vorkommenden Wort. Andere Zeitangaben wie „day“, „week“ und „year“ treten ebenfalls häufig auf, was darauf hindeutet, dass die NutzerInnen über eine bestimmte Zeit in ihrem Leben oder dem anderer Menschen schreiben und dass ein Großteil des Gesprächs auf der Erzählung eigener Erfahrungen beruht.
Mit dem LIWC-Wörterbuch werden Wörter eines gegebenen Textes einer linguistischen und semantischen Wortkategorie zugeordnet. So kann der Anteil der Wörter, die z.B. in der Vergangenheitsform oder im Plural geschrieben sind, computergestützt berechnet wird.
/r/Depression hat einen stärkeren Fokus auf die Vergangenheit, während der Diskurs auf Beyond Blue sich auf die Gegenwart konzentriert. Obwohl beide Foren ungefähr die gleiche Anzahl an Pronomen verwenden, wird in /r/Depression die erste Person Singular häufiger benutzt. Im Gegensatz dazu sind in Beyond Blue die erste Person Plural und die zweite Person häufiger zu sehen. Dies spricht für einen aussagekräftigen Unterschied in der Kommunikation, dass die NutzerInnen in /r/Depression eher über sich selbst sprechen, wobei die NutzerInnen in Beyond Blue über einander sprechen.
Die Sentimentanalyse wurde mit dem lexikonbasierten VADER durchgeführt. VADER ist besonders geeignet für den Kontext der sozialen Medien und klassifiziert einen gegebenen Text mit einer von drei Polaritäten: positiv, negativ und neutral.
Auch wenn die Neutralität in den beiden Foren fast identisch ist, sind die Antworten auf Beyond Blue positiver als die auf /r/Depression. Insgesamt sind alle Antworten im Vergleich zu den Beiträgen ebenso positiver.
Für das Topic-Modeling wird ein Latent Dirichlet Allocation (LDA)-Modell mit der Python-Bibliothek genism erstellt. Dazu wird jeder Beitrag als ein Dokument gelesen und als Ergebnis werden 15 Themen pro Forum erstellt, die jeweils 20 Wörter enthalten.
Die Ergebnisse des Topic-Modeling verdeutlichen die Unterschiede zwischen den Benutzergruppen von /r/Depression und Beyond Blue. Während die Themen auf /r/Depression sich mit dem Schul- und Studentenleben („school“, „college“) beschäftigen, setzen die BenutzerInnen auf Beyond Blue sich mit finanziellen Angelegenheiten und sozialer Versicherung („social care“, „work“) auseinander. Der Kontrast wird noch stärker, wenn es um Familie geht: auf /r/Depression wird häufiger von den Eltern („mom“, „dad“) gesprochen, wobei es auf Beyond Blue aus der Sicht eines Elternteils („boy“, „girl“) zu sein scheint.
Themen wie Selbstverletzung oder Selbstmord („self-harm“, „emotional pain“) sind zwar in beiden Foren zu finden, aber sie werden sehr unterschiedlich dargestellt. Schlagwörter wie Weinen, Leiden und Sinnlosigkeit, die mit Gedanken von Selbstverletzung verbunden sind, werden auf /r/Depression benutzt, um eigene Gefühle zu beschreiben und auszulassen. Im Gegenteil wird die Verwendung verwandter Begriffe („anger“, „invisible“) auf Beyond Blue als Unterstützung und Hilfe gemeint.
Link zum Paper auf ResearchGate
Link zum Paper in den Proceedings
Literatur:
Schmidt, T., Kaindl, F. & Wolff, C. (2020a). Distant Reading of Religious Online Communities: A Case Study for Three Religious Forums on Reddit. In Proceedings of the Digital Humanities in the Nordic Countries 5th Conference (DHN 2020). Riga, Latvia.
Schmidt, T., Kaindl, F. & Wolff, C. (2020b). Visualizing Collocations in Religious Online Forums. In Digital Humanities Conference 2020 (DH 2020). Virtual Conference.
Moßburger, L., Wende, F., Brinkmann, K., & Schmidt, T. (2020, December). Exploring Online Depression Forums via Text Mining: A Comparison of Reddit and a Curated Online Forum. In Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task (pp. 70-81).
Schreibe einen Kommentar