Zusammen mit Dr. Evelyn Wiesinger und Dr. habil. Alexander M. Teixeira Kalkhoff aus der Romanistik, werde ich am 3. März 2017 in Regensburg auf der Journée créole ein aktuelles Projektvorhaben im Bereich der digitalen Aufbereitung und der quantitativen Analyse von Kreolsprachen – insbesondere des Créole guyanais – vorstellen.
Arbeitstitel des Vortrags/Projekts:
Digitale Aufbereitung eines Kreolkorpus: state of the art, Desiderata und technische Machbarkeit
Ziele des Projekts
1. Überführung der MS Word-Korpusdatein in XML
Ausgangslage: Transkriptionen von Interviews mit Sprechern des Créole Guyanais wurden von Evelyn Wiesinger erstellt und liegen aktuell als MS Word-Dokumente vor.
Ziel: Informationsextraktion mithilfe regulärer Ausdrücke und Überführung in eine XML-Struktur
2. Semi-automatische Glossierung der Korpusdaten
Mithilfe maschineller Lernansätze sollen anhand manuell generierter Trainingsdaten weitere Transkripte automatisiert mit Glossierungsinformationen (vgl. Leipzig Glossing Rules) annotiert werden.
3. Quantitative Analysen der textuellen Korpusdaten
Hier sollen Standardverfahren aus der Korpuslinguistik (Frequenzen, Konkordanzen, Kollokationen, etc.) zum Einsatz kommen.
4. Alignierung von Kreol-Audioaufnahmen und textueller Transkription
Die Alignierung von Audio und Text erfolgt zunächst mit den MAUS-Tools.
Im nächsten Schritt sollen in einem Web-Interface Audiospur und Transkription parallel dargestellt werden. Ein erster JavaScript-Prototyp für HTML/JS-Audio-Text-Alignierung wurde bereits vom Kollegen Alexander Bazo entwickelt: TranscriptPlayer.js
5. Web-Korpus-Interface zur Suche nach Schlüsselwörtern / Metadaten
Alle so erschlossenen Daten sollen am Ende in einem webbasierten Informationssystem mit integriertem Analyse-Dashboard und einer umfangreichen Suchfunktion verfügbar sein. Beispielhafte Suchanfragen, die mit dem System umgesetzt werden können:
- Finde alle Sätze die aus mehr als 5 Wörtern bestehen und in denen ein frz. Wort vorkommt.
- Finde alle Sätze von weiblichen Kreolsprecherinnen, in denen das Wort „mo“ vorkommt.
Das Ergebnis der Suchanfragen soll jeweils eine quantitative Analyse der Ergebnismenge sowie eine interaktive Darstellung der entsprechenden Text- und Audiodaten sein.
Verwandte Projekte und Literatur:
- LREC 2014-Paper „The Gulf of Guinea Creole Corpora“ (pdf)
- COllections de COrpus Oraux Numériques(CoCoON)
- Corpus de la parole > Les créoles
Schreibe einen Kommentar