Hintergrund
Im Rahmen einer Kollaboration mit der Romanistik liegen Daten für unterschiedliche Kreolsprachen (https://de.wikipedia.org/wiki/Kreolsprachen) vor. Die Daten beinhalten einerseits Audiofiles (Interview-Aufnahmen) sowie auch Transkriptionen, Metadaten und Übersetzungen der Audiofiles.
Zielsetzung der Arbeit
Konkrete Aufgaben
Related work: Wie ist der Stand der Kunst zu Tools und Webseiten, welche gesprochene Sprache aligniert als Audiosignal und als textuelle Transkription darstellen / durchsuchbar machen / etc.; welche wissenschaftliche Literatur gibt es dazu (in den Digital Humanities / Computerlinguistik; einschlägige Tagungen und Konferenzen werden mit dem Dozenten abgestimmt).
Überführung der Transkriptionen, Metadaten und Übersetzungen, welche aktuell als Worddatei vorliegen, in eine Datenbank oder eine XML-Struktur (einfache Informationsextraktion mit einer beliebigen Programmiersprache, idealerweise Python + regular expressions). Das Datenmodell sollte so flexibel sein, dass man später ggf. auch noch weitere linguistische Informationen zu den Transkriptionen speichern kann (werden in der BA ggf. exemplarisch für ein Beispiel mit angegeben)
Benutzerfreundliche Darstellung weiterer Informationen auf der Webseite, bspw. Übersetzungen, Sprecher, etc. (user centered design-Ansatz, d.h. frühes Testen von Prototypen mit Usern aus der Romanistik, und sukzessive Optimierung der Interface). Beim user interface design sollten zunächst bestehende Video-Transkriptionstools (siehe Links weiter unten) analysiert werden, da man sich hier ggf. best practices für die Alignierung abschauen kann.
Erwartete Vorkenntnisse
Webentwicklung: Datenbanken / JavaScript
-
Kenntnisse in den Kreolsprachen selbst sind nicht erforderlich, grundlegende Französischkenntnisse können aber nicht schaden
Weiterführende Quellen
Literatur
Jacquin, J. (2016). IMPACT: A tool for transcribing and commenting on oral data, for teaching, learning, and research. Digital Scholarship in the Humanities, 31(3), 493– 498.
http://doi.org/10.1093/llc/fqv012
Bestehende Web-Audioplayer:
Video-Transkriptionstools: