Hintergrund
In den letzten Jahren wurden auf dem Gebiet der Computerlinguistik erhebliche Fortschritte erzielt. Durch die Verfügbarkeit großer digitaler Datenmengen, verbesserte Algorithmen des maschinellen Lernens sowie eine steigende Rechenleistung konnten Sprachmodelle entwickelt werden, die in der Lage sind, semantische Informationen zu verarbeiten, zu verstehen und zu übertragen.
Diese Entwicklungen betreffen jedoch vor allem sogenannte „hochressourcige“ Sprachen. Viele moderne sprachbasierte Technologien unterstützen in erster Linie die meistgesprochenen Sprachen der Welt, da sie auf datengetriebenen Ansätzen beruhen, die für Sprachen mit geringer Datenverfügbarkeit nur eingeschränkt geeignet sind. In diesem Zusammenhang gilt auch das Ladinische als sogenannte Low-Resource-Sprache.
Das Ladinische im digitalen Kontext
Das Ladinische wird von rund 30.000 Sprecher:innen in der Region rund um das Sellamassiv in den Dolomiten gesprochen und ist als Minderheitensprache offiziell anerkannt. Es findet Verwendung in der öffentlichen Verwaltung, im Schulwesen sowie in den Medien und wird durch verschiedene Maßnahmen geschützt und gefördert.
Trotz dieser institutionellen Verankerung wird das Ladinische von der UNESCO als „vom Aussterben bedroht“ eingestuft. Ein zentraler Grund dafür ist die zunehmende Schwierigkeit, die Sprache an nachfolgende Generationen weiterzugeben. Wie auch in der Minority SafePack Initiative (2022) betont wird, liegt ein wesentlicher Faktor für den Erhalt kleinerer Sprachen darin, sie in möglichst vielen Kontexten und jederzeit verwenden zu können.
Im digitalen Zeitalter stellt dies jedoch eine besondere Herausforderung dar, insbesondere in Bereichen wie automatischer Spracherkennung oder maschineller Übersetzung.
Erste Experimente und Publikation
Vor diesem Hintergrund wurden erste Experimente zur automatischen Verarbeitung des Ladinischen durchgeführt. Der Fokus lag dabei auf grundlegenden Untersuchungen im Bereich der maschinellen Übersetzung, um das Potenzial bestehender Methoden für eine Low-Resource-Sprache wie Ladinisch zu evaluieren.
Die Ergebnisse dieser Experimente wurden in einer ersten wissenschaftlichen Publikation zusammengefasst. Diese Arbeit bildet die Grundlage für weiterführende Forschung und markiert einen ersten Schritt hin zu einer systematischen Entwicklung digitaler Sprachressourcen und KI-gestützter Anwendungen für das Ladinische.