Hintergrund
Die neuronale maschinelle Übersetzung (NMT) gilt als derzeit fortschrittlichster Ansatz zur automatischen Übersetzung, da sie komplexe sprachliche Strukturen und kontextuelle Informationen erfassen kann. Für Sprachen mit wenigen parallelen Daten, wie das Ladinische, war dieser Ansatz bislang nur eingeschränkt nutzbar. Mit unserer Arbeit wollten wir zeigen, dass auch für solche Low-Resource-Sprachen datengetriebene Methoden realistisch einsetzbar sind.
Methodik
Unser Ansatz kombiniert mehrere Schritte:
- Aufbau eines Korpus aus vorhandenen ladinischen Texten, unter Berücksichtigung verschiedener Varietäten (Val Badia, Gherdëina, Fassa, Livinallongo, Ampezzo), sowie Klassifikation der Daten zur Qualitätssicherung.
- Vorverarbeitung der Texte und Einsatz regelbasierter Systeme zur Unterstützung neuronaler Modelle.
- Training von neuronalen Modellen auf Basis von Transformer-Architekturen, unter Einbezug synthetischer Daten (Back-Translation), um die geringe Datenmenge auszugleichen.
Ergebnisse
Unsere Experimente zeigen, dass neuronale Übersetzungsmodelle mit gezielter Datenaufbereitung auch für das Ladinische brauchbare Ergebnisse liefern können. Diese Ergebnisse bilden die Grundlage für weiterführende Arbeiten, etwa den Ausbau von Datensätzen oder die Integration in digitale Anwendungen.
Bedeutung und Ausblick
Die Publikation markiert einen ersten Schritt, um Ladinisch in moderne Übersetzungs- und Sprachtechnologien einzubinden. Unsere Arbeit soll zeigen, dass selbst für kleinere Sprachen mit begrenzten Ressourcen moderne, datengetriebene Methoden anwendbar sind und einen Beitrag zur digitalen Sichtbarkeit und Nutzbarkeit leisten können. Künftige Arbeiten werden sich auf die Erweiterung der Datengrundlage, die Optimierung der Modelle und die Anwendung in digitalen Werkzeugen konzentrieren.