Publicaziun 12.08.2024

Neuronale Maschinelle Übersetzung erstmals für Ladinisch angewendet

Wir berichten über unsere ersten Schritte zur Anwendung moderner neuronaler Übersetzungstechnologien auf das Ladinische. In unserer Publikation „Traduzione automatica ‘neurale’ per il ladino della Val Badia“ haben wir untersucht, wie datengetriebene Ansätze der Neural Machine Translation (NMT) auch für eine Sprache mit begrenzten Ressourcen adaptiert werden können.

Hintergrund

Die neuronale maschinelle Übersetzung (NMT) gilt als derzeit fortschrittlichster Ansatz zur automatischen Übersetzung, da sie komplexe sprachliche Strukturen und kontextuelle Informationen erfassen kann. Für Sprachen mit wenigen parallelen Daten, wie das Ladinische, war dieser Ansatz bislang nur eingeschränkt nutzbar. Mit unserer Arbeit wollten wir zeigen, dass auch für solche Low-Resource-Sprachen datengetriebene Methoden realistisch einsetzbar sind.

Methodik

Unser Ansatz kombiniert mehrere Schritte:

  • Aufbau eines Korpus aus vorhandenen ladinischen Texten, unter Berücksichtigung verschiedener Varietäten (Val Badia, Gherdëina, Fassa, Livinallongo, Ampezzo), sowie Klassifikation der Daten zur Qualitätssicherung.
  • Vorverarbeitung der Texte und Einsatz regelbasierter Systeme zur Unterstützung neuronaler Modelle.
  • Training von neuronalen Modellen auf Basis von Transformer-Architekturen, unter Einbezug synthetischer Daten (Back-Translation), um die geringe Datenmenge auszugleichen.

Ergebnisse

Unsere Experimente zeigen, dass neuronale Übersetzungsmodelle mit gezielter Datenaufbereitung auch für das Ladinische brauchbare Ergebnisse liefern können. Diese Ergebnisse bilden die Grundlage für weiterführende Arbeiten, etwa den Ausbau von Datensätzen oder die Integration in digitale Anwendungen.

Bedeutung und Ausblick

Die Publikation markiert einen ersten Schritt, um Ladinisch in moderne Übersetzungs- und Sprachtechnologien einzubinden. Unsere Arbeit soll zeigen, dass selbst für kleinere Sprachen mit begrenzten Ressourcen moderne, datengetriebene Methoden anwendbar sind und einen Beitrag zur digitalen Sichtbarkeit und Nutzbarkeit leisten können. Künftige Arbeiten werden sich auf die Erweiterung der Datengrundlage, die Optimierung der Modelle und die Anwendung in digitalen Werkzeugen konzentrieren.