Publicaziun 04.08.2024

Vergleich von Back‑Translation‑Methoden auf dem LoResMT 2024‑Workshop präsentiert

Beim Seventh Workshop on Technologies for Machine Translation of Low‑Resource Languages (LoResMT 2024) in Bangkok, Thailand, wurde unser Beitrag „Rule‑Based, Neural and LLM Back‑Translation: Comparative Insights from a Variant of Ladin“ vorgestellt. Die Arbeit untersucht die Wirkung unterschiedlicher Back‑Translation‑Ansätze auf die maschinelle Übersetzung für das Ladinische (Variante Val Badia) im Kontext sehr begrenzter paralleler Daten (ca. 18 000 Ladinisch‑Italienisch Satzpaare). Neben einem feinabgestimmten neuronalen Modell wurden synthetische Trainingsdaten mithilfe eines regelbasierten Systems sowie eines großen Sprachmodells erzeugt und miteinander verglichen. Die Experimente zeigen, dass alle Ansätze in dieser Low‑Resource‑Situation ähnliche Übersetzungsqualität erreichen

Back‑Translation‑Methoden für Ladinisch – Ergebnisse aus LoResMT 2024

Auf dem Seventh Workshop on Technologies for Machine Translation of Low‑Resource Languages (LoResMT 2024) in Bangkok, Thailand wurden neue Forschungsergebnisse zur maschinellen Übersetzung des Ladinischen vorgestellt. Im Beitrag „Rule‑Based, Neural and LLM Back‑Translation: Comparative Insights from a Variant of Ladin“ berichten wir über die Untersuchung unterschiedlicher Back‑Translation‑Ansätze im Kontext sehr begrenzter paralleler Sprachdaten.

Forschungsziel

Ziel der Studie war es, zu analysieren, wie synthetische Übersetzungsdaten, erzeugt mit verschiedenen Methoden, die Leistung eines neuronalen Übersetzungssystems für das Ladinische (Variante Val Badia) beeinflussen. Im Fokus standen Back‑Translation‑Techniken, bei denen nicht nur ein neuronales Modell, sondern auch ein speziell entwickeltes regelbasiertes System sowie ein großes Sprachmodell zur Generierung zusätzlicher Trainingsdaten verwendet wurden. :contentReference[oaicite:5]{index=5}

Datenlage und Methodik

Für das Ladinische steht nur ein kleiner paralleler Korpus zur Verfügung (rund 18 000 Satzpaare Ladinisch–Italienisch). :contentReference[oaicite:6]{index=6} Vor diesem Hintergrund wurde ein vortrainiertes, multilingual ausgerichtetes neuronales Maschinenübersetzungsmodell für Ladinisch– Italienisch feinabgestimmt und anschließend mit synthetischen Daten ergänzt, die durch verschiedene Back‑Translation‑Ansätze erzeugt wurden:

  • Ein feinabgestimmtes neuronales Modell, das aus vorhandenen parallelen Daten gelernt hat.
  • Ein regelbasiertes System, das speziell für das Sprachpaar Ladinisch–Italienisch entwickelt wurde.
  • Ein großes Sprachmodell zur Generierung synthetischer Übersetzungen.

Ergebnisse

Die experimentellen Ergebnisse zeigen, dass alle drei Back‑Translation‑Ansätze in diesem Low‑Resource‑Szenario vergleichbare Übersetzungsqualität erzielen. Die Analyse enthüllt jedoch Unterschiede bei „Round‑Trip“‑Übersetzungen (Hin‑ und Rückübersetzung), die auf unterschiedliche Leistungsprofile der Modelle hindeuten. Diese Erkenntnisse sind wichtig, um geeignete Strategien für die Erweiterung von Trainingsdaten und die Verbesserung von Übersetzungssystemen für weniger verbreitete Sprachen abzuleiten.

Bedeutung

Die Studie liefert neue Einblicke in die Rolle von Back‑Translation‑Techniken für maschinelle Übersetzungssysteme bei Sprachen mit sehr begrenztem Datenangebot. Sie zeigt, dass selbst in solchen Szenarien moderne Strategien zur Datensynthese vergleichbare Leistungen erreichen können und gleichzeitig Unterschiede im Modellverhalten sichtbar werden. Dies ist eine wichtige Grundlage für künftige Arbeiten zur Verbesserung der Übersetzungsqualität für das Ladinische und ähnliche low‑resource Sprachen.