Verificaziun...
Publicaziun 06.05.2026

Kontextualisierung als Schlüssel: Optimierung der maschinellen Übersetzung für das Ladinische mit großen Sprachmodellen

Samuel Frontull und Thomas Ströhle

Wir freuen uns mitteilen zu können, dass unsere Forschungsarbeit "Every Word Presented in Context: Syntactic Coverage as Objective for Low-Resource Machine Translation with Large Language Models" für die 15th Language Resources and Evaluation Conference (LREC 2026) akzeptiert wurde. Die Ergebnisse unserer Studie werden am 15. Mai in Palma de Mallorca präsentiert.

In diesem Paper untersuchen wir, wie Large Language Models (LLMs) trotz extrem geringer Datenmengen qualitativ hochwertige Übersetzungen ins Ladinische (Varianten Val Badia und Gherdëina) erzeugen können. Da LLMs im Training nur selten mit Minderheitensprachen in Kontakt kommen, spielt die Art des Promptings eine entscheidende Rolle für die Qualität der Ergebnisse.

Fragment-Shot Prompting: Unser Ansatz

Wir stellen in dieser Arbeit unser neu entwickeltes Fragment-Shot Prompting (FS) vor. Die zentrale Idee besteht darin, nicht beliebige Beispiele zu verwenden, sondern für jeden zu übersetzenden Satz einen individuell konstruierten Prompt zu erzeugen, der nahezu jedes Wort durch ein konkretes, kontextbezogenes Beispiel abdeckt.

Diese hohe syntaktische Abdeckung unterstützt das Modell dabei, grammatikalische Strukturen des Ladinischen besser zu erfassen und korrekt anzuwenden.

Zentrale Ergebnisse

Unsere Experimente mit aktuellen Modellen wie GPT-4o, Llama-3.3 und DeepSeek-R1 zeigen:

  • Signifikante Qualitätssteigerung: Der FS-Ansatz verbessert sowohl die Übersetzungsgenauigkeit als auch die orthografische Korrektheit im Ladinischen deutlich.
  • Starke Performance bei Rückübersetzungen: Besonders bei der Übersetzung vom Ladinischen ins Italienische zeigen LLMs eine hohe Zuverlässigkeit und Effizienz. Dies eröffnet neue Möglichkeiten für das Bootstrapping ladinischer Datensätze.
  • Syntaktik vor Semantik: In ressourcenarmen Sprachen ist die strukturelle Ähnlichkeit der Beispiele häufig wichtiger als ihre semantische Nähe für die Modellleistung.

Zusammenarbeit und Ausblick

Diese Forschung entstand am Institut für Informatik der Universität Innsbruck im Rahmen des Projekts „Intelligent Writing Assistant for Ladin“ in Kooperation mit dem Ladinischen Kulturinstitut „Micurá de Rü“.

Unser Ziel ist es, diese technologischen Fortschritte direkt für den Erhalt und die digitale Stärkung des Ladinischen nutzbar zu machen.

Wir freuen uns auf den fachlichen Austausch in Palma sowie darauf, unsere Methoden zur digitalen Förderung des Ladinischen international vorzustellen.

Citation
Frontull, S., & Ströhle, T. (2026). Every Word Presented in Context: Syntactic Coverage as Objective for Low-Resource Machine Translation with Large Language Models. In Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026) (pp. 8824–8837). European Language Resources Association (ELRA). https://doi.org/10.63317/5jpokiam9tjt.