Tradutur Ladin (Beta)

In diesem Paper untersuchen wir, wie Large Language Models (LLMs) trotz extrem geringer Datenmengen qualitativ hochwertige Übersetzungen ins Ladinische (Varianten Val Badia und Gherdëina) erzeugen können. Da LLMs im Training nur selten mit Minderheitensprachen in Kontakt kommen, spielt die Art des Promptings eine entscheidende Rolle für die Qualität der Ergebnisse.

Fragment-Shot Prompting: Unser Ansatz

Wir stellen in dieser Arbeit unser neu entwickeltes Fragment-Shot Prompting (FS) vor. Die zentrale Idee besteht darin, nicht beliebige Beispiele zu verwenden, sondern für jeden zu übersetzenden Satz einen individuell konstruierten Prompt zu erzeugen, der nahezu jedes Wort durch ein konkretes, kontextbezogenes Beispiel abdeckt.

Diese hohe syntaktische Abdeckung unterstützt das Modell dabei, grammatikalische Strukturen des Ladinischen besser zu erfassen und korrekt anzuwenden.

Zentrale Ergebnisse

Unsere Experimente mit aktuellen Modellen wie GPT-4o, Llama-3.3 und DeepSeek-R1 zeigen:

Signifikante Qualitätssteigerung: Der FS-Ansatz verbessert sowohl die Übersetzungsgenauigkeit als auch die orthografische Korrektheit im Ladinischen deutlich.
Starke Performance bei Rückübersetzungen: Besonders bei der Übersetzung vom Ladinischen ins Italienische zeigen LLMs eine hohe Zuverlässigkeit und Effizienz. Dies eröffnet neue Möglichkeiten für das Bootstrapping ladinischer Datensätze.
Syntaktik vor Semantik: In ressourcenarmen Sprachen ist die strukturelle Ähnlichkeit der Beispiele häufig wichtiger als ihre semantische Nähe für die Modellleistung.

Zusammenarbeit und Ausblick

Diese Forschung entstand am Institut für Informatik der Universität Innsbruck im Rahmen des Projekts „Intelligent Writing Assistant for Ladin“ in Kooperation mit dem Ladinischen Kulturinstitut „Micurá de Rü“.

Unser Ziel ist es, diese technologischen Fortschritte direkt für den Erhalt und die digitale Stärkung des Ladinischen nutzbar zu machen.

Wir freuen uns auf den fachlichen Austausch in Palma sowie darauf, unsere Methoden zur digitalen Förderung des Ladinischen international vorzustellen.

Kontextualisierung als Schlüssel: Optimierung der maschinellen Übersetzung für das Ladinische mit großen Sprachmodellen

Fragment-Shot Prompting: Unser Ansatz

Zentrale Ergebnisse

Zusammenarbeit und Ausblick

Link estern

Citation