In diesem Paper untersuchen wir, wie Large Language Models (LLMs) trotz extrem geringer Datenmengen qualitativ hochwertige Übersetzungen ins Ladinische (Varianten Val Badia und Gherdëina) erzeugen können. Da LLMs im Training nur selten mit Minderheitensprachen in Kontakt kommen, spielt die Art des Promptings eine entscheidende Rolle für die Qualität der Ergebnisse.
Fragment-Shot Prompting: Unser Ansatz
Wir stellen in dieser Arbeit unser neu entwickeltes Fragment-Shot Prompting (FS) vor. Die zentrale Idee besteht darin, nicht beliebige Beispiele zu verwenden, sondern für jeden zu übersetzenden Satz einen individuell konstruierten Prompt zu erzeugen, der nahezu jedes Wort durch ein konkretes, kontextbezogenes Beispiel abdeckt.
Diese hohe syntaktische Abdeckung unterstützt das Modell dabei, grammatikalische Strukturen des Ladinischen besser zu erfassen und korrekt anzuwenden.
Zentrale Ergebnisse
Unsere Experimente mit aktuellen Modellen wie GPT-4o, Llama-3.3 und DeepSeek-R1 zeigen:
- Signifikante Qualitätssteigerung: Der FS-Ansatz verbessert sowohl die Übersetzungsgenauigkeit als auch die orthografische Korrektheit im Ladinischen deutlich.
- Starke Performance bei Rückübersetzungen: Besonders bei der Übersetzung vom Ladinischen ins Italienische zeigen LLMs eine hohe Zuverlässigkeit und Effizienz. Dies eröffnet neue Möglichkeiten für das Bootstrapping ladinischer Datensätze.
- Syntaktik vor Semantik: In ressourcenarmen Sprachen ist die strukturelle Ähnlichkeit der Beispiele häufig wichtiger als ihre semantische Nähe für die Modellleistung.
Zusammenarbeit und Ausblick
Diese Forschung entstand am Institut für Informatik der Universität Innsbruck im Rahmen des Projekts „Intelligent Writing Assistant for Ladin“ in Kooperation mit dem Ladinischen Kulturinstitut „Micurá de Rü“.
Unser Ziel ist es, diese technologischen Fortschritte direkt für den Erhalt und die digitale Stärkung des Ladinischen nutzbar zu machen.
Wir freuen uns auf den fachlichen Austausch in Palma sowie darauf, unsere Methoden zur digitalen Förderung des Ladinischen international vorzustellen.