Was wir erreicht haben
Unsere Arbeit konzentrierte sich auf den Aufbau der digitalen Grundlagen, die für die Entwicklung und Evaluation professioneller Übersetzungssysteme für zwei zentrale ladinische Varietäten erforderlich sind: Val Badia und Gherdëina.
- Ein neuer Referenzstandard: Der Evaluationsdatensatz FLORES+, einer der international etabliertesten Benchmarks für maschinelle Übersetzung, wurde um Ladin erweitert. Dadurch ist es möglich, die Übersetzungsqualität für Ladin mit jener von über 200 weiteren Sprachen anhand desselben wissenschaftlichen Referenzrahmens zu vergleichen.
- Neue parallele Datensätze: Es wurden zwei neue Datensätze mit insgesamt rund 18.000 Satzpaaren für die Sprachpaare Gherdëina–Italienisch und Gherdëina–Val Badia veröffentlicht. Diese Daten dienen als Trainingsgrundlage für KI-Modelle und ermöglichen es, ladinische sprachliche Besonderheiten gezielt abzubilden.
- Evaluation großer Sprachmodelle: Aktuelle Large Language Models (LLMs) wie GPT-4o und Llama-3 wurden im Hinblick auf ihre Übersetzungsleistung für Ladin evaluiert. Die Ergebnisse zeigen, dass spezifische, qualitativ geprüfte ladinische Daten entscheidend sind, um eine angemessene Übersetzungsqualität zu erreichen.
Bedeutung der Arbeit
Aus technologischer Sicht gilt Ladin als sogenannte Low-Resource-Sprache. Ohne hochwertige, manuell geprüfte Sprachdaten liefern automatische Übersetzungssysteme häufig Ergebnisse, die zentrale grammatische und lexikalische Besonderheiten der einzelnen Täler nicht berücksichtigen.
Mit dem Aufbau dieser Datensätze wird eine wichtige Grundlage für die weitere digitale Nutzung des Ladinischen geschaffen. Ziel ist es, langfristig Anwendungen, Webseiten und Kommunikationswerkzeuge zu ermöglichen, die den Gebrauch der ladinischen Sprache im digitalen Raum unterstützen.