Tl cheder de n proiet de colaboraziun danter l'Université da Desproch y l'Istitut Ladin Micurá de Rü é nosta inrescida dedicada al svilup de n sistem inovatif de traduziun automatica por le lingaz ladin.
Le lingaz ladin é caraterisé da süa gran diversité: al müda da valada a valada. Les variantes prinzipales é che dla Val Badia, de Gherdëna, Fascia, Ampëz y Fodom. Chëstes variantes rapresentëia na desfida particolara, deache vignöna mëss gní tratada singolarmënter. Nosc laur se conzentrëia al momënt sön la varianta dla Val Badia. I svilupun soluziuns aposta por chësta varianta, cun l'obietif da amplié dedô chëres plü efiziëntes ales atres variantes. Tres chësc aprofondimënt porvunse da cherié n sistem de traduziun che respetëies y valorisëies la diversité culturala y linguistica straordinara dl lingaz ladin.
Tradizionalmënter adora i sistems de traduziun na gran cuantité de tesć por podëi funzioné bun. La bassa desponibilité de tesć che an á indere ti mëndri lingac ne basta nia por i algoritms daldedaincö. Ti ultims agn él gnü svilupé plü soluziuns por superé la desponibilité limitada de dac o por adoré i tesć che é a desposiziun te na manira plü inteliënta.
Implü él cun la publicaziun de ChatGPT y atri "Large Language Models" (LLMs) gnü daurit n setur de inrescida dla traduziun automatica daldöt nü. Chisc gragn modei linguistics á na comprenjiun imprescionanta dl lingaz i an pó i adaté a problems nüs cun püc ejëmpli. En combinaziun cun les soluziuns che é bele gnüdes svilupades, podess chëstes capazités gní sëgn ince adorades por svilupé sistems de traduziun automatica ince por lingac de mendranza.
Le svilup de n sistem de traduziun automatica por le ladin che funzionëia bun podess cherié poscibilités nöies por l'adoranza y la inrescida dl lingaz. Da öna na pert podess l'azes a chësc lingaz y ala cultura ladina gní scemplifiché, dal'atra pert podessel pité n stromënt por la creaziun de tesć, che foss de ütl a döta la comunité ladina. Al é porchël ince n contribut important por la conservaziun de chësc lingaz, almanco tl monn digital.
Por plü informaziuns: www.uibk.ac.at/de/theoretische-informatik/forschung/projekte/#MTladin
In einem Kooperationsprojekt zwischen der Universität Innsbruck und dem ladinischen Kulturinstitut "Micurá de Rü" widmet sich unsere Forschung der Entwicklung eines innovativen maschinellen Übersetzungssystems, speziell für die ladinische Sprache. Ladinisch, auch als Dolomitenladinisch bekannt, ist eine in Italien offiziell anerkannte Minderheitensprache, die von rund 30.000 Menschen in den fünf Tälern rund um den Sellastock gesprochen wird.
Die ladinische Sprache zeichnet sich durch ihre einzigartige Diversität aus: Sie variiert signifikant von Tal zu Tal. Zu den Hauptvarianten zählen Val Badia (Gadertal), Val Gardena (Grödnertal), Fassa (Fassa), Ampezzo (Anpezo) und Buchenstein (Fodom). Diese Vielfalt stellt eine besondere Herausforderung dar, da jede Variante individuell behandelt werden muss.
Unser Ansatz ist es, zunächst die Variante des Gadertals in den Fokus zu nehmen. Wir entwickeln Methoden, die speziell für diese Variante konzipiert sind, mit dem Ziel, erfolgreiche Strategien später auf die anderen Varianten auszuweiten. Durch diese schrittweise Vorgehensweise streben wir danach, ein umfassendes und effizientes Übersetzungssystem zu schaffen, das die reiche kulturelle und sprachliche Vielfalt der ladinischen Sprache würdigt und fördert.
Traditionell benötigen moderne Ansätze für die Entwicklung leistungsfähiger maschineller Übersetzungssysteme eine große Menge an Trainingsdaten. Die begrenzte Verfügbarkeit von Ressourcen und Texten in kleineren Sprachen verhindert jedoch eine effektive Anwendung dieser Algorithmen. In den letzten Jahren hat sich dieser Forschungsbereich verstärkt auf low-resource Szenarien und damit auch auf die maschinelle Übersetzung von weniger verbreiteten Sprachen konzentriert. Das hat zur Entwicklung verschiedener Methoden geführt, die das Problem der begrenzten Datenverfügbarkeit umgehen oder die verfügbaren Daten effizienter nutzen. Mit der Veröffentlichung von ChatGPT und anderen Large Language Models (LLMs) ist zudem ein völlig neuer Forschungszweig der maschinellen Übersetzung entstanden. LLMs verfügen als Sprachmodelle über ein beeindruckendes Verständnis für natürliche Sprache und können komplexe Kontexte verarbeiten. Darüber hinaus können sie mit wenigen Trainingsbeispielen auf neue Problemstellungen angepasst werden. Diese Fähigkeiten könnten in Kombination mit den entwickelten Methoden nun auch für die Weiterentwicklung der maschinellen Übersetzung für ressourcenarme Sprachen genutzt werden und den Weg zu gut funktionierenden Systemen auch in solchen Sprachen ebnen. Es bleibt die Frage, wie dies am besten gelingen kann.
Die erfolgreiche Entwicklung eines funktionsfähigen maschinellen Übersetzungssystems für Ladinisch würde neue Möglichkeiten für die Verwendung und Erforschung dieser Sprache schaffen. Auf der einen Seite könnte damit der Zugang zu dieser Sprache und Kultur erleichtert werden, auf der anderen Seite stünde ein wertvolles Werkzeug für das Erfassen ladinischer Texte zur Verfügung, das auch für die ladinische Gemeinschaft von Nutzen wäre. Somit wäre es auch ein wichtiger Beitrag zur Erhaltung dieser Sprache, zumindest in der digitalen Welt.
Weitere Informationen: www.uibk.ac.at/de/theoretische-informatik/forschung/projekte/#MTladin