Laboratorio Linguistica Computazionale

Ricerca

STILVEN

STILVEN è un traduttore automatico dall'inglese al dialetto veneto e viceversa, sviluppato dal laboratorio di linguistaca computazionale dell'Università Ca' Foscari di Venezia e finanziato dalla Regione Veneto. Il progetto è stato realizzato in due anni di ricerca ed è accessibile al seguente link.

Primo anno di ricerca
- creazione di lessici di multiwords inglese-italiano e viceversa estratti da materiali
disponibili online e messi a disposizione dal sottoscritto. Questi materiali dovranno poi
essere tradotti in veneto;
- creazione di un lessico di base veneto-italiano (circa 1800 voci), con entrate
completamente specificate sulla base di un lessico preesistente per la lingua italiana, da utilizzare nel sottoprogetto XLE e in quello del traduttore per interlingua;
- raccolta di materiali testuali in lingua veneta dai siti più affidabili e loro elaborazione
per analisi quantitative e ortografiche – questi sono in forma grezza e necessitano un
lungo lavoro di normalizzazione della ortografia, e quindi non vengono inclusi nel CD;
- ricerca di tutti i siti web utili per monitorare l’uso di veneto scritto e per verificarne
l’affidabilità;
- inizio di attività del sottoprogetto XLE – presentiamo un breve resoconto;
- creazione delle infrastrutture di base per il prototipo di traduttore automatico fondato sui sistemi MOSES e GIZA .

Secondo anno di ricerca
Il problema fondamentale affrontato in questo secondo periodo di ricerca, è stato quello di risolvere lo scoglio della morfologia veneta e di produrre un algoritmo che applicasse regole e vincoli a una grammatica delle flessioni verbali, nominali e aggettivali regolari. Questo algoritmo aveva poi bisogno di un radiciario dei verbi regolari e dei nomi e aggettivi regolari, cosa questa resa possibile dai dizionari messi a disposizione da Pizzati. Su questi dizionari è stato dapprima applicato un algoritmo di derivazione automatico e successivamente il risultato è stato verificato manualmente. Altro problema affrontato è stato quello dell’inquadramento teorico della sintassi del veneto dal punto di vista computazionale. Questo lavoro è stato reso necessario per la presentazione del progetto in sede internazionale, dove era indispensabile confrontare il veneto con le altre lingue maggiori e minori. In particolare, dal punto di vista strettamente funzionale al discorso del traduttore automatico, la presenza di 5/7 varianti ortografiche/morfologiche/sintattiche e lessicali rende il Veneto molto interessante nel contesto della traduzione automatica. Contemporaneamente è iniziata una verifica manuale del livello di ambiguità della lingua veneta ai fini della sua analisi automatica per mezzo di strumenti di tipo linguistico computazionale. Mi sto riferendo ai tagger, che servono per annotare con etichette grammaticali le parole di una frase o un testo; ai parser, che sulla base della etichettatura prodotta automaticamente da un tagger, possono costruire una analisi. sintattica e logica a livello di frase. Entrambi questi strumenti sono essenziali per migliorare il funzionamento del traduttore automatico in quanto permetterebbero di ridurre l’ambiguità e quindi allineando testi inglese ugualmente taggati e analizzati sintatticamente sarebbe possibile pensare a una traduzione per interlingua o ibrida transfer/interlingua che possa indirizzare pezzi di frase sulla base del loro significato. Gli studi compiuti, che saranno travasati in risultati concreti nelle prossime attività, hanno già mostrato che l’ambiguità si concentra su un numero molto limitato di parole e che quindi sarà possibile creare un tagger e un parser del veneto molto puntuale. Un esempio per tutti è costituito da “i” che può essere interpretato, i = art i = clit sia come articolo che come pronome clitico. Un altro caso tipico è me = poss me = clit “me” un aggettivo possessivo ma anche un clitico. La lista include una trentina di forme rispetto alle quali sarà indispensabile intervenire anche con riferimenti ortografici certi per gli utenti: ad esempio nel caso di ‘l = clit l’ = art “l” che può svolgere due funzioni, una di articolo e l’altra di clitico. Ma nel primo caso si tratta di una contrazione, come in “no’l vol far silensio”; invece nel secondo caso di tratta di una forma di elisione simile all’italiano. Non ci sono “l” solitarie e quindi l’utente del traduttore dovrà imparare a distinguere. Vedremo come risolvere quindi il problema dell’interfaccia, visto che il sistema non si presta ad essere utilizzato a utenti completamente naive, o non disponibili a una breve fase di “addestramento” con la lingua veneta.

Risultati (in nuce)
1. creazione di un formario di veneto comprendente tutte le forme estratte dalle radici
dei verbi regolari e dalla gran parte di nomi e aggettivi;
2. creazione di un lessico di traduzione con lemmi specificati dal punto di vista
morfosintattico per un totale di 40mila entrate;
3. l’attività di una ricercatrice esperta in traduzione dall’inglese al veneto è stata
dedicata alla predisposizione di un testo parallelo estratto dalla storia breve intitolata
“The Little Prince” (El Principe Picinin);
4. abbiamo dedicato l’attività di più ricercatori alla creazione del prototipo di traduttore
automatico fondato sui sistemi MOSES e GIZA e alla sua messa a disposizione su sito
web.
- Presentiamo il Language Model ottenuto sulla base di 120mila tokens di testi allineati.
- Le prime traduzioni ottenute automaticamente
5. infine, abbiamo dedicato molto tempo a pubblicizzare il lavoro compiuto,
presentando una relazione a conferenze internazionali e interagendo in questo modo con ricercatori che operano nello stesso campo, magari sulla base di lingue come l’arabo che si presentano dal punto di vista scientifico in maniera alquanto simile al veneto.