Neuronsko strojno prevođenje za hrvatski kao ciljni jezik (NEUMATRAC)


Lokalizacija i prevođenje jedna su od najunosnijih industrija modernog doba. Jezične usluge općenito već dugi niz godina pokazuju trend snažnog rasta. Povećanjem broja korisnika Interneta i eksplozijom dostupnog sadržaja premašeni su ljudski prevoditeljski kapaciteti pa se sve više nade polaže u prevoditeljske tehnologije. Međujezične razlike i specifičnosti dodatno doprinose rastu broja istraživanja usmjerenih k razvoju sustava za strojno prevođenje. Iako su neuronske mreže prisutne kao komponenta u modelima za statističko strojno prevođenje već dulji niz godina, tek u novije vrijeme, s porastom računalne snage, pojavili su se neuronski modeli strojnog prevođenja. U posljednje dvije godine duboko učenje kao podskup metoda strojnog učenja pokazalo je veliki potencijal u području strojnog prevođenja. Kako bi se uočili najvažniji problemi i pronašao način za unaprjeđenja strojnog prevođenja, posebice s obzirom na specifičnosti pojedinog jezičnog para, od velikog je značaja detaljna analiza pogrešaka koja otkriva jake strane nekog sustava, ali i problematična područja.

U okviru predloženog istraživanja izradit će se sustav za neuronsko strojno prevođenje s engleskog na hrvatski, a u svrhu usporedbe i sustav za statističko strojno prevođenje te faktorska varijanta navedenog sustava. Zbog specifičnosti englesko-hrvatskog jezičnog para, poseban fokus stavit će se na prevođenje negacija, prijedloga, -ing oblika i homograma, te na padeže, konjugacije i pomoćne glagole, a u to svrhu kreirati će se prikladni skupovi za ispitivanje. Vrednovanje kvalitete prijevoda razvijenih sustava izvršit će se, osim pomoću najčešće korištenih automatskih metrika (BLEU, Meteor, hTER), također i pomoću detaljne analize pogrešaka u skladu s MQM okvirom. Rezultati analize pogrešaka usporedit će se s rezultatima automatske klasifikacije pogrešaka kako bi se dobio bolji uvid i kako bi se u budućim istraživanjima mogla izbjeći vremenski zahtjevna ljudska evaluacija. Temeljeno na rezultatima istraživanja, predložit će se i primijeniti tehnike predobradbe podataka i usporediti utjecaj na analizirane aspekte. 


Istraživački tim
Marija Brkić Bakarić mbrkic@uniri.hr
Maja Matetić majam@uniri.hr
Lucia Načinović Prskalo lnacinovic@uniri.hr
Anita Memišević amemisevic@ffri.hr
Ingrid Hrga ingrid.hrga@gmail.com
Petar Jurić petar_jur@yahoo.com
Sabina Šišović sabina.sisovic@gmail.com
Sanja Seljan sanja.seljan@ffzg.hr
Maja Popović maja.popovic@hu-berlin.de

doc. dr. sc. Marija Brkić Bakarić

Odjel za informatiku

e-pošta: mbrkic@uniri.hr
prostorija: O-408
telefon: 051/584-705

CROSBI


MEĐUNARODNA VIDLJIVOST:
CITATIH-INDEXI10-INDEX
Google Scholar 69 4 1
SCOPUS 25 3