Učenje temeljeno na pogreškama i unaprjeđenje strojnog prevođenja za hrvatski jezik


Potrebe za prevođenjem rastu svakodnevno. Zbog pomanjkanja dostupnih ljudskih prevoditelja ili zbog prekratkih rokova za dovršavanje prijevoda, sve češće se pribjegava korištenju strojnog prevođenja tekstova koje prevoditelji potom uređuju za objavu. Iz navedenih razloga, kao i zbog jezične raznolikosti, broj istraživanja usmjerenih k razvoju sustava za strojno prevođenje u posljednjim godinama raste eksponencijalno. Primjerice, samo u Europskoj Uniji koja ima 24 službena jezika, potrebno je pokriti 552 prijevodna para. U svrhu detekcije najvažnijih problema i unaprjeđenja strojnog prevođenja, za svaki pojedini od navedenih jezičnih parova potrebno je izvršiti detaljnu analizu pogrešaka. Analiza pogrešaka odnosi se na identifikaciju i klasifikaciju pojedinih pogrešaka u strojno prevedenom tekstu, tj. to je način kvalitativnog vrednovanja sustava za strojno prevođenje. Takva analiza otkriva jake strane nekog sustava, ali i problematična područja. Sustavna analiza pogrešaka za strojne prijevode koji obuhvaćaju hrvatski kao izvorni ili ciljni jezik dosad nije napravljena. Istraživanje će, uz provjeru sveobuhvatnosti i odabir ili proširenje najprikladnije taksonomije, obuhvatiti nekoliko aspekata analize pogrešaka, poput koje pogreške sustava za strojno prevođenje imaju najveći utjecaj na percepciju prijevoda i kakav utjecaj razne vrste pogrešaka imaju na uređivanje strojno prevedenih tekstova, a sve s fokusom na hrvatski jezik. Pritom će se izraditi smjernice za uređivanje strojno prevedenih tekstova i smjernice za analizu pogrešaka u takvim sustavima kako bi analiza bila što objektivnija. Povrh svega, istražit će se utjecaj prozodije, MSD oznaka i integracije dvojezičnog rječnika u sustav za statističko strojno prevođenje za hrvatski jezik u svrhu unaprjeđenja postojećih sustava te će se nove inačice sustava usporediti s ostalim besplatno dostupnim sustavima za englesko-hrvatski i hrvatsko-engleski jezični par.

 


Istraživački tim
Marija Brkić Bakarić mbrkic@uniri.hr
Lucia Načinović Prskalo lnacinovic@inf.uniri.hr
Sabina Šišović ssisovic@inf.uniri.hr
Anita Memišević amemisevic@ffri.hr
Maja Popović maja.popovic@hu-berlin.de
Sanja Seljan sanja.seljan@ffzg.hr
Maja Manojlović mmanojlovic@ffri.hr
Nikola Babić nbabic@ffri.hr

doc. dr. sc. Marija Brkić Bakarić

Odjel za informatiku

e-pošta: mbrkic@uniri.hr
prostorija: O-408
telefon: 051/584-705

CROSBI
ORCID ID (https://orcid.org/0000-0003-4079-4012)


MEĐUNARODNA VIDLJIVOST:
CITATIH-INDEXI10-INDEX
Google Scholar 88 4 2
ResearcherID (O-9922-2016)
SCOPUS 37 4