2) Proiektuaren deskribapena
Proiektu honen bidez, Espainiar Estatuko hizkuntza ofizial nagusientzako kode irekiko itzulpengintza automatikoko sistema eratzea lortu da. Dagoeneko prototipo eragilea baduten hizkuntza bikoteak hurrengoak dira:
- - Gaztelania (es) – Katalana/Valentziera (ca)
- - Katalana/Valentziera – Gaztelania
- - Gaztelania – Galiziera (gl)
- - Galiziera – Gaztelania
- - Gaztelania – Euskara (eu)
C++ bitartez programatutako abiadura handiko itzulpen eragile bitan oinarritzen da sistema: bata, transferentzia sintaktiko partzialduna (Apertium izenekoa) antzekoak diren hizkuntza bikoteentzat (es-ca, es-gl) (Corbí et al. 2005), eta bestea, erabateko transferentzia sintaktikoduna (Matxin izenekoa) elkarrengandik urrun dauden hizkuntzentzat (es-eu) (Alegria et al. 2005).
Sistema osatzen duten hizkuntza guztientzako datu linguistiko elebakar eta eleanitzak XMLn biltzen dira, datuen interoperabilitatea eta hauek programaren emarira egokitzea errazten duen diseinu modularraren bidez (Armentano et al. 2005).
Itzulpengintza sistemaren egitura guztiz modularra da eta ia-ia bera hizkuntza bikote gehienentzat:
- 1. Desformateaketa: testu eta formatu marken arteko banaketa (HTML, RTF, etb.); formatua amaieran lehengoratzen da.
- 2. Azterketa morfologikoa: esamoldeak identifikatzea barne.
- 3. Homografoen arteko zalantzak argitzea.
- 4. Azterketa sintaktikoa: es-eu bikotearentzat baino ez eta FreeLing-en oinarrituz (Atserias et al. 2005, Atserias et al. 2006).
- 5. Egituren transferentzia: partziala edota azalekoa es-ca eta es-gl bikoteen kasuan; sakona edota erabatekoa es-eu bikotearen kasuan.
- 6. Transferentzia lexikoa: hitzen (lemen) itzulpena.
- 7. Sorrera sintaktikoa: es-eu kasuan baino ez.
- 8. Helburu den testuaren hitzen flexio-formen sorrera morfologikoa.
- 9. Sorreraren ostean: aldaketa ortografikoak, laburdurak, apostrofeak, etb.
- 10. Berritxuraketa: jatorrizko testuaren formatuaren lehengoratzea (HTML, RTF, etab.).
Opentrad-en garapenaren gaineko informazio guztia proiektuak duen web orrian kontsultatu daiteke (www.opentrad.org), non arestian aipatutako hizkuntza bikoteentzako itzulpengintza sistemaren funtzionamendua ikus daitekeen, testuen itzulpengintza automatikoaren bidez, baita dokumentuena ere (HTML, RTF eta TXT) edota web orrialdeena.
Sistemaren funtzionamendurako beharrezkoak diren datu linguistikoak eta itzulpengintza eragileak kode ireki bezala antolatzen dira SourceForge-n (sourceforge.net) bidez nahiz Creative Commons 2.5 lizentziaren bidez. es-ca, ca-es, es-gl eta gl-es bikoteei dagozkien moduluak apertium.sourceforge.net-en daude eskuragarri; eta es-eu bikotekoak matxin.sourceforge.net-en.
Edozein pertsonak, enpresak edo erakundek sistema hau erabili dezake erabilera espezifikoko eremuetara egokitu edo hobetzeko, bakoitzak bere baliabideak erabiliz edo proiektu honen parte-hartzaileekin elkarlanean.
Iturria: webs.uvigo.es
Idatzi artikulu bat