Oraingoan ere hizkuntza baliabideak sailkatzeko beste modu bat ikusiko dugu. Izan ere, modu desberdinak daude, aurretik ikusi dugun bezala. Jarraian ELRAren (Hizkuntza Baliabideen Erakunde Europarra) sailkapenean oinarrutuko gara.
Hizkuntza baliabideak lau multzo nagusitan banatzen dituzte:
1. Hizketa bidezko hizkuntza baliabideak
- a. Telefono-grabaketak. Atal honetan biltzen diren
datu-baseak telefono edo mikrofono bidez egindako hizketa-grabaketekin
osatu dira. Egoera desberdinetan grabatutako hizketa baliabideak daude
Europako zein beste herrialde batzuetako hainbat hizkuntzatan, esate
baterako, SpeechDat proiektuaren markoan sortutako datu-baseak.
- b. Mikrofono-grabaketak. Sail honetan jasotako datu-baseak
mikrofono bidez egindako grabaketekin osatu dira, adibidez, BABEL
proiektuaren datu-basearen markoan sortutako datu-baseak.
- c. Igorritako baliabideak. Atal honetako datu-baseak irrati,
telebista edota Interneteko hots-grabaketek osatzen dituzte, hala nola,
Italian duten emititutako albisteen corpusa (Italian Broadcast News
Corpus).
- d. Hizketarekin erlazionatutako baliabideak. Sail honetan ahozkatzeko zein fonetika lexikoiak aurki ditzakegu, besteak beste, BDLEX, PHONOLEX eta MHATLEX datu-baseak. [Euskaraz, adibidez: fonatari.org]
2. Idatzitako hizkuntza baliabideak
- a. Corpusak. Elebakarrak edo eleanitzak izan daitezke, eta
anotazioak izan ditzakete. Atal honetan topa ditzakegun baliabideetako
batzuk dira, esate baterako, MULTEXT proiektuaren markoan garatutako
corpusa, frantseseko berba zientifikoen corpusa, arabiarrez
argitaratutako egunkarietako corpusa, etab.
- b. Lexikoi elebakarrak. Sail honetan hiztegi mota
desberdinak daude, adibidez, frantseseko aditzen hiztegia, berba
japoniarrak biltzen dituen hiztegia...
- c. Lexikoi eleanitzak. Hiztegi edota lexikoi elebi zein eleanitzak daude atal honetan, hala nola, EuroWordNet datu-baseak.
3. Hizkuntza baliabide terminologikoak
Hemen datu-base terminologiko elebakar, elebidun eta eleanitzak dira baliogarriak. Eguneroko hizkuntzatik urrun dauden berba espezializatuak dituzten eremuak biltzen dituzte, esate baterako, automobilen ingurukoak, hizkuntzalaritza, finantzak, etab. hainbat hizkuntzatan. [Euskaraz UZEI dugu]
4. Multimedia hizkuntza baliabideak
Hemengo baliabideak modu desberdinak erabiliz osatu dira, hizketarena barne. Adibide bat M2VTS proiektuaren markoan osatutako datu-basea da.
Iturria: Catalogue of Language Resources
Idatzi artikulu bat