"Urteak daramatzagu corpusgintzan lanean. Corpus elebakarrak, elebidunak nahiz eleaniztunak prestatu ditugu; besteak beste, hiztegiak elikatzeko ezinbesteko tresna bihurtu dira corpusak.
Corpusak osatzeko teknologia propioa erabiltzen dugu, zeina hizkuntza-teknologietan egindako gure ikerketen emaitza baita."
Hona hemen corpus nagusiak:
- Elhuyar web-corpus elebakarra (eu) eta elebiduna (es-eu). Corpusak Internetetik automatikoki eratuak dira, gure taldean garatutako tresnak erabiliz. Une honetan, 2 corpus ditugu, atariaren atal banatan kontsulta daitezkeenak.euskarazko web-corpusak 305.329.987 testu-hitz ditu, eta euskara-gaztelania web-corpusak, esaldi mailan parekatuak, 30.984.745 testu-hitz ditu.
- Lexikoaren Behatokia corpus elebakarra (eu). Euskaltzaindiaren proiektua; UZEI eta Ixa taldearekin batera, lankidetzan egina. 2020. urtearen bukaeran 77.958.327 testu-hitz zeuzkan corpusak eta urtean-urtean handituz joango da.
- EHUskaratuak corpus paraleloa (en-es/eu) (EHUrentzat). 18.048.431 hitzez osatutako corpus eleaniztuna.
- ZTC-Zientzia eta Teknologiaren Corpusa (Elhuyar-Ixa taldea): 8,5 milioi hitzez osatutako corpus etiketatua.
- Consumer corpus paralelo eleaniztuna (Eroski Fundazioarentzat).
