Levamos moitos anos traballando na creación de corpus. Creamos corpus monolingües, bilingües e multilingües; devanditos corpus convertéronse nunha ferramenta imprescindible paira completar e actualizar continuamente os dicionarios.
Paira crear os corpus utilizamos una tecnoloxía propia, froito dos traballos de investigación que levamos a cabo no ámbito das tecnoloxías da lingua.
Velaquí una mostra dos nosos corpus principais:
- Corpus monolingüe (eu) Lexikoaren Behatokia. É un proxecto de Euskaltzaindia, desenvolvido en colaboración con UZEI e o grupo de investigación IXA da UPV/EHU. A finais de 2020 o corpus contaba con 77.958.327 formas textuais e seguirá crecendo cada ano.
- Corpus paralelo (en-é/eu) EHUskaratuak, creado paira a UPV/EHU. Trátase dun corpus multilingüe composto por 18.048.431 formas textuais.
- Corpus de ciencia e tecnoloxía (ZTC), creado por Elhuyar, en colaboración co grupo de investigación IXA da UPV/EHU: Trátase dun corpus etiquetaxe composta por 8,5 millóns de formas textuais.
- Corpus paralelo multilingüe Consumer, realizado paira a Fundación Eroski:
