Llevamos muchos años trabajando en la creación de corpus. Hemos creado corpus monolingües, bilingües y multilingües; dichos corpus se han convertido en una herramienta imprescindible para completar y actualizar continuamente los diccionarios.
Para crear los corpus utilizamos una tecnología propia, fruto de los trabajos de investigación que llevamos a cabo en el ámbito de las tecnologías de la lengua.
He aquí una muestra de nuestros corpus principales:
- Corpus monolingüe (eu) Lexikoaren Behatokia. Es un proyecto de Euskaltzaindia, desarrollado en colaboración con UZEI y el grupo de investigación IXA de la UPV/EHU. A finales de 2020 el corpus contaba con 77.958.327 formas textuales y seguirá creciendo cada año.
- Corpus paralelo (en-es/eu) EHUskaratuak, creado para la UPV/EHU. Se trata de un corpus multilingüe compuesto por 18.048.431 formas textuales.
- Corpus de ciencia y tecnología (ZTC), creado por Elhuyar, en colaboración con el grupo de investigación IXA de la UPV/EHU: Se trata de un corpus etiquetado compuesto por 8,5 millones de formas textuales.
- Corpus paralelo multilingüe Consumer, realizado para la Fundación Eroski:
