cultura
Euskera
Nace el mayor corpus del euskera, con 205 millones de palabras
Elaborado por el Instituto del Euskera de la UPV/EHU, está disponible online a través de ehu.es/etc.
-
Web de 'Egungo Testuen Corpusa'. Foto: EITB
La comunidad educativa vasca cuenta con el corpus de euskera más grande jamás elaborado con un total de 204,9 millones de palabras. Elaborado por el Instituto del Euskera de la UPV/EHU, está disponible online a través de ehu.es/etc. Egungo Testuen Corpusa (ETC) ha sido presentado en Bilbao en un acto en el que han intervenido el lehendakari Urkullu, el rector de la UPV/EHU Iñaki Goirizelaia, el director del Instituto del Euskera, Pello Salaburu y el investigador Ibon Sarasola, así como el director general de Lagun Aro, Pablo Mongelos.
ETC es el corpus más grande jamás elaborado en euskera que ha necesitado cuatro años para llevarlo a cabo. En formato online y abierto a cualquiera, cuenta con 204,9 millones de palabras en vasco y ofrece información de cada una de ellas, donde la posibilidad de distinguir entre lema y todas sus variantes. También se pueden hacer consultas sobre todos los ejemplos de cada variante, comparar entre varios términos el uso que se les a o consultar conjuntos de palabras. Además permite observar la evolución del uso de un termino mostrando año a año si se va utilizando más o menos, lo que permite abrir vías para analizar los motivos de esa evolución.
Todos los textos en prosa sacados de libros, prensa y textos de la Wikipedia escogidos por su calidad pero del siglo XXI. "El euskera se ha estabilizado mucho a partir del 2000, pues ese año publicó Euskaltzaindia Hiztegi Batua' y eso ha tenido gran influencia", ha indicado Salaburu. ETC se complementa con otros corpus elaborados en la anterioridad por el Instituto del Euskera de la UPV/EHU, como son 'Ereduzko prosa Gaur' con 25 millones de palabras. Para elaborar 'Orotariko Euskal Hiztegia' de Euskaltzaindia utilizó un corpus de cinco millones de palabras.