Itxi

Euskara

Euskaltzaindia

Euskararen Erreferentzia Corpusa aurkeztu du Euskaltzaindiak, azken 25 urteetako testu masa aukeratua

N. V. | EITB Media

Corpus "ireki eta kolektiboa" bildu du Akademiak, "analisi linguistikorako, ikasketa automatikorako eta hizkuntza-ikerketetan hipotesiak baliozkotzeko" erabil daitekeena.

  • Euskaltzaindiko eta testuak laga dituzten erakundeetako ordezkariak, aurkezpenean

    Euskaltzaindiko eta testuak laga dituzten erakundeetako ordezkariak, aurkezpenean

Euskaltzaindiak Euskararen Erreferentzia Corpusa (EEC) aurkeztu du gaur, Bilbon. Azken 25 urteotako testuak jaso ditu Akademiak lagin hautatu horretan, 68 erakunde pribatu eta publikoren eskutik, eta testu meta horrek "euskararen egunean eguneko erabileraren berri izateko eta hizkuntza teknologiek ekartzen dizkiguten erronkei aurre egiteko" balioko duela azaldu dute gaurko aurkezpenean.

Hizkuntza, literatura eta ikerketa helburuetarako erabili ahalko da EEC Euskararen Erreferentzia Corpusa, eta lehen bertsioak 123.124 dokumentu, testuetako 154,21 milioi hitz eta 129.817 lema bildu ditu, 2000. urtetik hasi eta 2023ra bitartean euskaraz idatzitako edo ekoitzitako testuetatik hartuak. Urtero eguneratuko da lana.

Egungo euskararen isla emango du corpusak: "Analisi linguistikorako, ikasketa automatikorako et hizkuntza-ikerketetan hipotesiak baliozkotzeko tresna funtsezkoa da, baina baita hizkuntza-, literatura- eta ikerketa-helburuetarako corpus estandar edo erreferente gisa erabil litekeena ere", azaldu du Euskaltzaindiak.

Euskararen Erreferentzia Corpusa osatzen duten testuak idatziak dira ia erabat (ahozkorako prestaturiko testu batzuk badaude: serieak, filmak, gidoiak…), horien % 48 liburuetatik hartuta daude, % 48 aldizkako argitalpenetatik eta % 4 sarerako berariaz sortutako materialetik. Testuon laurdenak fikziozkoak dira, eta gainerakoak, ez-fikziozkoak.