DABILENA, Interneten dabilen euskara aztertzeko ataria
- Testu errealak hiztegiak balira bezala kontsultatzeko webgunea
Elhuyarrek Dabilena web-corpusen ataria sortu eta edonorentzat erabilgarri jarri du dabilena.elhuyar.eus helbidean. Atari horretan, azken urteetan Interneten euskaraz idatzi diren testu gehientsuenetan egin daitezke bilaketak, hau da, euskararen erabilera errealaren gaineko bilaketak egin daitezke.
Hiru atal nagusi ditu Dabilena webguneak: ‘Non erabili da?’, ‘Nola itzuli da?’ eta ‘Zer hitzekin konbinatzen da?’.
‘Non erabili da?’ atalean, bilatu nahi dugun hitza zer webgunetan eta zer testuingurutan agertu den ikusi ahal izango dugu.
‘Nola itzuli da?’ atalean, corpus elebiduna kontsultatu daiteke. Hala, bilaketak euskaraz nahiz gaztelaniaz egin daitezke, eta bietako adibideak erakutsiko dizkigu Dabilenak kasu guztietan. Kontsultatu dugun hitzaren itzulpenen zerrenda ikusiko dugu lehenik, eta hizkuntzetako adibideak azpian, testuingurua bistan dela.
‘Zer hitzekin konbinatzen da?’ atala erabil dezakegu euskarazko hitz jakin bat zer beste hitzekin batera erabiltzen den ikusteko. Adibidez, Dabilenan kontsultatu dezakegu aurrerapen izena zer beste hitzekin erabiltzen den gehien.
Konparazio-bilaketak ere egin daitezke, hots, bi hitzen erabileraren arteko konparazioa egin dezakegu Dabilena atarian. Hala kontsultatu dezakegu, adibidez, Interneten euskaraz bi hitz hauetako zein agertzen den gehien: boluntario ala bolondres.
Ezin aipatu gabe utzi atarian gehitu dugun tresna erabilgarri bat. Dabilena atariak, ‘Corpus gehiago’ atalaren bidez, Interneten eskura dauden hainbat corpusetako emaitzak aldi berean kontsultatzeko aukera ematen du.
Dabilena tresna ezin hobea da hizkuntzaren arloko profesionalentzat, hala nola itzultzaile, hizkuntzalari eta hizkuntza-irakasleentzat; baita haientzako hizkuntza-baliabideak sortzen eta hizkuntza-teknologiak garatzen dituztenentzat ere.
Testu-corpusak
Dabilena atariaren helburua da Interneten erabiltzen den euskara aztertzeko beharrezkoak diren testuak (web-corpusak) automatikoki biltzea eta, hizkuntza-teknologien arloko tresnen bidez prozesatu ondoren, kontsultagai jartzea.
Testu-corpusak ezinbesteko tresnak dira gaur egun hizkuntzarekin erlazionatutako hainbat arlo eta jardueratan; besteak beste, hiztegigintzan, itzulpengintzan, hizkuntzen irakaskuntzan, hizkuntzalaritzan eta hizkuntza-teknologien garapenean.
Bederatzi urte iragan dira Elhuyarrek euskarazko web-corpusak egiteari ekin zionetik, eta corpusak biltzeko eta ustiatzeko teknologia garatzen jarraitu du geroztik.
Gainera, euskarazko testuen bolumena nabarmen handitu da Interneten, eta testu-motak ere dibertsifikatuz joan dira. Horiek horrela, corpus handiagoak, funtzionalitate berriak eta kontsulta-sistema berritzaileak gehitu dira Dabilena atarian.
Laguntzaile eta babesleak
Azkenik, lan honetan bidelagun izan ditugun laguntzaileak aipatu nahi ditugu. Batetik, IXA taldeak corpusa prozesatzen egin duen lana nabarmendu nahi genuke, eta, bestetik, lan hau aurrera eramateko izan ditugun ditugun babesleak: Laboral Kutxa eta Gipuzkoako Foru Aldundia.