Umapeko hizkuntza-detektoreaz

2013-05-31 10:30

Umapek sortzen dituen galdera eta kezka nagusien artean, zalantzarik gabe, hizkuntza-detekzioarena dago. Nola filtratzen ditugu euskarazko mezuak? Eta zein zehaztasun-maila lortzen dugu? Zuzen ote gabiltza? Ondorengo lerroetan orain arteko gure esperientzia kontatuko dizuegu. Eta hizkuntza-detektorea ondo dabilela azalduko ;-)

Aurrez ere aipatu izan dugun bezala, Umapeko robotak horrela funtzionatzen du (astero-astero prozesua errepikatuz):

  • Twitter arakatzen du, algoritmo baten bitartez euskaldun potentzialak detektatzeko, eta guztien artean hautagai posibleak aukeratzen ditu.
  • Hautagaien talde horri beste algoritmo bat aplikatuz, asteroko Euskal Tuiterlari aktiboen zerrenda osatzen du astelehenero (azken asteotan 4200 inguru izan ditugu zerrendan).

Hortik aurrera, hizkuntza-detektorearen lana hasten da. Rankingean ditugun tuiterlari horien txio guztiak hartu, eta zein hizkuntzatan dauden aztertzen hasten da, denbora-errealean (guk geuk txiokatu ahala, robota lanean dabil). Datuak hortxe daude: apirilean, esate baterako, 250.000 txio bota genituen euskaraz guztion artean (argitaratutako txio totalaren %49 inguru).

Prozesu guztia erabat automatikoa da; ez dago gizakion inolako esku-hartzerik. Eta betiko galdera da: zein neurritan dira sinesgarri robot horrek ematen dituen datuak? Ba, gure ustez, erabat. Hutsegite-maila txikia eta onargarria du gure robotak, salbuespen eta datu batzuk azaltzea komeni den arren.

 

Hizkuntza-detektorea

Umapen hainbat proba egin izan ditugu azken urteotan, eta sarean libre dauden hainbat hizkuntza detektore probatu ditugu. Behar genituen ezaugarriak hauek dira: azkarra (denbora errealean lan egiteko), testu laburrak ere ondo samar harrapatzen dituena, euskara eta beste hizkuntza batzuk detektatzen dituena, eta librea, egokitu ahal izateko.

Lehenengo Googleren APIaren kontra egin genituen proba batzuk (nahiz baldintza guztiak ez bete), eta geroztik beste hauek ere probatu ditugu TextCat, LID, Guess Language eta LangId (Python liburutegi bat). Azken hori da, orain arte neurtutakoaren arabera, emaitzarik onenak ematen dizkiguna (euskaraz eta Twitterreko jardunean, behintzat), eta horixe darabilgu.

Bestalde, kontuan izan behar da, detekzioa ez diegula aplikatzen, ez traolei, ez erabiltzaile izenei (@umapeu), ez estekei eta ez hizki larriz idatzitako hitzei (arrunta delako lau horietan hizkuntza ugari erabiltzea).

Fidagarritasunari dagokionez: mezu luze samar (4-5 hitzetik aurrera) eta estandarrekin oso-oso ondo funtzionatzen du. %95etik gorako zehaztasuna dauka. Erabiltzaile batzuen profila ikustea besterik ez duzu: ia euskara hutsean txiokatzen duen @argia-ren kasuan, esate baterako, gure robotak dio bere mezuen %97tik gora direla euskaraz (eta beste %1 gaztelaniaz eta ingelesez). Asko jota, beraz, gure hizkuntza-detektoreak %2ko errorea dauka kasu horretan.

Akats-maila, beraz, oso txikia da esan ditugun txio arruntenetan (4-5 hitzetik gorako mezuak, eta idazkera estandar/formal samarra badute). Euskara batuan idatzitakoekin ez ezik, euskalkian idatzitakoekin ere ondo dabil (beti ere, orain aipatutako parametro horiekin). Adibidez, beheko 3 mezuak euskalkian daude (3 euskalki ezberdinetan), eta Umapek ondo sailkatu zituen, euskarazkoen multzoan:

 

Hortaz, txio arruntenetan, esango genuke gure detektoreak lan polita egiten duela.

Detektore honek badu guretako garrantzitsua den beste puntu bat, gainera: ez du egiten positibo faltsurik. Alegia: hizkuntza bat aukeratzen duenean (dela euskara, gaztelania, frantsesa edo ingelesa), ziurtasunez egiten du. Hau da, baliteke euskarazko mezu batzuek ihes egitea, baina 'eu' izendatzen dituen (ia) guztiak euskara dira. Detektoreak euskarazkotzat jotako mezuen %99,9 euskarazko mezuak dira. Eta hori oso garrantzitsua da guretzat.

 

"Beste batzuk", akatsak eta salbuespenak

Dena urre kolorekoa, beraz? Ez. Jakin badakigu baditugula hutsune edo "zulo beltz" batzuk. Batez ere 3 hauek:

1 .- Mezu laburrak.
Talde honetan sartuko genituzke, esate baterako, hitz bakarreko mezu batzuk, traolak bakarrik dituztenak, emotikonoak bakarrik dituztenak... Mezu bati OK edo ;-) erantzun dion euskal hiztunak badaki bera "euskaraz" dabilena, baina gure detektoreak ezin du hori jakin. Hauek, bere horretan, euskara dira?

 

2.- Mezu elebidunak.
Euskaldunak elebidunak gara (edo eleanitzak, gehienetan), eta gure izaera eleanitz horrek eragin handia du gure txioetan. Uste duguna baino askoz gehiago nahasten ditugu 2-3 hizkuntza:

 

3.- Idazkera "informala" duten mezuak.
Hor sartzen dira, bai Twitterreko 140 karaktereak aprobetxatzeko egiten ditugun laburdurak ("berndu etrri zn") eta, batez ere, gazteen artean arruntak diren boookaaal luuuzeeeaaak eta hitz-pilatzeak. Adibidez:

 

Guzti horietan hiztunaren pertzepzioaren aurka ari gara borrokan: hiztunarentzat "euskaraz" egin du (eta esango genuke modu teoriko edo psikolinguistikoan hala dela), baina teknikoki ezinezkoa da mezu horien hizkuntza automatikoki detektatzea. Gure robot koitaduak ahaleginak eta bi egiten ditu mezu horiek ulertu eta sailkatzeko, eta batzuetan asmatzen du; baina sarri askotan ez daki zer hizkuntza den, edo beste hizkuntza batzuen taldean sailkatzen ditu (esate baterako, euskara eta katalana nahasten duten mezuak, sarri samar, aragoieraren multzora doaz; kuriosoa).

Asko dira ezaugarri horiek dituzten mezuak? Asko dira ihes egiten diguten mezuak? Larritzekoa da? Ez; kasurik gehienetan ez, behintzat. Zuk zeuk, irakurle, erraz konprobatu dezakezun moduan, erabiltzaile gehienen kasuan "Beste batzuk" taldeko txioen portzentaia 5% inguruan dabil (%3-7 bitartean), eta ez dira denak erroreak, gainera (katalanez, galizieraz, italieraz, alemanez... ere txiokatzen dugu).

Non dago arazoa, orduan? Batez ere, gazteengan. Zenbat eta gazteagoa izan erabiltzailea, eta zenbat eta gehiago erabili Twitter jardun informalerako, orduan eta handiagoa izango da sailkatu ezineko mezuen portzentaia (mezu hiper-laburrak, emotikono hutsak, idazkera erabat informala, hizkuntza-nahastea...). Kasu horietan, badira %20tik gorako errore-maila duten zenbait erabiltzaile.

 

Laburbilduz

Orain arte esandakoa nolabait laburtuz, orduan:

  • Hizkuntza-detektoreak ondo (edo oso ondo) funtzionatzen du erabiltzaile eta mezu gehienen kasuan.
  • Ez du hain ondo funtzionatzen, ostera, goian aipatutako zenbait kasutan (txio informalak, hiperlaburrak, elebidunak...)
  • Oro har, esan dezakegu %5-10 bitarteko hutsegite-maila duela. Kontuan izanik 140 karakteretik beherako mezuak direla (sarritan askoz laburragoak), hutsegite-maila erabat onargarria iruditzen zaigu horrelako tresna batentzat.
  • Hala ere, erabiltzaileen artean demaseko aldea dago: %3tik beherakoa tuiterlari "formalenen" kasuan; %20tik gorakoa gazte eta erabiltzaile "informal" batzuen kasuan.
  • Bigarren talde horrekin nola jokatu (detekzioan edo ondorengo azterketatan), horixe gure erronka berria. Izan ere, hori ere euskara(edo) baita! Ari gara horren inguruan ere zenbait alternatiba aztertzen.

Bitartean, datuak eta txioak hor daude, edonoren esku, eta guk pozik erantzungo diegu zuen galdera, kezka eta iruzkinei.

 

Iruzkindu

Twitter ikonoa

Erantzuna emateko, Twitter bidez erregistratu behar zara.