Euskal Herriko Unibertsitateko (EHU) HiTZ Hizkuntza Teknologiako Zentroak Latxa euskararentzako hizkuntza ereduen handiena hobetu du, eta horrela, duela zenbait urte abiatutako jatorrizko ChatGPT bertsioa (orain GPT 3.5 gisa ezaguna) eta, baliabide digital urriko hizkuntza baten eredu ireki batentzat lehenengo aldiz, azken bertsioa (GPT-4) gainditu ditu hizkuntza gaitasunean.

Latxa euskararentzako hizkuntza ereduen familia bat da, eta lizentzia libreko testuen corpus handienarekin (aurrekoen bikoitza da) eta hizkuntza gaitasun, irakurmen, kultura orokor eta azterketa profesionalei buruzko zenbait proba bankurekin banatzen da, EHUko iturriek jakinarazi dutenez.

Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70.000 miloi parametro arteko ereduak biltzen ditu. Gaur egungo hizkuntza eredu handiek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingeleserako ChatGPT edo gaztelaniarako Geminik dituztenak.

Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua askoz baxuagoa da, eta horrek handitu egiten du baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa, tresna digitalei dagokionez behinik behin. Hori dela eta, EHUko HiTZ zentroak Latxa garatu du, muga horiek gainditzeko eta euskarazko ikerketa, berrikuntza eta produktuen garapena sustatzeko.

Latxaren bertsio berria euskarazko corpus publiko handienaren gainean entrenatu da, eta corpus hori ereduekin batera banatzen da. Corpus horrek hedatu egiten du aurretik dagoen eta gehienbat Interneteko eduki publikoarekin sortutako corpusak darabiltzan EusCrawl. Guztira lau milioi dokumentu baino gehiago eta 1.200 milioi hitz dira, aurretik zeuden corpusak baino bi aldiz handiagoa.

Ereduen kalitatea ebaluatzeko, hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba banku osatu dira. HiTZ zentroko zuzendari Eneko Agirrek adierazi duenez, "ingeleseko Llama ereduak probatu ditugu, bai eta GPT-3.5 Turbo (2022ko azaroan abiarazitako ChatGPTren baliokidea) eta GPT-4 Turbo (OpenAI duen eredu onena) ere, eta argi ikusten da Latxaren eredu onenak gainditu egiten dituela Llamak eta GPT-3.5 Turbo, proba kasu guztietan".

"Eredu onenak gainditu egiten du, halaber, GPT-4 Turbo hizkuntza gaitasunari dagozkionez, lehenengo aldiz baliabide digital urriko hizkuntzen eredu ireki batentzat, baina ez gainerako proba bankuetan. Azkenik, azpimarratu behar da Latxa tamainan handitzen ari den neurrian, emaitzak ere hobeak direla", azaldu du.