Ja fa més de tres anys, la Generalitat de Catalunya va prendre una decisió cabdal per al futur de la llengua dins l’àmbit digital. Davant l’avenç de les tecnologies d’intel·ligència artificial en països com els Estats Units, per no quedar-se enrere i veure perillar encara més la salut del català, es va decidir posar en marxa el programa AINA, un projecte d’infraestructura que té la missió “d’aconseguir que puguem fer vida digital amb la nostra llengua”, segons explica Villegas, una de les ponents de les conferències ‘Intel·ligència Artificial i cultura’ dutes a terme aquest dissabte al Centre de Congressos de la capital. Mitjançant la introducció de dades massives per poder entrenar diferents models de veu, text i altres mitjans que puguin incloure el català entre les seves funcionalitats, les empreses poden aprofitar-se d’aquesta estructura per desenvolupar les seves pròpies aplicacions.
Dins aquest projecte s’han recollit infinitud de dades. Fins a 18 bilions de paraules han estat recollides gràcies a portals com CommonCrawl, que proporcionen lliurement els seus arxius, però també, especialment, gràcies a dades curades de proveïdors en català com per exemple l’ACN, Vilaweb, IB3 o el Parlament, que aporten un contingut de més qualitat. A més de l’operacionalització i el subministrament de dades del MareNostrum 5, el supercomputador barceloní que va entrar en funcionament el passat mes de maig, i que permet que “quan AINA no hi sigui, podrà garantir el subministrament de dades perquè flueixin a la perfecció, sense que tinguin un cost addicional”, afegeix Villegas durant la seva intervenció.
La feina feta per AINA ha permès que el català sigui, gràcies al voluntariat i a la participació ciutadana, el primer idioma a Common Voice, un projecte col·laboratiu iniciat per Mozilla per crear una base de dades lliure de veus en diferents idiomes usable per programari de reconeixement de la parla. En aquest cas, s’ha ampliat l’enregistrament en català de 1.800 a 5.145 hores i també es té presència en programes com 3cat, ParlamentParla o CortsParla. Tot això també ha permès desenvolupar models com l’anomenat Salamandra, que conté unes 7 bilions de paraules en català, requereix utilitzar fins a 128 nodes del Marenostrum per entrenar el seu corpus i unes 620.000 hores de GPU.
En ser un projecte no només de recerca, sinó de transferència cap a la indústria, ja hi ha alguns casos d’ús d’EINA en diferents portals. S’ha creat un cercador avançat d’informació del Portal Jurídic de Catalunya, un sistema d’identificació de parlants al Parlament per facilitar-ne la seva transcripció, la transcripció automàtica de les trucades del 112 -es vol fer bilingüe amb el castellà- o un ‘plugin’ d’integració al desenvolupament de videojocs. “Qualsevol novetat crea incertesa i neguit, ja que s’obren noves oportunitats. Algunes clarament positives, altres no ho són tant, però és una cosa a la qual ens hem d’acostumar, enfrontar-nos, i regular-la, ja que, per exemple, la Unió Europea ha fet una regulació amb el seu ús i hem de veure com s’aplica”, reflexiona Villegas.
Per la seva part, l’organitzadora de les conferències i presidenta de Cultura Activa, Maria Cucurull, ha remarcat la importància de conscienciar sobre aquest àmbit per fer front a la deshumanització que comporta l’avenç d’aquestes màquines, especialment en el món de la cultura: “Quan parlem de l’àmbit empresarial, totes les eines d’IA ens fan la vida molt més fàcil. Però quan entrem en el terreny cultural i del talent, ens preocupa una mica més perquè estem substituint una part del que és la humanització en tots els àmbits”, ha assegurat.
Comentaris