El govern activa l’Aina, un projecte per donar més presència al català en l’entorn digital

  • generarà els recursos digitals i lingüístics perquè la indústria tecnològica els incorpori a apps i serveis

VilaWeb

Redacció

10.12.2020 - 15:04
Actualització: 10.12.2020 - 21:21

El govern ha presentat l”Aina‘, un projecte de creació de recursos digitals i lingüístics a quatre anys vista perquè el català estigui viu en el món digital, des de les aplicacions fins als assistents de veu, traductors automàtics o agents conversacionals. El primer recurs generat és un diccionari digital, que servirà per entrenar els algoritmes d’intel·ligència artificial, amb 1.770 milions de metadades associades a paraules. Però per a què les empreses puguin “incorporar de manera fàcil” el català als seus serveis encara s’han de generar els models de la llengua, de la parla i per a la traducció, entre altres. El projecte es desenvolupa amb el Barcelona Supercomputing Center i té un pressupost de 13,5 milions d’euros.

Aina és el projecte del Govern perquè el català “esdevingui una llengua competitiva al món digital i assegurar-ne així la seva supervivència futura”, segons l’ha presentat el Departament de Polítiques Digitals i Administració Pública, responsable de la iniciativa. El conseller Jordi Puigneró ha comparegut per donar els detalls d’un treball que, de fet, va arrencar fa un any i ha de culminar el 2024, amb un pressupost previst de 13,5 MEUR que l’executiu vol finançar amb els fons europeus NextGenerationEU.

Per ara s’hi ha invertit 2250.000 euros. El plantejament és que la ciutadania pugui “parlar i interactuar” amb el món digital en català, com ara ho fan en altres llengües, com el castellà o l’anglès. Els principals assistents de veu, agents conversacionals i traductors automàtics, no parlen avui en català, i el Govern vol “garantir la igualtat d’oportunitats” a mitjà termini. El conseller Puigneró ha considerat “molt probable” que Alexa (l’assistent de veu d’Amazon) parli català abans que hi hagi la possibilitat de parlar en català al Congrés o al Tribunal Suprem.

Amb la col·laboració del Barcelona Super Computing Center (BSC), el projecte generarà corpus i models informàtics de la llengua catalana perquè les empreses que creen aplicacions basades en intel·ligència artificial (els assistents de veu, traductors automàtics, agents conversacionals, etc., “puguin fer-ho fàcilment en català”, tal i com ho resumeix Marta Villegas, responsable del projecte Aina com a investigadora i colíder de la unitat de Mineria de Dades del BSC.

No es tracta doncs de crear un suport físic o digital que reemplaci assistents de veu, com Alexa o Siri, si no de dotar les empreses tecnològiques globals o locals que hi ha el darrere amb la “infraestructura bàsica” i les dades perquè les puguin aplicar als seus sistemes.

Tots els models que crearà el BSC estaran a disposició de totes aquelles empreses o entitats que les vulguin fer servir, ja que es publicaran en obert i amb llicències permissives. De moment, el que totes elles tenen a l’abast és un primer corpus textual del català, consistent en 1.770 milions de paraules, reunides en 95 milions de frases. Aquest corpus, el més gran que s’ha fet mai de la llengua catalana, s’ha obtingut a base de descarregar textos de diferents fonts digitals (planes web, arxius, etc), netejar-los i esborrar duplicitats.

“Òbviament s’haurà d’anar estenent. Ara només te dades textuals. L’haurem d’ampliar primer pel que fa a les variants dialectals i usos socials de la llengua (incloent-hi el que s’empra a les xarxes socials), i també especialment amb dades de veu i imatge”, detalla Villegas.

Amb tota aquesta informació, el següent pas serà entrenar xarxes neuronals multicapa perquè “aprenguin el català” i generin models de la llengua, models de la parla i models per a la traducció. Aquests models també són molt costosos de fer perquè necessiten gran capacitat de càlcul (el que s’està construint en base al primer corpus textual farà servir 9.000 hores de GPU), i seran les bases sobre les quals es podran desenvolupar aplicacions basades en intel·ligència artificial, com assistents de veu, predictors i correctors lingüístics, xatbots, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l’anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre d’altres.

Aina, un homenatge

El projecte ha estat batejat amb el nom d’Aina en homenatge a la filòloga menorquina Aina Moll, figura central de la promoció i la normalització del català i primera Directora General de Política Lingüística de la Generalitat de Catalunya del 1980 al 1988. Ella va ser l’artífex del llançament, el 1982, de la primera campanya institucional de sensibilització sobre l’ús de la llengua ‘El català, cosa de tots’, que, amb el popular personatge de la Norma al capdavant, tenia com a objectiu conscienciar la societat sobre la situació sociolingüística del català.

Us proposem un tracte just

Esperàveu topar, com fan tants diaris, amb un mur de pagament que no us deixés llegir aquest article? No és l’estil de VilaWeb.

La nostra missió és ajudar a crear una societat més informada i per això tota la nostra informació ha de ser accessible a tothom.

Això té una contrapartida, que és que necessitem que els lectors ens ajudeu fent-vos-en subscriptors.

Si us en feu, els vostres diners els transformarem en articles, dossiers, opinions, reportatges o entrevistes i aconseguirem que siguin a l’abast de tothom.

I tots hi sortirem guanyant.

per 75 € l'any

Si no pots, o no vols, fer-te'n subscriptor, ara també ens pots ajudar fent una donació única.

Si ets subscriptor de VilaWeb no hauries de veure ni aquest anunci ni cap. T’expliquem com fer-ho

Recomanem

Fer-me'n subscriptor