El govern activa l'Aina, un projecte per donar més presència al català en l'entorn digital

10.12.2020 - 15:04

Actualització: 10.12.2020 - 21:21

El govern ha presentat l”Aina‘, un projecte de creació de recursos digitals i lingüístics a quatre anys vista perquè el català estigui viu en el món digital, des de les aplicacions fins als assistents de veu, traductors automàtics o agents conversacionals. El primer recurs generat és un diccionari digital, que servirà per entrenar els algoritmes d’intel·ligència artificial, amb 1.770 milions de metadades associades a paraules. Però per a què les empreses puguin “incorporar de manera fàcil” el català als seus serveis encara s’han de generar els models de la llengua, de la parla i per a la traducció, entre altres. El projecte es desenvolupa amb el Barcelona Supercomputing Center i té un pressupost de 13,5 milions d’euros.

Aina és el projecte del Govern perquè el català “esdevingui una llengua competitiva al món digital i assegurar-ne així la seva supervivència futura”, segons l’ha presentat el Departament de Polítiques Digitals i Administració Pública, responsable de la iniciativa. El conseller Jordi Puigneró ha comparegut per donar els detalls d’un treball que, de fet, va arrencar fa un any i ha de culminar el 2024, amb un pressupost previst de 13,5 MEUR que l’executiu vol finançar amb els fons europeus NextGenerationEU.

Per ara s’hi ha invertit 2250.000 euros. El plantejament és que la ciutadania pugui “parlar i interactuar” amb el món digital en català, com ara ho fan en altres llengües, com el castellà o l’anglès. Els principals assistents de veu, agents conversacionals i traductors automàtics, no parlen avui en català, i el Govern vol “garantir la igualtat d’oportunitats” a mitjà termini. El conseller Puigneró ha considerat “molt probable” que Alexa (l’assistent de veu d’Amazon) parli català abans que hi hagi la possibilitat de parlar en català al Congrés o al Tribunal Suprem.

Amb la col·laboració del Barcelona Super Computing Center (BSC), el projecte generarà corpus i models informàtics de la llengua catalana perquè les empreses que creen aplicacions basades en intel·ligència artificial (els assistents de veu, traductors automàtics, agents conversacionals, etc., “puguin fer-ho fàcilment en català”, tal i com ho resumeix Marta Villegas, responsable del projecte Aina com a investigadora i colíder de la unitat de Mineria de Dades del BSC.

No es tracta doncs de crear un suport físic o digital que reemplaci assistents de veu, com Alexa o Siri, si no de dotar les empreses tecnològiques globals o locals que hi ha el darrere amb la “infraestructura bàsica” i les dades perquè les puguin aplicar als seus sistemes.

Tots els models que crearà el BSC estaran a disposició de totes aquelles empreses o entitats que les vulguin fer servir, ja que es publicaran en obert i amb llicències permissives. De moment, el que totes elles tenen a l’abast és un primer corpus textual del català, consistent en 1.770 milions de paraules, reunides en 95 milions de frases. Aquest corpus, el més gran que s’ha fet mai de la llengua catalana, s’ha obtingut a base de descarregar textos de diferents fonts digitals (planes web, arxius, etc), netejar-los i esborrar duplicitats.

“Òbviament s’haurà d’anar estenent. Ara només te dades textuals. L’haurem d’ampliar primer pel que fa a les variants dialectals i usos socials de la llengua (incloent-hi el que s’empra a les xarxes socials), i també especialment amb dades de veu i imatge”, detalla Villegas.

Amb tota aquesta informació, el següent pas serà entrenar xarxes neuronals multicapa perquè “aprenguin el català” i generin models de la llengua, models de la parla i models per a la traducció. Aquests models també són molt costosos de fer perquè necessiten gran capacitat de càlcul (el que s’està construint en base al primer corpus textual farà servir 9.000 hores de GPU), i seran les bases sobre les quals es podran desenvolupar aplicacions basades en intel·ligència artificial, com assistents de veu, predictors i correctors lingüístics, xatbots, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l’anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre d’altres.

Aina, un homenatge

El projecte ha estat batejat amb el nom d’Aina en homenatge a la filòloga menorquina Aina Moll, figura central de la promoció i la normalització del català i primera Directora General de Política Lingüística de la Generalitat de Catalunya del 1980 al 1988. Ella va ser l’artífex del llançament, el 1982, de la primera campanya institucional de sensibilització sobre l’ús de la llengua ‘El català, cosa de tots’, que, amb el popular personatge de la Norma al capdavant, tenia com a objectiu conscienciar la societat sobre la situació sociolingüística del català.

Consentiment de dades
Us informem que les dades de caràcter personal que ens proporcioneu seran tractades per Partal Maresma i Associats S.L. com a responsable del tractament. A Partal, Maresma i Associats, S.L. utilitzem la informació que ens faciliteu per enviar-vos els butlletins d'informació de VilaWeb i de les activitats que organitzi aquest diari, sobre la base del consentiment que ens proporcioneu marcant la casella anterior. No es preveuen cessions a tercers ni transferències a tercers països. Podreu exercir els vostres drets d'accés, rectificació i limitació i suprimir les dades a l'adreça electrònica dades@vilaweb.cat, com també el dret de presentar una reclamació davant una autoritat de control. Podeu consultar la informació addicional i detallada sobre protecció de dades a la nostra política de privadesa
We use Mailchimp as our marketing platform. By clicking below to subscribe, you acknowledge that your information will be transferred to Mailchimp for processing. Learn more about Mailchimp's privacy practices here.

Trump, aquest perillós ignorant

El govern activa l’Aina, un projecte per donar més presència al català en l’entorn digital

generarà els recursos digitals i lingüístics perquè la indústria tecnològica els incorpori a apps i serveis

Recomanem

'La tertúlia proscrita': 17-A, un atemptat amb més interrogants cada dia que passa

Tres problemes estructurals de Rodalia amagats sota la catifa

Han de saber que no som morts, hem de respondre: 5 d’abril a l’estació de Sants

Toñi Garcia: “Sóc ací per ells, lluitaré fins al final perquè sé que ells ho farien per mi”

Gautier Sabrià: “Tothom se centra en Le Pen i ningú no es fixa que Aliot se’n surt molt bé, de tot això”

Diccionari de conceptes per a entendre la sèrie ‘Adolescence’ (sense revelar cap secret de la trama)

Xavier Rius: “Sílvia Orriols es considera ungida i el seu entorn li té adoració”

Borja de Riquer: “La memòria dels catalans s’ha hagut de fer a la contra”

Milers de persones fan ressonar a Barcelona i València el clam per un habitatge digne

[FOTOGALERIA] El país clama per un habitatge digne

Jacob Stringer: “Les classes altes han decidit que les nostres cases són un bon lloc per a invertir-hi”

S’ha mort Josep Palàcios

“Independència és l’única via”: protesta de l’ANC a Sants contra el caos de Rodalia