06.07.2022 - 12:27
|
Actualització: 06.07.2022 - 23:17
El projecte Aina disposa d’1.006.000 talls de veu registrats i 2.400 hores enregistrades i ha superat així els objectius marcats per aquest any fixats en 2.000 hores, segons que ha informat aquest dimecres el Departament de la Vice-presidència i de Polítiques Digitals i Territori. El govern va llençar la campanya ‘La nostra llengua és la teva veu’ al febrer d’aquest any amb la finalitat de recollir el màxim de veus possible i nodrir de contingut la primera versió de corpus de veu (conjunt de dades) del català per ensenyar les màquines a entendre i parlar el català. A més, també es va aconseguir que el català passés a ser la segona llengua del món amb més locutors a Common Voice, tan sols per darrere l’anglès.
Per construir el corpus de veus que necessità una màquina, es requereix disposar de milions de dades de veu que incloguin la riquesa i els matisos de la llengua oral amb tots els seus registres i variants dialectals.
Per això, la Generalitat convida la ciutadania de parla catalana de totes les edats, gèneres, condicions i procedències a enregistrar la seva veu a través de la pàgina web del projecte Aina, des d’on tothom pot llegir, enregistrar i validar un nombre il·limitat de frases agrupades de cinc en cinc a Common Voice. En aquesta plataforma, que ja funcionava abans de l’inici de la campanya, hi havia 1.000 hores de gravació a les quals s’hi han afegit 1.400 hores noves des del febrer.
En aquest sentit, la validació per part de la ciutadania de frases llegides i enregistrades per altres donants és tan important com l’enregistrament de veus, ja que han de passar un procés de certificació abans de poder ser utilitzades per al projecte, segons explica el Departament de la Vice-presidència i de Polítiques Digitals i Territori.
Per ara, el perfil de veu majoritari de la plataforma és d’homes d’entre quaranta anys i cinquanta-nou que parlen el català central. Els impulsors de la iniciativa demanen que als usuaris que es registrin per a una millor classificació de les dades perquè actualment hi ha un percentatge elevat de participants de qui no es pot identificar el gènere, edat i variant dialectal (38%).