La revolució del nou traductor neuronal anglès-català

  • Softcatalà estrena aquesta eina, que fa traduccions molt més acurades, permet de processar texts llargs i és gratuïta i disponible per a tothom

VilaWeb

Redacció

14.08.2020 - 21:50
Actualització: 15.08.2020 - 09:27

Aquesta setmana, Softcatalà ha estrenat un traductor automàtic anglès-català i català-anglès basat en tecnologia de xarxes neuronals. Aquest nou sistema, d’accés gratuït i amb una eficàcia similar a la de Google, és un pas endavant en la traducció en català, atès que les xarxes neuronals intenten d’imitar el procés de pensament del cervell i, per tant, fan traduccions més acurades i una mica més pròximes a la traducció d’un ésser humà.

Jordi Mas, enginyer informàtic i un dels membres fundadors de l’associació, explica que aquesta tecnologia s’aconsegueix a força d’entrenar la màquina amb exemples i dades existents, a partir d’una gran quantitat de texts que han de ser tan correctes com sigui possible. ‘Hem donat a la màquina 4,5 milions d’exemples de frases traduïdes per humans del català a l’anglès. Són tipus de texts variats: del Parlament Europeu, de Viquipèdia…’, diu. ‘La màquina agafa aquest corpus, mira d’entendre les relacions entre les diferents paraules i crea una xarxa neuronal, una mena de graf matemàtic. D’aquesta manera, cada vegada que detecta una traducció que no ha vist abans, mira com traduir-la.’

La complexitat de les xarxes neuronals significa un gran plus de qualitat en comparació amb els altres dos sistemes fets servir fins ara per la majoria de traductors automàtics, el de regles i l’estadístic. El sistema de regles, a partir de la traducció automàtica d’estructures gramaticals, és el que es fa servir normalment per traduir a llengües properes i, de fet, Softcatalà l’utilitza per traduir del català al castellà i viceversa. El problema d’aquest sistema rau en les llengües llunyanes, amb estructures molt diferents. ‘La següent generació de sistemes són els sistemes estadístics, que bàsicament requerien molt de corpus alineat i molt de procés. Això va ser un avenç, però els neuronals tenen un rendiment molt superior’, explica Mas. ‘Tenen mecanismes de memòria curta i mecanismes d’atenció i això fa, per exemple, que sàpiguen col·locar bé un topònim o un nom propi que no reconeixen.’

De fet, aquests sistemes són tan acurats que fins i tot han començat a revolucionar el món de la traducció i a canviar les tasques dels traductors i a agilitzar-les. ‘Amb aquest sistema, la traducció la fa la màquina i l’humà fa una postedició. A vegades només cal editar comes i punts’, diu Mas.

En obert i amb més avantatges que el Google Translate

Traductors com el de Google ja fan servir aquesta tecnologia, però amb serveis de pagament. Softcatalà l’ofereix en obert i per a tothom i, segons unes quantes avaluacions, amb una qualitat similar o fins i tot una mica superior a la de Google. Segons que explica Mas, això passa perquè la màquina s’ha entrenat amb texts més acurats, de més qualitat.

Un altre avantatge que té respecte d’altres traductors és que permet de traduir texts llargs sense pagar de més o sense haver d’introduir els fragments per separat. En cas de texts molt llargs, la traducció es fa per correu electrònic: ‘Volem desenvolupar la possibilitat que la gent ens enviï fitxers per traduir si són llargs. Al cap d’uns minuts arriben per mail, perquè a la web no pots fer esperar l’usuari més de vint segons i a vegades la tecnologia de xarxes neuronals triga més a traduir.’

Que Softcatalà hagi impulsat aquesta eina és rellevant també des d’un punt de vista de cura de la llengua, perquè les traduccions en català estan menys ateses en plataformes que ofereixen moltes llengües i combinacions possibles. ‘Google fa una feina ingent, perquè entrena centenars de models amb moltes combinacions: català-japonès, alemany-japonès… Així és molt difícil mantenir una bona qualitat’, explica Mas. ‘Un problema que ha tingut amb les llengües minoritzades és la manca de disponibilitat de textos perquè la màquina aprengui. Hi ha pocs corpus disponibles que estiguin ben traduïts de l’anglès a l’èuscar, per exemple. És difícil tenir una bona qualitat alemany-malai! A més, si un dia Google decideix que el català s’ha acabat, s’ha acabat.’

Col·laboració dels usuaris

El nou traductor serà en fase de proves uns quants mesos. Durant aquest període, Softcatalà recollirà els comentaris dels usuaris per continuar millorant-lo. De moment, el nou traductor conviurà amb l’actual traductor anglès-català, basat en tecnologia Apertium. Mas explica que la idea és entrenar els models del traductor neuronal cada sis mesos, per tal que siguin cada vegada més acurats, perquè, tot i que en general el traductor funciona bé, en alguns casos pot fallar.

L’entitat posa a l’abast la tecnologia que utilitza, de manera lliure i oberta, perquè tothom la pugui instal·lar, estudiar o millorar. Per a preguntes i altres qüestions, permeten d’unir-se al grup públic de Telegram Softcatalà – Diccionaris, correctors i traductors.

Us proposem un tracte just

Esperàveu topar, com fan tants diaris, amb un mur de pagament que no us deixés llegir aquest article? No és l’estil de VilaWeb.

La nostra missió és ajudar a crear una societat més informada i per això tota la nostra informació ha de ser accessible a tothom.

Això té una contrapartida, que és que necessitem que els lectors ens ajudeu fent-vos-en subscriptors.

Si us en feu, els vostres diners els transformarem en articles, dossiers, opinions, reportatges o entrevistes i aconseguirem que siguin a l’abast de tothom.

I tots hi sortirem guanyant.

per 75 € l'any

Si no pots, o no vols, fer-te'n subscriptor, ara també ens pots ajudar fent una donació única.

Si ets subscriptor de VilaWeb no hauries de veure ni aquest anunci ni cap. T’expliquem com fer-ho

Recomanem

Fer-me'n subscriptor