El traductor de Google incorpora l’occità en una expansió revolucionària feta amb IA

  • Google ha incorporat 110 llengües i aspira a arribar a les mil · Una quarta part de les noves incorporacions són llengües africanes, és l'expansió més gran feta fins ara

VilaWeb
Alexandre Solano
28.06.2024 - 19:03
Actualització: 28.06.2024 - 21:59

Google Translate, el traductor de Google, ha fet una expansió sense precedents i ha passat de tenir 133 llengües a tenir-ne 243, és a dir, que gairebé ha duplicat el nombre de llengües que inclou el servei. Entre les novetats, hi ha l’occità, el bretó, el cantonès, el sicilià i el venecià. Podeu consultar ací tota la llista.

L’objectiu de Google és arribar als mil idiomes, i això es podria aconseguir mitjançant l’ús de la intel·ligència artificial (IA). El model PaLM 2 AI de Google ha ajudat a aprendre nous idiomes i és el mateix model que utilitza la IA que s’acaba de desenvolupar per a Gmail per a resumir i respondre correus. Aquesta IA és especialment competent en la captació de nous idiomes que es troben estretament relacionats amb uns altres, com poden ser l’awadhi i el marwari, similars a l’hindi, o els criolls francesos, propers al crioll de les Seychelles i al crioll mauricià. Una quarta part de les noves incorporacions provenen de l’Àfrica, la qual cosa representa l’expansió més gran de llengües africanes fins ara, com ara el fon, el kikongo, el luo, el ga, el swati, el venda i el wolof.

L’any 2022, Google ja va afegir vint-i-quatre noves llengües mitjançant la traducció automàtica Zero-Shot, un model d’aprenentatge automàtic que aprèn a traduir sense veure cap exemple. I aleshores es va anunciar la Iniciativa 1.000 idiomes, amb el compromís de construir models de IA que donin suport a les mil llengües més parlades del món. Les noves incorporacions representen més de 614 milions de parlants, és a dir, un 8% de la població mundial. Algunes, com el cantonès, són les principals llengües del món, amb més de cent milions de parlants, i algunes altres gairebé no tenen parlants nadius però proven de revitalitzar-la, com ara el gaèlic manx.

Sobre les variants dialectals, i com que moltes llengües no tenen forma estàndard, Google explica que l’enfocament ha estat prioritzar les varietats més utilitzades de cada llengua. Per exemple, en el cas del romaní, explica que el model utilitza principalment el Romaní Vlax, una varietat que s’utilitza habitualment en línia, però també hi barreja  el Vlax del nord i el romaní dels Balcans.

La presència de l’occità ha estat celebrat per personalitats i entitats en defensa de la llengua:

Us proposem un tracte just

Esperàveu topar, com fan tants diaris, amb un mur de pagament que no us deixés llegir aquest article? No és l’estil de VilaWeb.

La nostra missió és ajudar a crear una societat més informada i per això tota la nostra informació ha de ser accessible a tothom.

Això té una contrapartida, que és que necessitem que els lectors ens ajudeu fent-vos-en subscriptors.

Si us en feu, els vostres diners els transformarem en articles, dossiers, opinions, reportatges o entrevistes i aconseguirem que siguin a l’abast de tothom.

I tots hi sortirem guanyant.

per 6€ al mes

Si no pots, o no vols, fer-te'n subscriptor, ara també ens pots ajudar fent una donació única.

Si ets subscriptor de VilaWeb no hauries de veure ni aquest anunci ni cap. T’expliquem com fer-ho

Recomanem

Fer-me'n subscriptor