Diversitat lingüística en l’era de la intel·ligència artificial

Els sistemes d’intel·ligència artificial generativa han canviat el món tecnològic de dalt a baix, sí. Però cal que siguem crítics i que ens plantegem per a quines llengües funcionen i de quina manera

15.03.2024 - 21:40

Actualització: 15.03.2024 - 21:41

00:00

Ara tot just fa un any, ChatGPT canviava el panorama tecnològic de manera radical. Aquest model d’intel·ligència artificial generativa (IAG) és capaç, tal com el nom indica, de generar text, imatges o altres menes de dades, com ara blocs de codi en un llenguatge de programació, a partir de comandes o instruccions d’un usuari. El que produeix el model és de tanta qualitat que sovint es fa difícil de saber, d’entrada, que no és fet per una persona. A vegades, però, al·lucina i pot proporcionar, per exemple, enllaços a pàgines web que cita com a font d’informació però que a l’hora de la veritat no existeixen. Aquesta alta qualitat ha fet saltar totes alarmes: en un moment en què sovint ja costava de saber quina informació era certa i quina no ho era, aquests continguts només poden empitjorar la desinformació actual. Però com funcionen aquests models realment?

A grans trets, els sistemes d’IAG són models probabilístics. Això vol dir que per generar text fan servir les probabilitats que dues o més paraules apareguin juntes segons les observacions que han fet en els materials d’aprenentatge. Aquests materials no deixen de ser grans bases de dades de textos en una llengua, o corpus lingüístics com els que s’elaboren fent treball de camp. La diferència és la mida: un corpus de l’anglès per a IAG pot tenir milions de paraules i el podem elaborar amb relativa facilitat tot pentinant internet i arreplegant-ne tot allò que hi trobem, tot i que aquí hi entren qüestions d’ètica i autoria. Com més dades tinguem, més “aprendrà” el nostre model. És a dir, podrà establir més probabilitats i més acurades, i, per tant, generar texts més convincents. Així doncs, si ChatGPT i altres models poden generar materials en català és, en part, per la gran quantitat de dades que hi ha en línia (i la feina de molta gent), la qual cosa ens ha de fer recordar que canviar de llengua, també a internet, té conseqüències directes i molt tangibles en el futur de cada llengua.

Cal que ens preguntem, però, si això que funciona per a l’anglès i el català funciona (o funcionaria) per a altres llengües. Calcular la probabilitat que dues o més paraules apareguin juntes pot semblar un càlcul matemàtic i prou, i, per tant, generalitzable a qualsevol llengua. Però no ho és. Primer de tot, aquest càlcul assumeix que podem saber, d’entrada, què és una paraula. Per a l’anglès o el català, podem fer servir els espais en blanc per decidir-ho: una paraula és la seqüència de caràcters delimitada per un espai en blanc a cada banda. Però moltes llengües d’Àsia, per exemple, tenen sistemes d’escriptura en què no es fan servir els espais en blanc. En xinès mandarí una frase relativament senzilla com 他在大学 (“ell és a la universitat”) té quatre caràcters, però tres paraules: 他 (“ell”), 在 (“és”), 大学 (“universitat”). Així doncs, per calcular les probabilitats necessitem definir primer què és una paraula i com reconèixer-la computacionalment, una qüestió gens trivial en moltes llengües.

El segon motiu pel qual el mètode no és generalitzable d’entrada és perquè el nombre de paraules en una frase qualsevol va lligat a l’estructura d’una llengua. En català, moltes de les funcions gramaticals les marquen un nombre finit de paraules, com ara els articles o les preposicions. Per tant, si tenim una estructura com ara “els … de … són …” podem predir amb certa seguretat que després de l’article masculí hi trobarem un nom (per exemple “trens”), després d’una preposició també hi podem trobar un nom (com ara “Rodalies”) i després del “ser” podem trobar-hi un adjectiu (per exemple “lents”). Aquesta certesa l’elaborem d’acord amb frases que hem pogut haver vist com ara “els trens de Rodalies són lents”. Però hi ha moltes llengües en què aquestes funcions gramaticals no les fan paraules delimitades per espais en blanc, sinó prefixos o sufixos dins de les paraules de contingut: “trens-els”, “Rodalies-de”, o “lents-són”. Si ens fixem un altre cop en les llengües d’Àsia, en podem trobar que segueixen aquests patrons morfològics. En koriak, una llengua de l’extrem nord-oriental de Sibèria, una sola paraula, com ara təkopŋəloŋən, pot transmetre el que en català necessita pràcticament tota una oració: “Li vaig estar preguntant.” És, però, una paraula morfològicament molt complexa (t-ə-ko-pŋəlo-ŋ-ə-n) en què cada element fa una funció gramatical diferent: “jo”, “a ell”, “temps passat”, etc.

I no són només les paraules gramaticals les que apareixen prefixades o sufixades dins d’una altra paraula. També poden aparèixer-hi substantius, un fenomen lingüístic conegut com a incorporació nominal. De fet, no ens hauria de semblar gaire estany, perquè el català, marginalment i només amb les parts del cos, també ho permet. Així doncs, en català tenim paraules com capgirar o camatrencar, una singularitat entre les llengües d’Europa, però que no ho és gens fora del nostre continent. El koriak en fa ús extensiu. La lingüista Megumi Kurebito va documentar paraules com ara tələqlaŋkemetʕəlqəlqojanmatək, que en català podríem traduir com “vaig matar un ren com a material per a un abric d’hivern”. Al verb –nm– (“matar”) se li han afegit –ləqlaŋ– (“hivern”), –kemetʕ– (“roba”), –lqəl– (“material”) i –qoja– (“ren”). El cas del koriak ens ensenya, doncs, que calcular les probabilitats que dues paraules apareguin juntes no té gaire sentit si no tenim en compte l’estructura de la llengua en qüestió.

Els sistemes d’IAG han canviat el món tecnològic de dalt a baix, sí. Però cal que siguem crítics i que ens plantegem per a quines llengües funcionen i de quina manera. Sovint els avenços tecnològics se’ns plantegen com a neutrals i alingüístics. Al cap i a la fi, establir probabilitats és un càlcul matemàtic. El que sovint passa desapercebut és que assumeixen una sèrie de característiques que sí que són lingüístiques, encara que siguin coses tan banals com ara identificar què és una paraula per un algoritme. Al final la tecnologia acaba reflectint (i perpetuant) el biaix eurocèntric, i sobretot anglocèntric, que tenim sobre com creiem que són les llengües. Potser val la pena que ens plantegem, doncs, com processaríem el llenguatge computacionalment si Silicon Valley fos a l’altra riba del Pacífic i els qui hi treballen fossin parlants de koriak.

Albert Ventayol és membre del Grup de Lingüistes per la Diversitat (GLiDi).

Consentiment de dades
Us informem que les dades de caràcter personal que ens proporcioneu seran tractades per Partal Maresma i Associats S.L. com a responsable del tractament. A Partal, Maresma i Associats, S.L. utilitzem la informació que ens faciliteu per enviar-vos els butlletins d'informació de VilaWeb i de les activitats que organitzi aquest diari, sobre la base del consentiment que ens proporcioneu marcant la casella anterior. No es preveuen cessions a tercers ni transferències a tercers països. Podreu exercir els vostres drets d'accés, rectificació i limitació i suprimir les dades a l'adreça electrònica dades@vilaweb.cat, com també el dret de presentar una reclamació davant una autoritat de control. Podeu consultar la informació addicional i detallada sobre protecció de dades a la nostra política de privadesa
We use Mailchimp as our marketing platform. By clicking below to subscribe, you acknowledge that your information will be transferred to Mailchimp for processing. Learn more about Mailchimp's privacy practices here.

Per què ningú no vol reconèixer que és –si ho és– d’extrema dreta?

Recomanem

Sánchez esvalota l’OPA hostil del BBVA al Sabadell

Mar Reguant: “Aquesta apagada ha demostrat que la nuclear és inútil”

Josep Ballart: “No pot ser que un incident a Extremadura trenqui la interconnexió amb França”

Apagada: la responsabilitat tomba cap a Red Eléctrica i l’estat espanyol, i els canvis que s’han de fer a la xarxa elèctrica

“M’emprenye perquè no puc fer el que feia, no tinc vida ara”: el testimoni de Juan, que va perdre la cama per la gota freda

Albano-Dante Fachin: “Tenim un problema amb la DGAIA, el tercer sector i el poder polític que intenta d’amagar el cas”

El pastor que fa 47 anys que elabora un diccionari per a conservar el belsetà, una llengua en perill d’extinció

Que no ens prenguen el pèl amb aquesta apagada |Editorial Partal

L’Índia ataca el Pakistan i fa créixer la por a una guerra entre dues potències nuclears

Un gran Barça deixa la pell a Milà, però cau derrotat davant l’Inter

Illa blinda l’actuació del govern durant l’apagada però assumeix la “vulnerabilitat” del sistema

El TEDH tomba les demandes d’Òmnium i la Plataforma per la Llengua per a defensar la immersió

Vox traspassa tots els límits i acusa les víctimes de la gota freda de ser “veritables interessats”