Diversitat lingüística en l’era de la intel·ligència artificial

  • Els sistemes d’intel·ligència artificial generativa han canviat el món tecnològic de dalt a baix, sí. Però cal que siguem crítics i que ens plantegem per a quines llengües funcionen i de quina manera

Grup de Lingüistes per la Diversitat (GLiDi)
15.03.2024 - 21:40
Actualització: 15.03.2024 - 21:41
VilaWeb

Ara tot just fa un any, ChatGPT canviava el panorama tecnològic de manera radical. Aquest model d’intel·ligència artificial generativa (IAG) és capaç, tal com el nom indica, de generar text, imatges o altres menes de dades, com ara blocs de codi en un llenguatge de programació, a partir de comandes o instruccions d’un usuari. El que produeix el model és de tanta qualitat que sovint es fa difícil de saber, d’entrada, que no és fet per una persona. A vegades, però, al·lucina i pot proporcionar, per exemple, enllaços a pàgines web que cita com a font d’informació però que a l’hora de la veritat no existeixen. Aquesta alta qualitat ha fet saltar totes alarmes: en un moment en què sovint ja costava de saber quina informació era certa i quina no ho era, aquests continguts només poden empitjorar la desinformació actual. Però com funcionen aquests models realment?

A grans trets, els sistemes d’IAG són models probabilístics. Això vol dir que per generar text fan servir les probabilitats que dues o més paraules apareguin juntes segons les observacions que han fet en els materials d’aprenentatge. Aquests materials no deixen de ser grans bases de dades de textos en una llengua, o corpus lingüístics com els que s’elaboren fent treball de camp. La diferència és la mida: un corpus de l’anglès per a IAG pot tenir milions de paraules i el podem elaborar amb relativa facilitat tot pentinant internet i arreplegant-ne tot allò que hi trobem, tot i que aquí hi entren qüestions d’ètica i autoria. Com més dades tinguem, més “aprendrà” el nostre model. És a dir, podrà establir més probabilitats i més acurades, i, per tant, generar texts més convincents. Així doncs, si ChatGPT i altres models poden generar materials en català és, en part, per la gran quantitat de dades que hi ha en línia (i la feina de molta gent), la qual cosa ens ha de fer recordar que canviar de llengua, també a internet, té conseqüències directes i molt tangibles en el futur de cada llengua.

Cal que ens preguntem, però, si això que funciona per a l’anglès i el català funciona (o funcionaria) per a altres llengües. Calcular la probabilitat que dues o més paraules apareguin juntes pot semblar un càlcul matemàtic i prou, i, per tant, generalitzable a qualsevol llengua. Però no ho és. Primer de tot, aquest càlcul assumeix que podem saber, d’entrada, què és una paraula. Per a l’anglès o el català, podem fer servir els espais en blanc per decidir-ho: una paraula és la seqüència de caràcters delimitada per un espai en blanc a cada banda. Però moltes llengües d’Àsia, per exemple, tenen sistemes d’escriptura en què no es fan servir els espais en blanc. En xinès mandarí una frase relativament senzilla com 他在大学 (“ell és a la universitat”) té quatre caràcters, però tres paraules: 他 (“ell”), 在 (“és”), 大学 (“universitat”). Així doncs, per calcular les probabilitats necessitem definir primer què és una paraula i com reconèixer-la computacionalment, una qüestió gens trivial en moltes llengües.

El segon motiu pel qual el mètode no és generalitzable d’entrada és perquè el nombre de paraules en una frase qualsevol va lligat a l’estructura d’una llengua. En català, moltes de les funcions gramaticals les marquen un nombre finit de paraules, com ara els articles o les preposicions. Per tant, si tenim una estructura com ara “els … de … són …” podem predir amb certa seguretat que després de l’article masculí hi trobarem un nom (per exemple “trens”), després d’una preposició també hi podem trobar un nom (com ara “Rodalies”) i després del “ser” podem trobar-hi un adjectiu (per exemple “lents”). Aquesta certesa l’elaborem d’acord amb frases que hem pogut haver vist com ara “els trens de Rodalies són lents”. Però hi ha moltes llengües en què aquestes funcions gramaticals no les fan paraules delimitades per espais en blanc, sinó prefixos o sufixos dins de les paraules de contingut: “trens-els”, “Rodalies-de”, o “lents-són”. Si ens fixem un altre cop en les llengües d’Àsia, en podem trobar que segueixen aquests patrons morfològics. En koriak, una llengua de l’extrem nord-oriental de Sibèria, una sola paraula, com ara təkopŋəloŋən, pot transmetre el que en català necessita pràcticament tota una oració: “Li vaig estar preguntant.” És, però, una paraula morfològicament molt complexa (t-ə-ko-pŋəlo-ŋ-ə-n) en què cada element fa una funció gramatical diferent: “jo”, “a ell”, “temps passat”, etc.

I no són només les paraules gramaticals les que apareixen prefixades o sufixades dins d’una altra paraula. També poden aparèixer-hi substantius, un fenomen lingüístic conegut com a incorporació nominal. De fet, no ens hauria de semblar gaire estany, perquè el català, marginalment i només amb les parts del cos, també ho permet. Així doncs, en català tenim paraules com capgirar o camatrencar, una singularitat entre les llengües d’Europa, però que no ho és gens fora del nostre continent. El koriak en fa ús extensiu. La lingüista Megumi Kurebito va documentar paraules com ara tələqlaŋkemetʕəlqəlqojanmatək, que en català podríem traduir com “vaig matar un ren com a material per a un abric d’hivern”. Al verb –nm– (“matar”) se li han afegit –ləqlaŋ– (“hivern”), –kemetʕ– (“roba”), –lqəl– (“material”) i –qoja– (“ren”). El cas del koriak ens ensenya, doncs, que calcular les probabilitats que dues paraules apareguin juntes no té gaire sentit si no tenim en compte l’estructura de la llengua en qüestió.

Els sistemes d’IAG han canviat el món tecnològic de dalt a baix, sí. Però cal que siguem crítics i que ens plantegem per a quines llengües funcionen i de quina manera. Sovint els avenços tecnològics se’ns plantegen com a neutrals i alingüístics. Al cap i a la fi, establir probabilitats és un càlcul matemàtic. El que sovint passa desapercebut és que assumeixen una sèrie de característiques que sí que són lingüístiques, encara que siguin coses tan banals com ara identificar què és una paraula per un algoritme. Al final la tecnologia acaba reflectint (i perpetuant) el biaix eurocèntric, i sobretot anglocèntric, que tenim sobre com creiem que són les llengües. Potser val la pena que ens plantegem, doncs, com processaríem el llenguatge computacionalment si Silicon Valley fos a l’altra riba del Pacífic i els qui hi treballen fossin parlants de koriak.

Albert Ventayol és membre del Grup de Lingüistes per la Diversitat (GLiDi).

Us proposem un tracte just

Esperàveu topar, com fan tants diaris, amb un mur de pagament que no us deixés llegir aquest article? No és l’estil de VilaWeb.

La nostra missió és ajudar a crear una societat més informada i per això tota la nostra informació ha de ser accessible a tothom.

Això té una contrapartida, que és que necessitem que els lectors ens ajudeu fent-vos-en subscriptors.

Si us en feu, els vostres diners els transformarem en articles, dossiers, opinions, reportatges o entrevistes i aconseguirem que siguin a l’abast de tothom.

I tots hi sortirem guanyant.

per 75 € l'any

Si no pots, o no vols, fer-te'n subscriptor, ara també ens pots ajudar fent una donació única.

Si ets subscriptor de VilaWeb no hauries de veure ni aquest anunci ni cap. T’expliquem com fer-ho

Recomanem

Fer-me'n subscriptor