22.12.2024 - 21:41
A Jordi Mas, fundador de Softcatalà, associació que avui rep la Creu de Sant Jordi, no li agrada fer l’entrevista tot sol. Voldria que fos amb els seus companys fundadors, Miquel Piulats i Jordi Coll, però la logística no ens és planera i accepta. Es nota la profunda convicció col·lectiva de l’organització que porta a la sang. Tota l’estona té la paraula “nosaltres” al discurs. Softcatalà és una associació formada per voluntaris que a parer meu i de molts ha estat fonamental perquè el català no acabés despenjat de les noves tecnologies, per la feina que han fet, l’imprescindible corrector, el magnífic diccionari de sinònims, un traductor eficient i ara el desafiament del diccionari anglès-català, tot això com a exemples d’una feinada immensa. Però també per la pressió que han significat cap al món privat en fer visible la comunitat d’usuaris en català.
Si van començar tres persones, ara són gairebé trenta que hi col·laboren tot l’any i poden arribar a ser més de cent en moments de pic de feina. Tots voluntaris. La data oficial de començament va ser el 2 d’octubre de 1998, però uns quants mesos abans ja bullien d’activitat. Em recorda com VilaWeb va ser un espai de trobada i connexió per a ells. Eren bons temps, tots sumàvem d’una manera fàcil i planera. Softcatalà manté aquest esperit. Bo i aprofitant la seva condició d’informàtic, ara especialitzat en IA, li demanem com resoldre aquest tap que té la Generalitat en els cursos. Se sorprèn amb la pregunta perquè no n’és expert, però les seves respostes són il·luminadores. Creu que la Generalitat no es pot col·lapsar quan té puntes de demanda, ni en cursos de llengua ni en sanitat, ni en res. L’escalabilitat dels servidors fa més de vint anys que és resolta i això no hauria de passar. També posa llum que cal aprofitar el Parla.cat i invertir-hi. Afegeix que cal potenciar les plataformes d’intercanvi perquè la llengua també és en joc en la connectivitat social i que potenciar models híbrids d’aprenentatge presencials-virtuals pot ser un bon camí. Sort que no hi havia pensat gaire, en això. A veure si l’escolten.
—Quants éreu quan vau començar?
—Tres persones, en Miquel Piulats, de Mallorca, en Jordi Coll i jo mateix. També va col·laborar amb nosaltres en Ricard Vaqué, de Girona. Vam publicar la primera versió del navegador Netscape en català i malgrat les dificultats del servidor de seguida vam tenir quatre-centes descàrregues. Vam veure que això funcionava, que hi havia interès i de seguida vam posar-hi el nom de Softcatalà, perquè servia per a posar-hi més coses, tal com després hem fet. Estàvem bastant fascinats per tot el que passava al món del programari lliure, i en concret amb el tema de Linux. Com podia ser que per fer una cosa tan complexa s’hagués posat d’acord la gent a través d’internet? Això ens va inspirar.
—I com vau continuar?
—La reflexió que ens vam fer va ser que si volíem viure plenament en català, la següent eina que ens faltava era un paquet ofimàtic, amb un processador de textos, un full de càlcul, i va ser quan vam començar amb l’Office lliure, que abans es deia Open Office, un paquet ofimàtic similar al Word, de Microsoft Office.
—Vau créixer molt de seguida?
—El creixement de Softcatalà ha estat sempre molt orgànic. No hem tingut grans creixements d’un any a l’altre sinó que tot ha estat orgànic. Si no ho recordo malament, cap al 2003-2004 ja teníem un corrector que només era ortogràfic, i l’anem millorant sempre. La diferència de qualitat que oferim respecte dels altres és molt clara…
—Això us deu donar molta feina, no?
—El corrector gramatical té diverses parts, és bastant complex d’explicar.
—Provem d’explicar-ho fàcilment.
—Nosaltres partíem de zero, perquè les llistes del IEC no són obertes i no hi havia res. Fa vint anys que hem anat creant una base de dades, per dir-ho d’alguna manera, amb totes les paraules que existeixen en català i com es declinen o com es conjuguen si són verbs i l’hem anat treballant durant molts anys. I això ho hem fet amb les variants dialectals: per al valencià, el català i el mallorquí. Aquesta és la base del corrector. La part més interessant és que, a aquesta base de dades, li donem molt d’afecte i hi invertim molt de temps. També fem servir aquesta base per al traductor català-castellà, que utilitza Apertium. I també el conjugador de verbs, els genera de manera automàtica a partir d’aquesta base de dades. O sigui que moltes de les eines lingüístiques que hem fet les tenim arrelades a l’única font de dades, que és aquest diccionari.
—Heu aconseguit d’explicar-ho fàcil, però deu ser molt complicat.
—El corrector té aproximadament una mica menys de 4.000 regles que han definit els humans, que bàsicament són les errades més comunes. Fa uns quants anys que les definim. Hi ha tota la part de correcció ortogràfica i després hi ha la part de correcció gramatical que és basada en regles que anem incorporant. Com et deia, sempre l’anem millorant. És una àrea que treballem molt. Tenim molt de retorn de la gent, es fa servir molt a tot arreu: universitats, diaris… I tot això ho anem arreglant.
—Us va bé que la gent us enviï coses?
—Sí, és clar, sempre intentem escoltar a la gent.
—Quanta gent fa servir el corrector?
—Parlo de cap, aproximadament el 2024 tindrem cent dotze milions de pàgines vistes i d’aquestes, un 50% són del corrector. A la IA, li costarà molt d’entrar en aquest àmbit.
—Per què?
—El nivell de certesa que has de tenir a la documentació és molt alt. No pots fer un suggeriment de canvi gramatical, ortogràfic, a l’usuari si no és fonamentat. No podem fer això que veiem en els traductors, que a vegades s’equivoquen i la gent ho accepta, perquè al final moltes vegades fas servir el traductor per entendre el text, i la gent en aquest cas hi té una tolerància. Però en correcció gramatical i ortogràfica no hi ha tolerància. No pots suggerir a una persona que posi unes comes que no són adients, o fer una puntuació que no és. Llavors hem de tenir molta cura i hi ha coses precisament que no les podem arreglar, perquè el català és una llengua molt complexa, no?
—Sí.
—Per exemple, en tot el tema dels pronoms febles, si als humans ja ens costa, imagina’t programar-ho. Llavors anem fent coses, però sempre amb molta cura de no disparar-nos al peu. I això és molt complicat, per la gran variabilitat que té la llengua. Els correctors professionals tenen molta feina i en tindran, perquè hi ha coses que les màquines no poden resoldre per l’ambigüitat.
—A la intel·ligència artificial, li costarà molt d’arribar ací?
—A curt termini, li costarà perquè comet errades, allò que en diuen al·lucinacions. I la correcció és un àmbit en què precisament les al·lucinacions i els falsos positius tenen poc recorregut. La gent té molt poca tolerància. Necessita que estigui bé.
—Si el 50% d’usuaris són del corrector, la resta de serveis més consumits quins són?
—El següent és el traductor, que el fa servir moltíssima gent. El castellà i el català són les llengües que es fan servir més. Tothom ofereix molts traductors, però nosaltres, en comptes de fer servir IA, en el cas del català i el castellà tenim un sistema que va fer la Universitat d’Alacant fa vint-i-cinc anys que es diu Apertium, que és una mica artesà, que va amb regles. Llavors, a la gent li agrada molt perquè al·lucina poc i és molt predictiu. Fa molts anys que el fem, es va entrenar inicialment per a textos administratius, s’ha anat ampliant i funciona molt bé i agrada molt. Continua venint molta gent perquè és diferent del que ofereixen uns altres traductors d’intel·ligència artificial, és més fidedigne. Un altre servei que té moltes visites és el diccionari de sinònims.
—Feu projectes nous?
—Fa més de tres anys que treballem en el diccionari anglès-català, amb fonts lliures. És un projecte molt important per a nosaltres. No l’hem anunciat públicament, però es pot trobar al menú de la web, on hi ha els diccionaris. El millorem perquè no sigui el mateix que els usuaris troben a Google. També experimentem amb un sistema de doblatge automàtic, que tenim publicat en proves. És un experiment que fem: si ens envies un vídeo, el doblem automàticament al català i oferim un editor perquè puguis esmenar-lo i vagis generant el vídeo amb les teves esmenes. No sé si tindrà èxit o no, però és molt interessant.
—I tot això no té mai finalitat comercial?
—La nostra filosofia sempre ha estat la de fer un servei a la comunitat, dins el món de la informàtica i el català. Està molt bé que hi hagi unes empreses comercials que tinguin molt d’èxit, però també hi ha d’haver un coneixement públic, a què tothom pugui accedir. Nosaltres sempre ho hem plantejat així. Hi ha un espai per a fer coses des del voluntariat. Les empreses comercials han d’anar a buscar traductors i professionals perquè s’hi han de guanyar la vida. El nostre espai són les comunitats lliures i el nostre rol no és ajudar les grans marques tecnològiques, aquestes han de traduir al català amb empreses professionals. El nostre rol és ajuda runes altres comunitats que fan tecnologies obertes que també estiguin en català. Això és el que fem. Un espai que no és renyit amb els que puguin fer governs o empreses.
—Som molts els qui considerem que heu estat i sou fonamentals per al català.
—Si no ho haguéssim fet nosaltres, hauria existit alguna cosa semblant. En totes les llengües del món hi ha comunitats, no hauria estat el buit absolut. Però sí que és cert que hem aportat i hem tingut un impacte important. Ho veiem en el llistat de cada any. També podem fer una cosa que pugui ser minoritària, com ara fer un Linux en català o fer un Firefox, però això crea més pressió perquè l’altra gent també treballi en català. És a dir, posar en evidència els qui no ho fan. Te’n posaré un exemple, l’altre dia un noi em deia que per què no traduíem una cosa d’Adobe i jo li vaig dir que ell havia de demanar a Adobe que ho fes. La nostra contribució no només és l’èxit que hem tingut amb els usuaris, sinó la pressió que crea a les empreses de dir que aquí hi ha una comunitat i t’hi has d’adaptar.
—Quins desafiaments teniu?
—El repte més gran per a qualsevol organització que es fonamenti en el voluntariat no és tant la tecnologia, que ens n’hem sortit prou bé, com mantenir un grup de gent amb uns valors basats en el voluntariat, funcionar bé i que hi hagi una regeneració, o sigui que hi hagi una continuïtat. La part humana, per mi, és la part més difícil, i estic content perquè l’hem treballada molt i l’hem aconseguida.
—Hi ha secret?
—Has d’aconseguir que la gent que treballa pel català estigui d’acord amb el 90% de les coses que fas, i llavors pots focalitzar-t’hi. El 10% restant, cadascú que el treballi des de l’espai personal o com vulgui. Treballar així ens ha permès oferir coses rellevants a la gent amb noves tecnologies en català, perquè és veritat que els canvis tecnològics que hi ha hagut han estat molt bèsties.
—Deveu tenir una despesa bestial en servidors per a donar l’abast a tots els vostres usuaris.
—Sí, hem d’invertir diners en servidors. El nostre model de finançament ha anat canviant. Al principi veníem samarretes, CD… Ara ens financem a partir de la publicitat que tenim en dos serveis del web. Això ens dóna prou per a mantenir la despesa econòmica que tenim, que bàsicament és tota la part de servidors i tota la part de viatges dels membres. Per a poder continuar funcionant bé, ens trobem físicament cada sis mesos. Tot això ho paga l’associació. No tenim un sistema de donacions, però sí que l’acabarem dissenyant perquè no volem tenir tots els ous a la mateixa cistella. Aquesta cistella és la de la publicitat a internet, que ha tingut algun daltabaix en els últims dos anys. Amb tota la qüestió del consentiment i la privadesa, la publicitat ha baixat bastant.
—Sou informàtics preocupats per la llengua o lingüistes informàtics?
—Jo diria que tothom que forma part de Softcatalà té una passió per la llengua, llavors n’hi ha alguns que són professionals de la llengua i uns altres que són informàtics a qui interessa molt la llengua. Bàsicament, som gent que sap molt de llengua i gent que sap bastant de tecnologia. Ara també tenim més perfils, com ara dissenyadors, gent experta en comunicació a les xarxes socials…
—Com més va és més igualat el nombre de dones i homes.
—Tradicionalment, la informàtica havia estat un lloc en què les dones havien tingut poca presència. Corregir-ho a posteriori ha costat perquè en ser una associació amb voluntariat no pots fer discriminació positiva, però cada vegada hi ha més dones a l’associació i intentem que sigui així.
—Pregunta inevitable: com veieu el present i el futur de la normalització de la llengua?
—La situació és preocupant i a tots plegats ens ha fallat veure la gravetat del problema. La pèrdua de parlants es veu a totes les estadístiques. I després, quin recorregut té la llengua en els àmbits professionals? Nosaltres pensem que durant uns anys s’ha viscut bastant de l’autocomplaença, de dir que tot va bé, quan si miràvem els números feia bastant de temps que no hi anàvem. Ara estem en una situació més bona des del punt de vista que la gent és conscient que tenim una situació problemàtica i que realment cal fer un pas endavant important. Fa uns quants anys no hi havia aquesta consciència.
—Quins passos s’haurien de fer?
—Els catalans hem sigut bastant tous en moltes coses, aquí parlaré més personalment, per exemple, veiem com a Andorra es fan les coses amb més mà ferma en alguns aspectes. A mi, per exemple, que sigui obligatori el C2 per a l’ensenyament, em sembla una cosa totalment fonamental. I part de l’èxit que es veu ara en la demanda de cursos de C2 és perquè l’administració va decidir que això era un augment totalment lògic per a algú que s’ha de dedicar a ensenyar a futures generacions, com pots no exigir un domini de la llengua?
—Hi ha molta demanda, però, en canvi, els cursos estan col·lapsats. No tenim un problema una mica greu de no fer servir prou les eines digitals per desblocar aquestes situacions?
—És un món complex i només puc parlar del que es veu des de fora. En el tema dels cursos del català, ens preocupa que la gent no s’hi pugui inscriure perquè els sistemes informàtics no són capaços d’escalar la demanda. Ara ho veiem amb el català, però a la pandèmia ho vam veure al CatSalut, que no podies imprimir-te el certificat digital, o quan queien els sistemes quan la gent va demanar els ajuts. Això és molt greu perquè són situacions extremadament crítiques. La Generalitat hauria de repensar com gestiona la informàtica d’una manera més estructural. Sembla que un dels problemes que tenen definitivament és la falta d’agilitat per a poder gestionar pics de demanda molt alts. Això en el sector privat és resolt des de fa vint anys. En el comerç hi ha pics brutals de demanda durant tot l’any i s’ha resolt del tot, des d’un Amazon a un comerç petit. Llavors, costa d’entendre que el 2024 encara tinguem problemes. La Generalitat hauria de poder donar resposta a les necessitats de la ciutadania en qualsevol situació de demanda. Vist des de fora sembla que hi hagi algun problema de subcontractació, n’hi ha molta.
—I per a facilitat l’ensenyament del català també hi podria haver solucions digitals que desbloquessin aquesta manca d’oferta.
—Dins l’àmbit de l’ensenyament de llengües, tens exemples com ara Duolingo. La intel·ligència artificial permetrà d’automatitzar moltes coses. Fa molts anys, quan va sortir Parla.cat, va ser una cosa bona i després es va degradar. Ara sembla que l’han tornat a endreçar una mica, no sé com està exactament, però s’hauria de potenciar i fer-hi una inversió significativa. És una bona llavor i es pot millorar. A vegades hi ha la temptació de tornar a començar de zero quan només són qüestions d’escalabilitat. No he reflexionat gaire sobre tot això i no en puc dir gaires coses, però segur que són bones les plataformes que permeten l’intercanvi. Necessitem crear les connexions socials i és possible que tinguin un cert sentit els models híbrids, una part del curs virtual i l’altra part del curs social. No hi ha una solució només tecnològica a l’hora de fer l’aprenentatge de llengües.