28.06.2023 - 13:37
|
Actualització: 28.06.2023 - 14:03
Google ha presentat aquesta setmana l’AudioPaLM, un nou model de llenguatge multimodal capaç de processar i generar tant text escrit com parlat. És un desenvolupament tècnic, que encara no es pot fer servir amb una eina d’ús comú, però que es podria aplicar per a fer traduccions de veu a veu en directe, cosa que faria possible que els interlocutors s’entenguessin sense deixar de parlar la seva llengua. També obre un ventall de possibilitats en el camp del reconeixement de llenguatge parlat i la transcripció automàtica. Podeu provar-lo a la pàgina web.
AudioPaLM combina les capacitats de dos models de llenguatge de Google: PaLM-2 i AudioLM, i n’aprofita, per exemple, el fet de capturar elements de comunicació no verbal com ara l’entonació i el timbre de veu del parlant, o bé el gran coneixement lingüístic de PaLM-2. Fins i tot, és capaç de reproduir amb la veu original el missatge traduït. Els creadors asseguren que el model supera de llarg els sistemes existents fins ara de traducció de la parla.
Per a desenvolupar el model de llenguatge, s’han basat en bancs de dades lingüístiques com ara un repositori amb els discursos del Parlament Europeu amb les transcripcions i les traduccions dels intèrprets; o del projecte Common Voice, una iniciativa de la fundació Mozilla per a fer de banc de veus en idiomes de tot el món per a entrenar models d’aprenentatge automàtic. La Plataforma per la Llengua va activar una campanya per fer que el català fos l’idioma amb més enregistraments del món a Common Voice, i la crida ha tingut efecte, perquè el català és una de les llengües que s’han fet servir per entrenar AudioPaLM i que té més recursos. En concret, el català rep la consideració de “idioma amb molts recursos”, al costat del francès, l’alemany i l’espanyol.
Recentment, Google ja va incorporar el català en el model de llenguatge en massa PaLM2, un dels que serveixen de base a AudioPaLM. Aquest model de llenguatge ja té aplicacions pràctiques en productes de Google com ara el xat conversacional Bard, l’alternativa de Google al ChatGPT, i Chirp, l’assistent de veu de Google.