28.09.2023 - 21:40
Gerrit De Vynck · The Washington Post
OpenAI, l’empresa creadora de ChatGPT, va anunciar dilluns que el seu xatbot ha començat a incorporar la capacitat de parlar amb els usuaris mitjançant veu i àudio. Aquesta novetat fa entrar de ple la petita empresa d’intel·ligència artificial en una cursa frec a frec amb gegants tecnològics, com ara Google, Apple o Amazon, per a desenvolupar assistents de veu més intel·ligents.
ChatGPT ara pot respondre a les consultes dels usuaris amb una “personalitat” de les cinc que ofereix, i parla en un to que –generalment– sona més natural que no els assistents de veu més populars, com són Alexa (Amazon) i Siri (Apple). Per a OpenAI, la funcionalitat de veu és crucial per a atraure més usuaris per al xatbot i aconseguir que hi interaccionin més.
“Aquest és el nostre objectiu”, diu Peter Deng, vice-president de productes de consum d’OpenAI, en declaracions a The Washington Post. “Una de les feines més difícils és agafar aquesta tecnologia increïble i readaptar-la perquè ofereixi la simplicitat en l’ús que cerquen els 300 o 400 milions d’usuaris potencials que volem atreure.”
L’anunci d’OpenAI destaca com Amazon –una de les companyies capdavanteres en assistents de veu– ha començat a quedar-se enrere aquests darrers mesos en la cursa per a desenvolupar noves eines d’intel·ligència artificial per al públic general. Dilluns, el mateix dia de l’anunci d’OpenAI, Amazon va dir que havia signat un acord per a invertir fins a 4.000 milions de dòlars en una altra start-up d’intel·ligència artificial, Anthropic. L’acord és el més important per al sector de la intel·ligència artificial d’ençà que Microsoft va signar a principi d’any un acord històric amb OpenAI, i evidencia l’aposta creixent dels gegants tecnològics per aquest sector.
La setmana passada, Google, Amazon i OpenAI ja van anunciar alguns avançaments en matèria d’intel·ligència artificial –un ritme frenètic que mostra la pressa dels gegants per a superar la competència en aquest sector. L’objectiu és provar diferents enfocaments per aconseguir que la gent utilitzi –i pagui– per l’ús d’aquestes aplicacions, i afegir-hi la funcionalitat de veu és una de les vies clau que exploren. En aquest sentit, Amazon ha anunciat fa poc que havia afegit una funcionalitat de conversa amb un xatbot als altaveus Alexa, presents a milions de llars. Aquest estiu, Google va comunicar als seus treballadors que volia fer compatible el seu xatbot Bard amb els seus assistents de veu.
Fins ara, la gent podia fer preguntes a ChatGPT per l’aplicació mòbil mitjançant missatges de veu, però el xatbot tan sols les podia respondre amb text. OpenAI ha explicat que els usuaris també poden penjar imatges com a part de les seves preguntes: per exemple, poden ensenyar a ChatGPT una fotografia del menjar que tenen a la nevera i demanar-li que recomani receptes amb els ingredients disponibles. L’addició de capacitats de veu i imatge també fa que ChatGPT es converteixi en un veritable model “multimodal”: un xatbot que pot “veure” i “escoltar” el món i respondre amb veu i imatges, a banda de text. Els investigadors i analistes d’intel·ligència artificial expliquen que els models multimodals són el següent pas per al sector, i per això les empreses s’afanyen a desenvolupar-los.
Els assistents de veu fa anys que estan disponibles en cotxes, telèfons intel·ligents, televisors i altaveus domèstics, i milions de persones els empren cada dia. Majoritàriament, les seves funcionalitats es limitem a un petit conjunt d’interaccions rutinàries, com ara apagar els llums o encendre’ls o bé dir la previsió del temps. La tecnologia de model de llenguatge gran (large language model) amb què funcionen els xatbots fa pensar que els nous assistents de veu seran capaços de tenir converses més llargues i naturals i respondre a preguntes més complexes.
Els inversors i analistes han acusat Amazon de reaccionar tard en la cursa per a aconseguir una intel·ligència artificial tan “generativa” com la dels xatbots i els generadors d’imatges, i l’acord amb Anthropic li donarà accés a la recerca i la tecnologia d’aquesta empresa. Anthropic va ser fundada per antics treballadors d’OpenAI i, anteriorment, havia rebut inversió de Google.
“Aquest anunci és una altra manera en què Amazon demostra al mercat que és un actor de pes en l’espai de la intel·ligència artificial generativa. Vol superar la percepció d’haver-se quedat enrere”, diu Jim Hare, vice-president de l’empresa d’investigació tecnològica Gartner.
OpenAI va desencadenar el fervor pels xatbots el novembre passat, quan va anunciar el llançament de ChatGPT. D’aleshores ençà, els gegants tecnològics han competit per desenvolupar el seu propi xatbot. Microsoft s’ha associat amb OpenAI per poder tenir accés la seva tecnologia i Google ha llançat Bard, el seu propi xatbot.
Els investigadors d’intel·ligència artificial han advertit dels riscs que els usuaris comencin a antropomorfitzar els xatbots, atès que les seves respostes solen assemblar-se a les d’un humà. Això podria donar als usuaris una falsa sensació de confiança en les capacitats de la intel·ligència artificial. És un risc que s’ha de tenir en compte, atès que els xatbots encara inventen informació i la fan passar com a real de manera regular, un problema que els investigadors en intel·ligència artificial anomenen “al·lucinació”.
Les noves “personalitats” de ChatGPT s’anomenen Sky, Ember, Breeze, Juniper i Cove, i cadascuna té un to i un accent propi, tot i que OpenAI insisteix que no pretenen d’emular cap persona en concret.
En un assaig amb públic, la companyia va mostrar com el xatbot era capaç d’entendre preguntes de veu llargues i conceptualment obertes. En compte de dir a l’usuari quina és la millor manera de formular una pregunta perquè el xatbot l’entengui més bé, aquesta nova funcionalitat fa que les converses siguin més fàcils i fluides i no requereixin esforços afegits de l’usuari.
“Amb aquesta funcionalitat pots parlar com vulguis”, va dir Deng durant l’assaig. “Els meus fills ara demanen a ChatGPT que els expliqui contes per anar a dormir.”
OpenAI ha experimentat amb les funcionalitats de veu i imatge i hi ha afegit límits per a garantir que el xatbot respongui adequadament a temes delicats: per exemple, suggereix que l’usuari consulti un professional en cas que li faci preguntes sobre salut mental. Sigui com sigui, Sandhini Agarwal, investigador d’OpenAI, explica que encara hi ha molta feina per fer. “La feina no s’acabarà demà”, diu.
- Subscribe to The Washington Post
- Podeu llegir més reportatges del Washington Post publicats en català a VilaWeb