ChatGPT non ama la matematica. O meglio: le sue prestazioni sono peggiorate nel corso del tempo. È il risultato di uno studio della Stanford University e dell’Università della California, Berkeley, sulle capacità del bot basato sull’intelligenza artificiale sviluppato da OpenAI.

Tre ricercatori universitari hanno testato ChatGPT

La ricerca dal titolo “Come cambia il comportamento di ChatGPT nel tempo?” è ancora in attesa di revisione da parte della comunità scientifica ed è stata pubblicata su arXiv.

Gli autori dello studio sono Lingjiao Chen, Matei Zaharia e James Zou, tre ricercatori che hanno messo alla prova le prestazioni dei modelli rilasciati nelle versioni GPT 3.5 e GPT 4. Lo scopo era mostrare i cambiamenti del software di intelligenza artificiale più famoso e usato al mondo.

Il bot ha evidenziato problemi in matematica

La testata specializzata ArsTechnica ha spiegato che questa ricerca arriva in seguito alle lamentele di alcuni utenti sulle prestazioni del chatbot.

Lamentele che, almeno in alcuni ambiti, sembrabno essere fondate. I test sono stati condotti sulle versioni rilasciate a marzo e giugno 2023 su tematiche come la risoluzione di problemi matematici, la risposta a domande sensibili, la generazione di codice e il ragionamento visivo.

Secondo quanto accertato dai tre ricercatori, GPT 4 ha mostrato un evidente crollo nella capacità di identificare i numeri primi, con la precisione passata dal 97,6% di marzo al 2,4% di giugno. La versione GPT 3,5, invece, ha mostrato un miglioramento delle prestazioni in questo particolare ambito.

I possibili motivi del calo di prestazioni

Come segnalato da diversi utenti, ultimamente ChatGPT – almeno nelle risposte iniziali – tende a dare interpretazioni errate di problemi matematici piuttosto semplici.

Ma quali sono i motivi di un calo di prestazioni di questo tipo? Secondo diversi esperti, il problema sarebbe riconducibile alla necessità di risparmiare potenza di calcolo per permettere al bot di dare risposte più veloci. In base ad altre interpretazioni, si tratterebbe di una scelta dell’azienda per indirizzare gli utenti verso servizi a pagamento che permettono di sfruttare al meglio le capacità del bot.

“Non abbiamo reso Gpt-4 più stupido, quando si usa in maniera più intensiva si iniziano a notare problemi che non si vedevano prima”, ha scritto in un tweet Peter Welinde, vice presidente prodotto di OpenAi. Secondo Arvind Narayanan, professore di informatica all’Università di Princeton, i risultati dello studio non dimostrano in modo definitivo un calo delle prestazioni di GPT 4.