OpenAI:s hyllade storskaliga språkmodell, ChatGPT, har beskrivits som “helt enkelt den bästa artificiella intelligenschatboten som någonsin släppts till allmänheten” av Kevin Roose, författare till “Futureproof: 9 Rules for Humans in the Age of Automation”, och som “en av de största sakerna som någonsin gjorts för datorer” enligt Jensen Huang, VD för Nvidia. Trots dessa lovord menar dock vissa forskare att AI-baserade chattar är “inkonsekventa” och “försämras”.
Många anser att ChatGPT-modellen har överträffat Turingtestet, ett traditionellt mått på en maskins förmåga att efterlikna mänsklig intelligens. ChatGPT har uppvisat imponerande resultat inom flera områden: matematik (89:e percentilen), juridik (90:e percentilen) och verbalt GRE-test (99:e percentilen).
Forskare vid NYU:s medicinska skola rapporterade i juli 2023 att råd från ChatGPT om hälsorelaterade frågor var nästan omöjliga att skilja från råd givna av medicinsk personal.
Forskare tror att ChatGPT försämras
Forskare vid Stanford University och University of California, Berkeley, har dock uttryckt oro över ChatGPT:s tillförlitlighet. Lingjiao Chen, Matei Zaharia och James Zhu har noterat att chatbotens prestanda varit inkonsekvent och försämrats i vissa fall.
En studie publicerad den 18 juli på förtryckservraren arXiv visade att “prestanda och beteende hos GPT-3.5 och GPT-4 varierar avsevärt” och att svaren på vissa uppgifter “har försämrats avsevärt över tid.”
Från mars 2023 hade GPT-4 en träffsäkerhet på 97,6 % på frågor relaterade till primtal, men denna siffra sjönk till endast 2,4 % i juni 2023. Dessutom minskade ChatGPT:s förmåga att assistera programmerare med kodnings- och felsökningsuppgifter från drygt 50 % i mars till 10 % i juni.
Zhu förklarade att det är svårt att fastställa en orsak, även om det är uppenbart att systemändringar och uppdateringar är bidragande faktorer. “Vi förstår inte helt vad som orsakar dessa förändringar i ChatGPT-svar eftersom dessa modeller är ogenomskinliga,” sa Zhu.
OpenAI har avvisat påståenden från konspirationsteoretiker om att företaget skulle experimentera med mindre versioner av LLM som en kostnadsbesparande åtgärd eller att det medvetet skulle försvaga GPT-4 så att frustrerade användare skulle bli mer benägna att betala för tillägget CoPilot från GitHub.
“Vi gjorde inte GPT-4 dummare. Tvärtom: vi gör varje ny version smartare än den föregående”, sa Peter Welinder, produktchef på OpenAI, i en nylig tweet.
I detta sammanhang pressar vissa observatörer som är oroliga över den störande effekten av “drift” på modellresultat OpenAI att offentliggöra källorna till utbildningsmaterial, kod och andra strukturella element bakom ChatGPT 4.0.
“Alla resultat från modeller med stängd källkod är varken reproducerbara eller verifierbara, och därför jämför vi från ett vetenskapligt perspektiv tvättbjörnar och ekorrar”, förklarade Sasha Luccioni från AI-företaget Hugging Face. Hon framhöll att ansvaret för att övervaka utplacerade LLM:er ligger hos modellskaparna, som bör ge tillgång till de underliggande modellerna, åtminstone för granskningsändamål.