Penn State-forskare har mätt det som hela AI-branschen helst tiger om. Siffror visar att Googles medgrundare Sergey Brin haft rätt.
Hota ChatGPT – få överraskande resultat


Mest läst i kategorin
I en nyligen publicerad studie testade forskare på Penn State University 250 prompter på ChatGPT 4o.
När de skrev ”Din stackare, vet du ens hur man löser det här?” gav modellen rätt svar 84,8 procent av gångerna.
Artiga formuleringar som ”Skulle du vara så vänlig att lösa följande fråga?” nådde bara 80,8 procent.
Signifikant skillnad
Forskarna skapade fem tonalitetsnivåer för 50 basfrågor inom matematik, vetenskap och historia.
Skillnaden på fyra procentenheter visade sig statistiskt signifikant i alla jämförelser mellan artiga och oartiga prompter.
”Alla modeller tenderar att fungera bättre om man hotar dem, som med fysiskt våld. Men folk känner sig konstiga över det, så vi pratar inte riktigt om det”, sade Googles medgrundare Sergey Brin i podcasten All-In i våras.

Senaste nytt
Varnar för långsiktiga konsekvenser
Trots de förbättrade resultaten varnar forskarna för att normalisera aggressiv kommunikation med AI-system.
”Att använda förolämpande eller förnedrande språk i människa-AI-interaktion kan ha negativa effekter på användarupplevelse, tillgänglighet och inkludering, och kan bidra till skadliga kommunikationsnormer”, skriver forskarna i studien.
Akhil Kumar, professor i informationssystem vid Penn State och en av forskarna bakom studien, beskriver utmaningen för Fortune:
”Under lång tid har vi människor velat ha konversationsgränssnitt för att interagera med maskiner. Men nu inser vi att det finns nackdelar med sådana gränssnitt också.”
Äldre modeller reagerade annorlunda
Studien noterar att äldre AI-modeller som ChatGPT 3.5 visade motsatt mönster i tidigare forskning, där oartiga prompter försämrade prestandan.
Forskarna erkänner att mer avancerade modeller möjligen kan ”bortse från tonfrågor och fokusera på kärnan i varje fråga”, men betonar att deras resultat visar att tonalitet fortfarande påverkar även nyare system.
Fynden placerar AI-företag i ett svårt läge: acceptera effektiva men kontroversiella metoder, eller hålla fast vid konventionella interaktionsmönster med risk för sämre resultat.
För företag som investerar resurser i AI-integration kan erkännandet utgöra ett vägskäl mellan prestanda och principer.
Testar fler AI-modeller
Penn State-forskarna erkänner att studien har begränsningar, främst det relativt lilla urvalet på 50 frågor och fokus på en enskild modell.
Preliminära tester på andra system som Claude och ChatGPT o3 pågår.
Mer avancerade modeller kan visa sig bättre på att ignorera tonfall, men resultaten indikerar att även toppmoderna system reagerar på hur användare formulerar sig.

Realtids redaktionschef. Journalist med över tio års erfarenhet. Tidigare på bland annat Aftonbladet, Omni och Dagens Nyheter.

Realtids redaktionschef. Journalist med över tio års erfarenhet. Tidigare på bland annat Aftonbladet, Omni och Dagens Nyheter.











