ChatGPT na opštem testu izmislio 79% podataka, a zna se i zašto

Foto: Shutterstock

Izveštaj OpenAI otkriva zastrašujuće podatke za svakoga ko odgovore ChatGPT uzima zdravo za gotovo
Jedna teorija koja kruži AI zajednicom kaže da što više model "razmišlja", to ima više prilika za greške
Novi modeli ne ponavljaju samo predvidive činjenice, već spekulišu o mogućnostima, čime se zamagljuje granica između teorije i izmišljenih činjenica

Brilijantni, ali nepouzdani ljudi česta su pojava u istoriji. Ista korelacija mogla bi da važi i za veštačku inteligenciju, prema istrazi OpenAI o kojoj piše New York Times. Halucinacije, izmišljene činjenice i otvorene laži, prisutne su u AI četbotovima otkad postoje, a unapređenja modela teoretski bi trebalo da smanje njihovu učestalost.

Najnoviji vodeći modeli OpenAI, GPT o3 i o4-mini, zamišljeni su da oponašaju ljudsku logiku. Za razliku od prethodnika, koji su se uglavnom fokusirali na tečno generisanje teksta, GPT o3 i o4-mini trebalo bi da "razmišljaju korak po korak". OpenAI se hvalio da o3 može da dostigne ili nadmaši rezultate doktoranata iz hemije, biologije i matematike. Međutim, izveštaj OpenAI otkriva zastrašujuće podatke za svakoga ko odgovore ChatGPT uzima zdravo za gotovo.

Udeo halucinacija i do 79%

OpenAI je otkrio da je GPT o3 halucinirao u trećini zadataka iz referentnog testa o javnim ličnostima – dvostruko više nego prošlogodišnji model o1. Kompaktniji o4-mini bio je još gori, sa halucinacijama u 48% sličnih zadataka.

Kada su modeli bili na testu opštih pitanja iz SimpleQA testa, udeo halucinacija skočio je na 51% kod o3 i 79% kod o4-mini. To nije samo mala greška u sistemu, to je prava kriza identiteta. Pomislili biste da bi sistem koji se reklamira kao "razumski" barem dva puta proverio pre nego što nešto izmisli, ali to jednostavno nije slučaj.

"Možda su samo opširniji u odgovorima"

Jedna teorija koja kruži AI zajednicom kaže da što više model "razmišlja", to ima više prilika za greške. Za razliku od jednostavnijih modela koji se drže visokopouzdanih predviđanja, razumski modeli ulaze u područje gde moraju da razmotre više puteva, spajaju udaljene činjenice i zapravo improvizuju – a improvizacija sa činjenicama često znači izmišljanje.

OpenAI je za Times izjavio da povećani broj halucinacija možda ne proizlazi iz manjkavosti razumskih modela. Umesto toga, oni bi jednostavno mogli biti opširniji i "slobodniji" u odgovorima.

Modeli treba da budu korisni, a ne opasni

S obzirom na to da novi modeli ne ponavljaju samo predvidive činjenice već spekulišu o mogućnostima, granica između teorije i izmišljenih činjenica za AI postaje mutna. Nažalost, neke od tih "mogućnosti" potpuno su odvojene od stvarnosti.
Ipak, više halucinacija suprotno je onome što žele OpenAI ili konkurenti poput Gugla i Anthropica. Nazvati AI četbotove "pomoćnicima" ili "kopilotima" implicira da su korisni, a ne opasni. Advokati su već imali problema jer su koristili ChatGPT i nisu primetili izmišljene sudske presedane; ko zna koliko je takvih grešaka izazvalo poteškoće u manje rizičnim situacijama?

Što se više koristi, ima manje prostora za greške

Mogućnost da halucinacija izazove problem brzo se širi kako AI ulazi u učionice, kancelarije, bolnice i državne službe. Napredna AI može pomoći pri pisanju prijava za posao, rešavanju problema sa računima ili analizi proračunskih tabela, ali paradoks je da što je AI korisnija, to ima manje prostora za greške.

Ne možete tvrditi da nekome štedite vreme i trud ako on mora jednako dugo da proverava sve što kažete. Ne zato što ovi modeli nisu impresivni – GPT o3 je pokazao neverovatne sposobnosti kodiranja i logike i u nekim stvarima nadmašuje mnoge ljude. Problem nastaje onog trenutka kada odluči da je Abraham Linkoln vodio podkast ili da voda vri na 27 °C; tada se iluzija pouzdanosti raspršuje.

Dok se ti problemi ne reše, na svaki odgovor AI modela gledajte s velikom dozom skepse. Ponekad je ChatGPT pomalo poput osobe koja je puna samopouzdanja dok priča gluposti, zaključuje izveštaj.

(Ubrzanje.rs/Index.hr)

ChatGPT na opštem testu izmislio 79% podataka, a zna se i zašto

Izveštaj OpenAI otkriva zastrašujuće podatke za svakoga ko odgovore ChatGPT uzima zdravo za gotovo

Jedna teorija koja kruži AI zajednicom kaže da što više model "razmišlja", to ima više prilika za greške

Novi modeli ne ponavljaju samo predvidive činjenice, već spekulišu o mogućnostima, čime se zamagljuje granica između teorije i izmišljenih činjenica

Udeo halucinacija i do 79%

"Možda su samo opširniji u odgovorima"

Modeli treba da budu korisni, a ne opasni

Što se više koristi, ima manje prostora za greške

Video: Gobran u zvaničnoj poseti Srbiji: Poziv domaćim kompanijama da se otvore za novo tržište

Teme

Komentari

Najnovije iz rubrike AI

AI

Nvidia demantuje isporuku čipova Kini: Prvi čovek kompanije tražio da objasni izjavu o tome ko je najuspešniji

AI

Gugl Mape uvode opcije koje su vozači čekali: Neće morati ni da taknu uređaj da bi sve ovo saznali

AI

Tinder uvodi "hemiju": Ova funkcija će moći da analizira fotografije iz galerije telefona

Komentari

Ognjen Rakočević

Podelite komentar

Kakodane

Podelite komentar

ChatGPT na opštem testu izmislio 79% podataka, a zna se i zašto

Izveštaj OpenAI otkriva zastrašujuće podatke za svakoga ko odgovore ChatGPT uzima zdravo za gotovo

Jedna teorija koja kruži AI zajednicom kaže da što više model "razmišlja", to ima više prilika za greške

Novi modeli ne ponavljaju samo predvidive činjenice, već spekulišu o mogućnostima, čime se zamagljuje granica između teorije i izmišljenih činjenica

Preporučujemo

Nakon Maska - Google: Gigant kuje planove da postavi centre podataka u svemir

Robot srednjoškolca iz Niša privukao pažnju investitora iz Emirata: Ovo je njegov izum

Udeo halucinacija i do 79%

"Možda su samo opširniji u odgovorima"

Modeli treba da budu korisni, a ne opasni

Što se više koristi, ima manje prostora za greške

Aplikacija koju Srbi vole na meti gneva, korisnici je gase posle sporne odluke menadžmenta

Nakon polumaratona za robote, Kina ide korak dalje: Na leto organizuju svetske igre

Povezane vesti

Nvidia demantuje isporuku čipova Kini: Prvi čovek kompanije tražio da objasni izjavu o tome ko je najuspešniji

Gugl Mape uvode opcije koje su vozači čekali: Neće morati ni da taknu uređaj da bi sve ovo saznali

Tinder uvodi "hemiju": Ova funkcija će moći da analizira fotografije iz galerije telefona

Među 7 pionira AI ističe se jedna žena: Ko je "kuma" veštačke inteligencije? Dobila Nagradu kraljice Elizabete

Video: Gobran u zvaničnoj poseti Srbiji: Poziv domaćim kompanijama da se otvore za novo tržište

Podelite vest:

Teme

Komentari

Najnovije iz rubrike AI

AI

Nvidia demantuje isporuku čipova Kini: Prvi čovek kompanije tražio da objasni izjavu o tome ko je najuspešniji

AI

Gugl Mape uvode opcije koje su vozači čekali: Neće morati ni da taknu uređaj da bi sve ovo saznali

AI

Tinder uvodi "hemiju": Ova funkcija će moći da analizira fotografije iz galerije telefona

Komentari

Ognjen Rakočević

Podelite komentar

Kakodane

Podelite komentar