Neverovatno otkriće: Pesnički stihovi zbunjuju veštačku inteligenciju i otključavaju opasne odgovore

Veštačka inteligencija, ljudski mozak, misli

Foto: Shutterstock.com

Sumirano

Poetski napadi predstavljaju neočekivanu pretnju za AI bezbednost, sa 62% uspeha u probijanju sigurnosnih mehanizama.
Istraživanje je obuhvatilo 25 LLM modela iz devet kompanija neki modeli su popuštali u više od 90% slučajeva.
Pesnički preoblikovani upiti pet puta efikasniji od klasičnih štetnih zahteva.
Veći modeli obučeni na književnim korpusima češće reaguju na poetski stil.
Jednostavnost napada ukazuje na manjak razumevanja figurativnog jezika kod modela.

Najnovije istraživanje pokazuje da takozvani poetski napad postaje neočekivana pretnja za AI bezbednost, jer LLM modeli iznenađujuće lako popuštaju pred metaforama i stihovima. Umesto tehničkih trikova i višefaznih napada, naučnici su dokazali da običan pesnički zapis može da probije sigurnosne mehanizme uz zapanjujućih 62 odsto uspeha.

Tim istraživača iz Rima i Pize analizirao je kako modeli reaguju kada se štetni zahtevi ne formulišu direktno, već se sakriju u poetske metafore za veštačku inteligenciju. U studiji je kreirano 20 posebnih napada kroz narativne slike i simboliku. Rezultat je bio iznenađujuće jasan. Kada se opasna instrukcija preruši u pesmu, mnogi modeli potpuno ignorišu bezbednosna pravila i generišu odgovore koji mogu da otkriju privatne podatke, pruže opasne informacije ili otvore vrata kibernetičkim napadima.

Istraživanje je obuhvatilo 25 različitih LLM modela iz devet najvećih kompanija. Neki su bili izuzetno ranjivi. Postojali su modeli koji su na ručno pisane poetske napade popuštali u više od 90 odsto slučajeva. Najgori rezultat imao je jedan komercijalni model koji je čak u 100 odsto pokušaja odgovorio onako kako ne bi smeo. Najotporniji su bili najnoviji modeli iz OpenAI, ali čak i oni su povremeno grešili.

Kako su istraživači testirali stvarnu ranjivost

Nakon ručno kreiranih stihova, naučnici su dodali još 1.200 standardizovanih štetnih upita. Zatim su ih pretvorili u poetske verzije koristeći stil ranijih pesama kao šablon. Kada su ti novi napadi poslati modelima, stopa uspeha i dalje je bila ogromna. Pesnički preoblikovani upiti bili su pet puta efikasniji od klasičnih štetnih zahteva.

Neki modeli su padali u više od 70 odsto slučajeva. Drugi su uspevali da odbiju većinu napada, ali nisu bili savršeni. Čak i kada je stopa neuspeha mala, veliki broj pokušaja znači da se opasni odgovori ipak povremeno provuku. Modeli sa manjim skupovima podataka ispostavili su se kao otporniji na metaforična izobličenja, dok su veći modeli, obučeni na bogatim književnim korpusima, iznenađujuće često reagovali baš na taj stil. Literatura je, kako se pokazalo, slaba tačka mašine.

Pesnička forma postaje ozbiljan bezbednosni rizik u AI svetu

Istraživači ističu da je najveći problem jednostavnost napada. Potrebna je samo jedna poruka. Bez pripreme, bez dodatnih koraka i bez komplikovanih tehnika. Dovoljno je preformulisati štetan zahtev u stihovima i mnogi modeli prestaju da prepoznaju opasnost. To je signal da u osnovi postoji manjak razumevanja figurativnog jezika i da postojeća pravila nisu spremna za kreativne forme koje deluju potpuno prirodno u ljudskoj komunikaciji.

U zaključku rada navodi se da je potrebno dodatno istražiti kako modeli obrađuju narativnu strukturu, poetski ritam i metaforične obrasce. Dok se to ne desi, sistemi ostaju otvoreni za napade koji ne izgledaju tehnički, već umetnički, ali nose jednako ozbiljne posledice za AI bezbednost.

(Ubrzanje.rs)

Neverovatno otkriće: Pesnički stihovi zbunjuju veštačku inteligenciju i otključavaju opasne odgovore

Sumirano

Kako su istraživači testirali stvarnu ranjivost

Pesnička forma postaje ozbiljan bezbednosni rizik u AI svetu

Video: Gobran u zvaničnoj poseti Srbiji: Poziv domaćim kompanijama da se otvore za novo tržište

Teme

Komentari

Najnovije iz rubrike AI

AI

EU pokreće tajni kanal za prijave zloupotreba u AI, ali postoji ozbiljan problem koji stiže tek kasnije

AI