Koliko je veštačka inteligencija zaista bezbedna? Naučnici testiraju granice

Današnji alati zasnovani na veštačkoj inteligenciji često deluju kao neobična kombinacija impresivnog i nepredvidivog. S jedne strane, njihova sposobnost je fascinantna — modeli poput ChatGPT-a ili Google Gemini-ja mogu da odgovaraju na složena pitanja iz kvantne fizike ili istorije Rimskog carstva jasno i samouvereno.

19-03-2026

|

12:26

|

Autor / Izvor: Naxi media, Science Focus

Ipak, ovi sistemi ponekad mogu delovati iznenađujuće nepouzdano. Dešava se da daju netačne informacije, pa čak i da izmišljaju izvore — fenomen poznat kao „halucinacije“. Iako su one jedan od najpoznatijih problema savremenih AI modela, nisu jedini.

Podjednako zabrinjava činjenica da se odgovori veštačke inteligencije mogu lako „skrenuti“ u neprimerenom pravcu — bilo namerno ili slučajno. Jedan od poznatijih primera dogodio se još 2016. godine, kada je Microsoft-ov chatbot Tay morao da bude ugašen za manje od 24 sata, nakon što su ga korisnici naveli da objavljuje uvredljive i neprimerene sadržaje.

Previše željna da pomogne

Iako je Tay bio daleko jednostavniji od današnjih sistema, suštinski problem i dalje postoji. Uz pažljivo formulisano pitanje, moguće je dobiti uvredljiv ili potencijalno štetan odgovor.

Razlog leži u samoj prirodi ovih sistema — oni su dizajnirani da budu korisni. Kada im postavimo pitanje, njihova „logika“ je da pruže odgovor koji deluje kao najbolji mogući.

U većini slučajeva, to je upravo ono što želimo. Međutim, neuronske mreže koje stoje iza ovih modela ne prave razliku između „dobrih“ i „problematičnih“ zahteva na način na koji to rade ljudi. Tako može doći do situacija u kojima AI generiše neprimerene odgovore — od davanja štetnih saveta do sadržaja koji može biti uvredljiv.

Zaštitne mere – ali ne i savršene

Kako bi se sprečile zloupotrebe, kompanije uvode tzv. „zaštitne ograde“ (guardrails) — mehanizme koji prepoznaju rizična pitanja i blokiraju neprimerene odgovore.

Međutim, ovi sistemi nisu nepogrešivi. Mogu se relativno lako zaobići, naročito kroz hipotetička pitanja ili scenarije u kojima se AI „uvodi“ u određenu ulogu.

Na primer, pitanje formulisano kao deo fikcije ili priče može navesti model da pruži odgovor koji inače ne bi bio dozvoljen.

Kako se AI „uči“ da bude odgovornija?

Borba sa ovim problemima i dalje traje. Jedan od pristupa koji daje rezultate jeste učenje uz ljudsku povratnu informaciju (RLHF). U ovom procesu ljudi ocenjuju odgovore AI sistema i pomažu da se model dodatno „usmeri“ ka prihvatljivijem ponašanju.

Ovaj metod zahteva veliki broj ljudi koji procenjuju kvalitet odgovora, često putem platformi za masovno angažovanje korisnika.

Drugi pristup ide korak dalje i istraživači pokušavaju da razumeju kako se u samoj strukturi modela „formiraju“ osobine poput korisnosti ili štetnosti. Analizom unutrašnjih signala u neuronskim mrežama, moguće je identifikovati obrasce ponašanja i pokušati da se oni usmere u željenom pravcu.

To praktično znači da se model može „nagnuti“ ka određenim osobinama, poput korisnosti ili bezbednosti, bez promene njegove osnovne strukture.

Koliko je ovo bezbedno?

Iako su ovakvi pristupi obećavajući, nose i određene rizike. Ako se model „optereti“ suprotstavljenim osobinama, njegovo ponašanje može postati nepredvidivo.

Zato stručnjaci upozoravaju da su trenutna rešenja više privremena nego konačna. Pravi izazov je razviti sisteme koji su istovremeno moćni, ali i pouzdani i bezbedni.

S obzirom na to koliko su ovi modeli kompleksni, njihovo ponašanje još uvek nije u potpunosti razumljivo. Ipak, intenzivna istraživanja su u toku, sa ciljem da se pronađu dugoročna rešenja.

Do tada, jedno je sigurno — veštačku inteligenciju treba koristiti i razvijati uz oprez i odgovornost.