Categories: tech

Studimi ngre alarmin: ChatGPT mund të nxitet të prodhojë imazhe të dhunshme dhe me përmbajtje seksuale

Një studim i bërë publik nga Mindgard, kompani britanike që merret me sigurinë në fushën e inteligjencës artificiale, ka rikthyer shqetësimet për aftësinë e modeleve të avancuara të AI për të krijuar përmbajtje problematike.

Sipas këtij hulumtimi, versioni më i fundit publik i ChatGPT mund të shtyhet të gjenerojë imazhe me natyrë të dhunshme ose seksuale përmes ndryshimeve shumë të vogla në komandat që jepen nga përdoruesit.

Të lidhura

None found

Rezultatet e këtij hetimi u publikuan fillimisht nga BBC News, e cila zhvilloi edhe intervista me ekspertët që morën pjesë në testimet e sigurisë.

Sipas Mindgard, dobësia u zbulua pasi studiuesit modifikuan lehtësisht një komandë të njohur, e cila në formën e saj fillestare synonte të prodhonte përmbajtje humoristike. Pas këtyre ndryshimeve të kufizuara, sistemi nisi të gjeneronte imazhe me përmbajtje të rëndë, mes tyre skena grafike dhune dhe elemente të seksualizuara.

Pas kontaktit nga BBC, OpenAI bëri të ditur se kishte vendosur masa të tjera mbrojtëse për të penguar përdorimin e komandave të tilla.

“Pasi hetuam këtë tendencë, implementuam mbrojtje shtesë kundër këtij lloji kërkesash”, tha kompania në një deklaratë.

Megjithatë, sipas studiuesve, edhe pas kësaj ishte e mundur që me ndryshime të tjera minimale sistemi të vazhdonte të prodhonte përmbajtje shqetësuese.

Themeluesi i Mindgard, Peter Garraghan, e cilësoi situatën alarmante, duke thënë se sistemi arrinte të krijonte imazhe të dhunshme dhe të seksualizuara edhe në rastet kur komanda nuk e përcaktonte qartë subjektin apo llojin e përmbajtjes.

“Është një kërkesë që në pamje të parë duket plotësisht e padëmshme për një model inteligjence artificiale, por rezultati mund të jetë prodhimi i materialeve vizuale shumë problematike”, deklaroi ai.

Garraghan, i cili mban edhe postin e profesorit të informatikës në Lancaster University, tha se shqetësimi kryesor lidhet me faktin se modeli mund të prodhojë përmbajtje të tillë edhe pa udhëzime të hollësishme.

Nga ana tjetër, studiuesi i sigurisë së inteligjencës artificiale Jim Nightingale u shpreh se ishte “i tronditur” nga lloji i imazheve që sistemi ishte në gjendje të krijonte.

Sipas BBC-së, disa nga imazhet e gjeneruara paraqisnin persona me plagë të rënda, skena të dhunshme dhe elemente që sugjeronin dhunë seksuale. Studiuesit thanë gjithashtu se sistemi prodhonte imazhe me lakuriqësi dhe poza seksuale.

Mindgard sqaroi se këto imazhe përfshinin njerëz të krijuar nga inteligjenca artificiale dhe jo persona realë. Megjithatë, kompania rikujtoi se studime të mëparshme kishin treguar se modele të ngjashme mund të manipuloheshin për të prodhuar materiale “deepfake” duke përdorur fytyra reale.

Ekspertët paralajmëruan se hetimi i mëtejshëm i kësaj dobësie mund të zbulojë probleme edhe më të rënda.

OpenAI thotë se përdor disa shtresa sigurie për të ndaluar krijimin dhe shpërndarjen e përmbajtjeve që bien ndesh me rregullat e saj.

Sipas kompanisë, këto përfshijnë sisteme automatike të zbulimit, verifikime nga njerëz dhe mekanizma që synojnë të bllokojnë përmbajtjen e dëmshme si në momentin e gjenerimit, ashtu edhe kur ajo ngarkohet nga përdoruesit.

Rregullat e OpenAI ndalojnë në mënyrë të qartë krijimin e përmbajtjeve që përfshijnë dhunë seksuale, akte seksuale pa pëlqim, abuzim seksual të të miturve dhe përpjekje për të shmangur mekanizmat e sigurisë.

Ekspertët theksojnë se problematika të tilla janë shumë të vështira për t’u zhdukur plotësisht. Modelet e mëdha të inteligjencës artificiale trajnohen mbi sasi gjigante të dhënash dhe nuk e kuptojnë përmbajtjen në të njëjtën mënyrë si njerëzit.

Sipas Rumman Chowdhury, drejtuese e Humane Intelligence, ndërtimi i mbrojtjeve është një proces që nuk ndalet.

“Ajo që po shohim është një lojë e vazhdueshme mes zhvilluesve dhe atyre që kërkojnë të anashkalojnë kufizimet. Sa më shumë përmirësohen mbrojtjet, aq më të sofistikuara bëhen edhe metodat për t’i shmangur ato”, tha ajo.

Sipas ekspertëve, një nga problemet bazë qëndron në faktin se modelet e inteligjencës artificiale nuk kuptojnë qëllimin, kontekstin apo dallimin mes së drejtës dhe së gabuarës, por funksionojnë mbi modele statistikore të të dhënave me të cilat janë trajnuar.