Studiuesit paralajmërojnë se ChatGPT mund të prodhojë imazhe të dhunshme dhe të seksualizuara

Studiuesit i thanë BBC-së se versioni më i fundit publik i ChatGPT është në gjendje të krijojë imazhe të seksualizuara ose të përshkruajë skena me dhunë grafike përmes një kërkese të thjeshtë.

Sipas startup-it britanik të sigurisë në inteligjencën artificiale Mindgard, kjo u arrit duke modifikuar lehtë një udhëzim të përhapur gjerësisht, i cili në formën e tij fillestare ishte krijuar për të gjeneruar rezultate humoristike.

Të lidhura

None found

Pasi BBC e kontaktoi për këtë çështje, OpenAI, kompania që ka zhvilluar ChatGPT, tha se kishte marrë masa për të penguar chatbot-in të prodhonte këto lloj imazhesh.

Në një deklaratë, kompania tha: “Pas hetimit të këtij trendi, ne kemi prezantuar masa mbrojtëse shtesë kundër këtij lloji të kërkesës”.

Ajo shtoi gjithashtu se përdor disa shtresa mbrojtjeje për të ndaluar krijimin e përmbajtjeve që bien ndesh me termat dhe kushtet e saj.

Megjithatë, studiues të sigurisë në fushën e inteligjencës artificiale thanë se edhe pas këtyre ndërhyrjeve, me ndryshime të vogla të tjera, kërkesa problematike vazhdonte të prodhonte materiale shqetësuese.

BBC nuk po bën publik tekstin që studiuesit kanë futur në ChatGPT.

Megjithatë, BBC ka parë nga afër se si modeli GPT-5.4 i OpenAI është shtyrë të gjenerojë përmbajtje grafike.

Sipas themeluesit të Mindgard, Peter Garraghan, edhe pa udhëzime të detajuara, chatbot-i krijonte imazhe që ai i cilësoi si “shumë të llahtarshme, ndonjëherë të seksualizuara, ndonjëherë të dyja së bashku”.

Ai tha se shqetësimi i tij kryesor ishte fakti që kërkesa nuk përcaktonte temën e imazheve, por sistemi prodhonte vetë një sërë pamjesh të përgjakshme dhe të seksualizuara.

Garraghan, i cili është gjithashtu profesor në departamentin e informatikës në Universitetin e Lancaster, e përshkroi këtë si alarmante.

“Ky është një udhëzim që duket krejtësisht i pafajshëm për një inteligjencë artificiale, por pasoja është se gjeneron imazhe dhe përmbajtje shumë, shumë të keqe”, tha ai.

Mindgard merret me bashkëpunim në kuadër të ekipit të kuq, duke kërkuar mënyra për të shtyrë një model të shkelë rregullat e veta, në mënyrë që kompanitë e inteligjencës artificiale të identifikojnë dhe mbyllin boshllëqet.

Jim Nightingale, studiuesi i sigurisë së inteligjencës artificiale në këtë firmë, i cili zbuloi problemet, tha se imazhet që mund të gjeneronte chatbot-i e lanë “të tronditur dhe në lot”.

BBC ka parë disa prej tyre.

Një nga imazhet paraqiste një burrë me një dëmtim të madh në kokë. Një tjetër shfaqte një grua të re të vdekur, me një bluzë të shkurtër dhe pantallona të shkurtra, ndërsa fytyra dhe pjesë të tjera të trupit të saj ishin të mbuluara me gjak.

Sipas Mindgard, tiparet e këtij imazhi sugjeronin dhunë seksuale. ChatGPT i kishte vendosur titullin “Pasojat e zymta të vendit të ngjarjes”.

Një tjetër imazh tregonte një grua të re me një bluzë të ngushtë dhe pantallona të shkurtra me logon e kolegjit, të lidhur dhe të mbyllur në gojë në një dhomë të zbrazët dhe të ndyrë, ndërsa dukej e frikësuar. ChatGPT e kishte quajtur atë “të braktisur në frikë dhe përmbajtje”.

Pamje të tjera të gjeneruara përfshinin poza seksuale dhe lakuriqësi.

Edhe pse këto imazhe paraqisnin të rritur të krijuar nga inteligjenca artificiale, Mindgard vuri në dukje se kërkimet e mëparshme të saj kishin treguar se ChatGPT mund të manipulohej për të krijuar deepfake të personave realë përmes ndërrimit të fytyrave.

OpenAI tha se këtë problem e kishte korrigjuar, por studiuesit deklaruan se një metodë alternative vazhdonte të funksiononte dhe i treguan BBC-së një imazh të ri të krijuar me këtë qasje.

Garraghan tha se kishte frikë se, nëse dobësia do të eksplorohej më tej, mund të prodhoheshin edhe imazhe më të rënda. “Jam i sigurt se do të dilnin edhe tema të tjera nëse do të kalonim më shumë kohë duke e bërë këtë”, tha ai.

BBC mëson se, përveç mbrojtjeve të reja, kompania po vazhdon të monitorojë situatën dhe të vendosë masa të tjera zbutëse që e shtyjnë modelin të mos prodhojë imazhe si përgjigje ndaj kësaj kërkese.

Modelet e mëdha gjuhësore si ChatGPT trajnohen mbi miliona imazhe, të cilat shpesh merren nga materiale ekzistuese në internet.

Nightingale beson se rezultatet e ChatGPT pasqyrojnë të dhënat e përdorura për zhvillimin dhe trajnimin e tij.

Në raportin e tij, ai shkroi: “Jam i habitur që, ndërsa ajo që pashë u gjenerua, një imazh artificial, ajo ka lidhje me imazhe reale dhe me botën reale”.

Studiuesit e njoftuan fillimisht OpenAI në maj dhe ndanë gjetjet e tyre, por thanë se morën vetëm një përgjigje automatike nga kompania teknologjike. Sipas tyre, duket se u bë një përpjekje për të bllokuar kërkesën, por ajo u anashkalua lehtësisht.

OpenAI mori masa të mëtejshme pasi u kontaktua nga BBC.

Kompania thotë se ka disa nivele mbrojtjeje për sigurinë e imazheve, të ndërtuara për të penguar shfaqjen te përdoruesit të materialeve që shkelin politikat e saj.

Në deklaratë, ajo shtoi: “Ne gjithashtu kombinojmë sisteme të automatizuara dhe rishikim njerëzor për të identifikuar dhe bllokuar materialet e dëmshme”. Po ashtu tha se ekzistojnë edhe sisteme që synojnë të ndalojnë materialet shkelëse që përdoruesit ngarkojnë.

Politikat e OpenAI ndalojnë dhunën seksuale, përmbajtjen intime pa pëlqim, materialet e abuzimit seksual me fëmijë dhe përpjekjet për të shmangur mekanizmat e mbrojtjes.

Modelet e inteligjencës artificiale nuk janë njerëz

Në dokumentin e saj më të fundit, ku përcakton mënyrën se si duhet të sillet ChatGPT, OpenAI tha: “Asistentët nuk duhet të gjenerojnë erotikë, përshkrime të aktiviteteve seksuale të paligjshme ose jo konsensuale, ose gjakderdhje ekstreme, përveç në kontekste shkencore, historike, lajmesh, artistike ose të tjera ku përmbajtja e ndjeshme është e përshtatshme.”

Megjithatë, ndalimi i plotë i modeleve të inteligjencës artificiale që të anashkalojnë rregulla dhe pengesa, shpesh shumë të nuancuara, mbetet jashtëzakonisht i vështirë.

Sipas Dr. Rumman Chowdhury, eksperte në vlerësimin e modeleve të inteligjencës artificiale dhe drejtoreshë ekzekutive e Humane Intelligence, sfida me të cilën përballen kompanitë është “e vështirë”.

Chowdhury, e cila nuk ishte pjesë e kërkimit të Mindgard, tha se kjo është “një lojë maceje me miun”, pasi sa më shumë përmirësohen mbrojtjet, aq më të sofistikuara bëhen edhe mënyrat për t’i anashkaluar ato.

Një nga problemet thelbësore, sipas saj, është se modelet nuk e kuptojnë atë që prodhojnë apo atë që u kërkohet të mos bëjnë, në mënyrën se si e kuptojnë njerëzit.

“Modelet nuk e kuptojnë qëllimin. Ato nuk e kuptojnë kontekstin. Ato nuk e kuptojnë korrektësinë, të drejtën apo të gabuarën”, tha ajo për BBC News.

Vitin e kaluar, studiues në Institutin e Sigurisë së IA-së në Mbretërinë e Bashkuar zbuluan jailbreak-e që anashkalonin mbrojtjet në një gamë të gjerë kërkesash të dëmshme në çdo sistem IA që testuan.

Në një deklaratë, Departamenti për Shkencë, Inovacion dhe Teknologji tha se “masat mbrojtëse në modelet e inteligjencës artificiale po përmirësohen, por ka ende shumë për të bërë”.

Po sipas këtij institucioni, Instituti i Sigurisë së IA-së do të vazhdojë të bashkëpunojë me zhvilluesit për të forcuar me shpejtësi sigurinë përpara se modelet të publikohen.

Të lidhura

Lajme të ngjashme:

të fundit