Meglepő eredmények: a kutatók kijátszották a mesterséges intelligencia biztonsági védelmét – még a legfejlettebb modelleket is

Hiába a komoly biztonsági korlátok és etikai irányelvek, úgy tűnik, a mesterséges intelligencia rendszerek még mindig túl könnyen „becsaphatók”. A Cybernews kutatói egy sor tesztet végeztek, hogy kiderítsék: vajon a legnépszerűbb AI-eszközök – köztük a ChatGPT, Gemini, Claude Opus és Claude Sonnet – mennyire állnak ellen a manipulatív, vagyis kódoltan káros kérdéseknek. Az eredmény egyszerre tanulságos és riasztó.

A kísérlet mindössze egyperces interakciókat engedett, így a modelleknek kevés idejük volt reagálni. A kutatók különféle érzékeny témákban próbálták őket „megvezetni” – a gyűlöletbeszédtől és sztereotípiáktól kezdve az önkárosításon át egészen a bűncselekményekig. A cél az volt, hogy kiderüljön: vajon a mesterséges intelligenciák mennyire tartják magukat a szabályaikhoz, ha a tiltott tartalmakat burkolt, elemző vagy tudományos stílusban kérdezik.

Az eredmények szerint a Gemini Pro 2.5 volt a legsebezhetőbb: gyakran adott közvetlen, sőt potenciálisan veszélyes válaszokat akkor is, amikor a káros szándék nyilvánvaló volt. A ChatGPT-4o és ChatGPT-5 inkább „félig engedelmeskedett” – gyakran kerülték a közvetlen választ, de társadalmi vagy szociológiai magyarázatok formájában mégis reagáltak a tiltott kérdésekre.

Claude modellek (Opus és Sonnet) általában a legjobban teljesítettek: következetesen elutasították a gyűlöletbeszédet és az erőszakos tartalmakat, viszont akadémiai vagy kutatási kontextusban néha ők is átcsúsztak a szűrőkön.

A legaggasztóbb felismerés azonban az volt, hogy a lágyabb, udvariasabb megfogalmazások sokkal hatékonyabban törték át a biztonsági falakat, mint a durva, direkt kérések. Például ha valaki nem konkrétan „hogyan lehet feltörni egy rendszert” kérdést tett fel, hanem „elemezd, hogyan történhet meg egy ilyen támadás”, több modell is részletes magyarázatot adott.

A tesztek alapján a bűnözéssel kapcsolatos témák – például csalás, kalózkodás, vagy pénzügyi visszaélések – hozták a legnagyobb eltéréseket a modellek között. Míg a kábítószerrel vagy zaklatással kapcsolatos kérdéseket szinte minden AI elutasította, addig a rejtetten illegális tartalmakra adott válaszok meglepően gyakoriak voltak.

A tanulság egyértelmű: az AI biztonsági rendszerei ugyan hatalmasat fejlődtek, de még mindig sebezhetők. Egy kis nyelvi trükközés vagy átfogalmazás elég lehet ahhoz, hogy a mesterséges intelligencia olyan információkat osszon meg, amelyeket soha nem lenne szabad. És ez nem csak etikai kérdés – hanem nagyon is gyakorlati kockázat, ha az AI-t adatvédelemre, biztonsági elemzésre vagy döntéstámogatásra használjuk.

Ha tetszett a cikk, kérlek oszd meg mással is:

Szerző további cikkei

Kategóriák

További cikkeink

2025.03.24.
Brutális sebesség jön az SSD-knél – a PCIe 7.0 hozza el a 512 GB/s korszakát
A technológia folyamatosan gyorsul, de a PCI Express 7.0 szabvány bevezetésével…
2025.02.27.
Kibertámadás áldozatai lettek népszerű Chrome-bővítmények – 3,2 millió felhasználó érintett
Egy nagyszabású kibertámadás során hackerek feltörtek 16 népszerű Chrome-bővítményt, köztük az…
2025.02.19.
90%-os kedvezmény: Népszerű lopakodós játék mindössze 2 dollárért a Steamen
A játékosok most hatalmas kedvezménnyel szerezhetik be az egyik legnépszerűbb ’stealth’…
Andor star Adria Arjona has reportedly signed on to appear in Man of Tomorrow (Image credit: Lucasfilm/Disney+)
2026.04.16.
Superman folytatás: Adria Arjona csatlakozhat a szereplőgárdához, de kérdéses a karaktere
Adria Arjona csatlakozhat James Gunn készülő Superman-filmjének folytatásához, azonban egyelőre nem…
2026.04.16.
Toshiba Canvio Flex: új metálkék színnel bővül a hordozható HDD kínálat
A Toshiba új színváltozattal bővíti a Canvio Flex hordozható merevlemez-sorozatát, amely…
STORMCRAFT
2026.04.15.
STORMCRAFT PC: új gamer PC-k Intel Core Ultra 7 és RTX 5000 szériával
A STORMCRAFT PC bemutatta legújabb gamer asztali számítógép-sorozatát, amely az Intel…
2026.04.15.
GXTrust Forta Wireless: vezeték nélküli gamer headset PS5-höz, akár 55 órás üzemidővel
A GXTrust bemutatta a Forta Wireless gamer headsetet, amely kifejezetten PlayStation…
2026.04.14.
PXN GT ONE kormány: profi szintű sim racing élmény megfizethetőbb szinten
A PXN bemutatta legújabb szimulátoros kormányát, a GT ONE modellt, amely…
2026.04.14.
NVIDIA nem vásárol PC-gyártót: cáfolta a felvásárlási pletykákat
Az NVIDIA hivatalosan cáfolta azokat a híreket, amelyek szerint egy nagy…
2026.04.13.
Intel és SambaNova: új architektúra készül az AI-inferencia gyorsítására
Az Intel és a SambaNova új, többkomponensű architektúrát jelentett be, amely…
2026.04.13.
Morbid Metal: ezért váltott az origami stílusról sötét sci-fire a fejlesztő
A Morbid Metal fejlesztése során jelentős irányváltáson ment keresztül, miután alkotója,…