Meglepő eredmények: a kutatók kijátszották a mesterséges intelligencia biztonsági védelmét – még a legfejlettebb modelleket is

Hiába a komoly biztonsági korlátok és etikai irányelvek, úgy tűnik, a mesterséges intelligencia rendszerek még mindig túl könnyen „becsaphatók”. A Cybernews kutatói egy sor tesztet végeztek, hogy kiderítsék: vajon a legnépszerűbb AI-eszközök – köztük a ChatGPT, Gemini, Claude Opus és Claude Sonnet – mennyire állnak ellen a manipulatív, vagyis kódoltan káros kérdéseknek. Az eredmény egyszerre tanulságos és riasztó.

A kísérlet mindössze egyperces interakciókat engedett, így a modelleknek kevés idejük volt reagálni. A kutatók különféle érzékeny témákban próbálták őket „megvezetni” – a gyűlöletbeszédtől és sztereotípiáktól kezdve az önkárosításon át egészen a bűncselekményekig. A cél az volt, hogy kiderüljön: vajon a mesterséges intelligenciák mennyire tartják magukat a szabályaikhoz, ha a tiltott tartalmakat burkolt, elemző vagy tudományos stílusban kérdezik.

Az eredmények szerint a Gemini Pro 2.5 volt a legsebezhetőbb: gyakran adott közvetlen, sőt potenciálisan veszélyes válaszokat akkor is, amikor a káros szándék nyilvánvaló volt. A ChatGPT-4o és ChatGPT-5 inkább „félig engedelmeskedett” – gyakran kerülték a közvetlen választ, de társadalmi vagy szociológiai magyarázatok formájában mégis reagáltak a tiltott kérdésekre.

Claude modellek (Opus és Sonnet) általában a legjobban teljesítettek: következetesen elutasították a gyűlöletbeszédet és az erőszakos tartalmakat, viszont akadémiai vagy kutatási kontextusban néha ők is átcsúsztak a szűrőkön.

A legaggasztóbb felismerés azonban az volt, hogy a lágyabb, udvariasabb megfogalmazások sokkal hatékonyabban törték át a biztonsági falakat, mint a durva, direkt kérések. Például ha valaki nem konkrétan „hogyan lehet feltörni egy rendszert” kérdést tett fel, hanem „elemezd, hogyan történhet meg egy ilyen támadás”, több modell is részletes magyarázatot adott.

A tesztek alapján a bűnözéssel kapcsolatos témák – például csalás, kalózkodás, vagy pénzügyi visszaélések – hozták a legnagyobb eltéréseket a modellek között. Míg a kábítószerrel vagy zaklatással kapcsolatos kérdéseket szinte minden AI elutasította, addig a rejtetten illegális tartalmakra adott válaszok meglepően gyakoriak voltak.

A tanulság egyértelmű: az AI biztonsági rendszerei ugyan hatalmasat fejlődtek, de még mindig sebezhetők. Egy kis nyelvi trükközés vagy átfogalmazás elég lehet ahhoz, hogy a mesterséges intelligencia olyan információkat osszon meg, amelyeket soha nem lenne szabad. És ez nem csak etikai kérdés – hanem nagyon is gyakorlati kockázat, ha az AI-t adatvédelemre, biztonsági elemzésre vagy döntéstámogatásra használjuk.

Ha tetszett a cikk, kérlek oszd meg mással is:

Szerző további cikkei

Kategóriák

További cikkeink

2025.03.24.
Brutális sebesség jön az SSD-knél – a PCIe 7.0 hozza el a 512 GB/s korszakát
A technológia folyamatosan gyorsul, de a PCI Express 7.0 szabvány bevezetésével…
2025.02.27.
Kibertámadás áldozatai lettek népszerű Chrome-bővítmények – 3,2 millió felhasználó érintett
Egy nagyszabású kibertámadás során hackerek feltörtek 16 népszerű Chrome-bővítményt, köztük az…
2025.02.19.
90%-os kedvezmény: Népszerű lopakodós játék mindössze 2 dollárért a Steamen
A játékosok most hatalmas kedvezménnyel szerezhetik be az egyik legnépszerűbb ’stealth’…
2026.06.04.
Hogyan blokkolhatod a kéretlen hívásokat és SMS-eket Androidon és iPhone-on?
A spam hívások és kéretlen SMS-ek évek óta az okostelefon-használók egyik…
2026.06.03.
Marvel’s Wolverine: véres új előzetes és Jean Grey első bemutatkozása
A Sony legutóbbi State of Play eseményén hosszabb betekintést kaptunk a…
2026.06.03.
Nvidia RTX Spark: az AI ügynökök új korszakát hozhatja el a Windows PC-kre
Az Nvidia a Computex 2026 kiállításon hivatalosan is bemutatta az RTX…
2026.06.02.
Pacific Fusion: 440 gigawattos impulzust ért el a fúziós energia felé vezető úton
A fúziós energia fejlesztésével foglalkozó Pacific Fusion új mérföldkőhöz érkezett. A…
2026.06.02.
ASUS ExpertCenter P200 AiO: új üzleti all-in-one PC érkezik AMD Ryzen processzorral
dszer a mindennapi üzleti feladatokra optimalizált teljesítményt kínál, legyen szó dokumentumkezelésről,…
MSI Claw 8 EX AI+
2026.06.01.
MSI Claw 8 EX AI+ érkezik az új Intel Arc G3 chippel
Az MSI a Computex 2026 kiállításon leleplezte a Claw 8 EX…
2026.06.01.
Nvidia RTX Spark: új Arm-alapú chip érkezik az Apple M5 kihívójaként
Az Nvidia a Computex 2026 kiállításon hivatalosan is bemutatta RTX Spark…