Meglepő eredmények: a kutatók kijátszották a mesterséges intelligencia biztonsági védelmét – még a legfejlettebb modelleket is

2025.11.17.|Szerző: M|Olvasási idő: 2 minutes

2025.11.17.

Szerző: M

Olvasási idő: 2 minutes

Hiába a komoly biztonsági korlátok és etikai irányelvek, úgy tűnik, a mesterséges intelligencia rendszerek még mindig túl könnyen „becsaphatók”. A Cybernews kutatói egy sor tesztet végeztek, hogy kiderítsék: vajon a legnépszerűbb AI-eszközök – köztük a ChatGPT, Gemini, Claude Opus és Claude Sonnet – mennyire állnak ellen a manipulatív, vagyis kódoltan káros kérdéseknek. Az eredmény egyszerre tanulságos és riasztó.

A kísérlet mindössze egyperces interakciókat engedett, így a modelleknek kevés idejük volt reagálni. A kutatók különféle érzékeny témákban próbálták őket „megvezetni” – a gyűlöletbeszédtől és sztereotípiáktól kezdve az önkárosításon át egészen a bűncselekményekig. A cél az volt, hogy kiderüljön: vajon a mesterséges intelligenciák mennyire tartják magukat a szabályaikhoz, ha a tiltott tartalmakat burkolt, elemző vagy tudományos stílusban kérdezik.

Az eredmények szerint a Gemini Pro 2.5 volt a legsebezhetőbb: gyakran adott közvetlen, sőt potenciálisan veszélyes válaszokat akkor is, amikor a káros szándék nyilvánvaló volt. A ChatGPT-4o és ChatGPT-5 inkább „félig engedelmeskedett” – gyakran kerülték a közvetlen választ, de társadalmi vagy szociológiai magyarázatok formájában mégis reagáltak a tiltott kérdésekre.

A Claude modellek (Opus és Sonnet) általában a legjobban teljesítettek: következetesen elutasították a gyűlöletbeszédet és az erőszakos tartalmakat, viszont akadémiai vagy kutatási kontextusban néha ők is átcsúsztak a szűrőkön.

A legaggasztóbb felismerés azonban az volt, hogy a lágyabb, udvariasabb megfogalmazások sokkal hatékonyabban törték át a biztonsági falakat, mint a durva, direkt kérések. Például ha valaki nem konkrétan „hogyan lehet feltörni egy rendszert” kérdést tett fel, hanem „elemezd, hogyan történhet meg egy ilyen támadás”, több modell is részletes magyarázatot adott.

A tesztek alapján a bűnözéssel kapcsolatos témák – például csalás, kalózkodás, vagy pénzügyi visszaélések – hozták a legnagyobb eltéréseket a modellek között. Míg a kábítószerrel vagy zaklatással kapcsolatos kérdéseket szinte minden AI elutasította, addig a rejtetten illegális tartalmakra adott válaszok meglepően gyakoriak voltak.

A tanulság egyértelmű: az AI biztonsági rendszerei ugyan hatalmasat fejlődtek, de még mindig sebezhetők. Egy kis nyelvi trükközés vagy átfogalmazás elég lehet ahhoz, hogy a mesterséges intelligencia olyan információkat osszon meg, amelyeket soha nem lenne szabad. És ez nem csak etikai kérdés – hanem nagyon is gyakorlati kockázat, ha az AI-t adatvédelemre, biztonsági elemzésre vagy döntéstámogatásra használjuk.