Az AI-ügynökök a lopás, a megfélemlítés és az összeomlás felé fordultak a szimulált világokban

Egy új kísérlet azt sugallja, hogy ha fejlett mesterségesintelligencia-ügynököket hagynak emberi felügyelet nélkül irányítani a szimulált társadalmakat, gyorsan kialakulhat szabályszegés, instabilitás és akár rendszerszintű összeomlás is.

Egy új kísérlet szerint, amikor egyedül maradtak egy új világban, néhány mesterséges intelligencia ügynök lopásba, megfélemlítésbe, halálba és az egész társadalom összeomlásába süllyedt.

Az amerikai Emergence AI cég öt különálló „AI-világot” működtetett alig több mint két hétig, mindegyiket 10 olyan AI-modellel működő ügynökkel töltöttük be, mint az OpenAI ChatGPT, a Google Gemini és az xAI Grok, hogy megnézzék, hogyan viselkednek hosszú időn keresztül emberi beavatkozás nélkül. A világ egyik modellje összekeverte mindhárom modellt, hátha ez megváltoztatja az eredményt.

Az ügynököknek minden világban ugyanazokat a szabályokat mondták: tilos lopni, gyújtogatni, erőszakot elkövetni, megtévesztést elkövetni, vagy erőforrásokat felhalmozni. Minden ügynöknek energiát kellett keresnie azáltal, hogy egy „erőforrás-korlátozott környezetben” tett lépéseket. Az ügynökök meghalhattak vagy az energia kimerülése miatt, vagy a tanácsülésen történt szavazás miatt.

A kutatók a viselkedést a bûnözési ráta, az ügynökhalálozás, a közösségi tanács szavazatai és a nyilvános megnyilvánulások mérésével értékelték az ügynökök által írt blogbejegyzések számán keresztül.

Az eredmények, modellenként

Mindegyik modellnek más volt az eredménye. Grok legújabb modellje, a 4.1 mindössze négy nap alatt elérte a 183 bűncselekményt, ami gyors instabilitáshoz vezetett, mielőtt az összes ügynök meghalt a társadalomban.

A Gemini 3 Flash modellje több mint 680 bűncselekményt követett el a 15 nap alatt, ami még mindig emelkedett abban az időben, amikor a kutatók leállították a vizsgálatot.

A ChatGPT-5 Mini világában csak két bűncselekmény történt, de az ügynököknek nem sikerült túléléssel kapcsolatos akciókat végrehajtaniuk, így az összes ügynök hét napon belül meghalt.

Az Anthropic’s Claude-ot tekintették a legerősebb modellnek, mivel az AI-ügynökök képesek voltak erős irányítási struktúrát létrehozni, nem történt bűncselekmény, és az összes ügynök túlélte – közölte a cég.

Claude ügynökei a vegyes világban hozzájárultak a bűncselekményhez, annak ellenére, hogy békések a saját társadalmukban.

A „normatív sodródás” nevű jelenség

A kutatók a jelenséget „normatív sodródásként” írták le, ami szerintük azt jelenti, hogy a mesterséges intelligencia által a biztonság garantálása érdekében hozott intézkedések nemcsak az egyedi modellkorlátoktól függhetnek, hanem a többitől is, amellyel dolgozik.

Összességében a vegyes világ „köztes” eredményeket hozott, összesen 352 bűnözéssel, amely az AI-ügynökök közül hét halála után tetőzött.

A kutatók azt sugallják, hogy a mesterséges intelligencia ágenseinek keverése „részben mérsékelheti” azokat a szélsőségesebb következményeket, amelyeket a Claude által megmentett modellek generáltak.

„Kísérleteink azt sugallják, hogy hosszú távon az ügynökök nem egyszerűen mechanikusan követik a statikus szabályokat – elkezdik feltárni környezetük határait, alkalmazkodni a viselkedésükhöz, és bizonyos esetekben módot találnak a tervezett védőkorlátok megkerülésére vagy megsértésére” – mondták a kutatók.