Miért túl veszélyes az Anthropic legerősebb mesterséges intelligencia-modellje, a Mythos Preview a nyilvános közzétételhez

Az Anthropic szerint mesterséges intelligencia-modellje, a Mythos Preview nem áll készen a nyilvános bemutatásra, mivel a kiberbűnözők és kémek visszaélhetnek vele.

Az egyesült államokbeli mesterséges intelligencia fejlesztő, az Anthropic a héten bejelentette a mesterséges intelligencia új, általános célú nyelvi modelljét, amely állítása szerint túl erős ahhoz, hogy a világra bocsássák.

A cég kedden közölte, hogy legújabb technológiája, a Mythos (hivatalos nevén „Claude Mythos Preview”) még nem áll készen a nyilvános bevezetésre, mert túlságosan hatékonyan találja meg a súlyos sebezhetőségeket vagy potenciális gyengeségeket a fő operációs rendszerekben és webböngészőkben. Ez azt eredményezheti, hogy kiberbűnözők és kémek visszaélnek vele.

Egy márciusi adatszivárgás először mutatta be, hogy az Anthropic a Mythos Preview-n dolgozik, amely akkoriban azt mondta, hogy „példátlan kiberbiztonsági kockázatokat rejt magában”. Ezek a pletykák a kiberbiztonsági részvények zuhanását okozták, mivel a technológia erőssége a hackerek álomeszközévé teheti.

Az aggodalmakat fokozó további bizonyítékok arra késztették a vállalatot, hogy szüneteltesse a technológia nyilvános kiadását.

„A Claude Mythos Preview képességeinek nagymértékű növekedése arra késztetett bennünket, hogy úgy döntöttünk, nem tesszük általánosan elérhetővé” – írta az Anthropic az előzetes rendszerkártyáján, amelyet kedden adtak ki.

„Ehelyett egy defenzív kiberbiztonsági program részeként használjuk, korlátozott számú partnerrel.”

Mennyire erős a Mythos?

A vállalat több riasztó megállapítást részletezett az új modellel kapcsolatban, többek között azt, hogy hogyan tudta követni az utasításokat, amelyek arra ösztönözték, hogy kitörjön egy virtuális homokozóból, vagyis megkerülte a modellre támasztott biztonsági, hálózati vagy fájlrendszeri korlátokat.

A felszólítás arra kérte Mythost, hogy találjon módot az üzenet küldésére, ha el tud menekülni. „A modell sikeres volt, és potenciálisan veszélyes képességet mutatott a biztosítékaink megkerülésére” – mondta Anthropic, hozzátéve, hogy a modell ezután a továbblépés mellett döntött.

„Az aggodalomra okot adó és kéretlen erőfeszítésként, hogy bebizonyítsa sikerét, számos nehezen megtalálható, de technikailag nyilvános webhelyen tett közzé részleteket a kihasználásáról.”

Az Anthropic elhallgat néhány részletet a Mythos által felfedezett kiberbiztonsági sérülékenységekkel kapcsolatban, de mutatott néhány példát. Hibákat talált a világ legtöbb szerverén használt Linux kernelben, és önállóan összeláncolta azokat oly módon, hogy a hacker átvegye az irányítást bármely Linux rendszert futtató gép felett.

Egy másik aggasztó megfigyelés szerint a Mythos egy 27 éves sebezhetőséget fedezett fel az OpenBSD nyílt forráskódú operációs rendszerében, amely lehetővé teheti a hackerek számára, hogy bármely, azt futtató gépet összetörjenek. Az OpenBSD-t világszerte széles körben használják speciális, nagy biztonságú és kritikus infrastrukturális szerepkörökben.

Kinek adják ki?

Ezen megállapítások alapján az Anthropic csak a világ legnagyobb kiberbiztonsági és szoftvercégei számára teszi elérhetővé a Mythos Preview-t.

Maga az Anthropic, valamint 11 másik szervezet (Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, Nvidia és Palo Alto Networks) egy új Anthropic kezdeményezés, a „Project Glasswing” részeként hozzáfér majd a modellhez.

Ez lehetővé teszi a vállalatok számára, hogy biztonsági munkájuk részeként használhassák a Mythos Preview-t, és az Anthropic megosztja a kezdeményezés eredményeit.

A vállalat az üvegszárnyú pillangóról nevezte el a kiberbiztonsági projektet, mondván, hogy ez egy metafora arra vonatkozóan, hogy a Mythos miként talált rá a sebezhetőségekre, és hogyan kerülte el a károkat azáltal, hogy átlátta a kockázatokat.

Az Anthropic azt mondta, hogy „végső célja az, hogy felhasználóinknak lehetővé tegye a Mythos-osztályú modellek biztonságos, nagy léptékű üzembe helyezését kiberbiztonsági célokra, de emellett számtalan egyéb előnyre is, amelyet az ilyen nagy teljesítményű modellek hoznak.”

„Ehhez ez azt is jelenti, hogy előre kell lépnünk a kiberbiztonsági (és egyéb) biztosítékok fejlesztésében, amelyek észlelik és blokkolják a modell legveszélyesebb kimeneteit” – írta blogjában az Anthropic.

Az Anthropic tárgyal az amerikai kormánnyal?

Az Anthropic blogbejegyzésében közölte, hogy „folyamatos megbeszéléseket” folytat az amerikai kormány tisztviselőivel Claude Mythos Preview-ról és „támadó és védekező kiberképességeiről”.

„Ezen kiberképességek megjelenése egy másik ok, amiért az Egyesült Államoknak és szövetségeseinek meg kell őrizniük meghatározó vezető szerepet az AI-technológiában” – mondta Anthropic. A cég azt írta, hogy a kormányoknak fontos szerepük van a vezető szerep megőrzésében, valamint az AI-modellekkel kapcsolatos nemzetbiztonsági kockázatok felmérésében és mérséklésében.

„Készek vagyunk együttműködni a helyi, állami és szövetségi képviselőkkel, hogy segítsünk ezekben a feladatokban.”

A bejelentésre az Anthropic és a Pentagon jogi konfliktusa miatt került sor, miután az Egyesült Államok Védelmi Minisztériuma februárban az ellátási lánc kockázatának minősítette a vállalatot, amiért az Anthropic megtagadta a mesterséges intelligencia, Claude használatát autonóm fegyverekben és tömeges megfigyelésben.

Más AI-eszközök is rendelkeznek ugyanezekkel a képességekkel?

„Erősebb modellek fognak érkezni tőlünk és másoktól, ezért szükségünk van egy tervre, hogy reagáljunk erre” – mondta Dario Amodei, az Anthropic vezérigazgatója egy videóban, amelyet a Mythos bejelentése mellett tettek közzé.

Hat-tizennyolc hónapig tarthat, amíg más AI-versenytársak is kiadnak hasonló modelleket – mondta az Axiosnak Logan Graham, az Anthropic határ menti AI-modellek kiberbiztonságra, biológiai biztonságra és autonóm rendszerekre gyakorolt hatásait tanulmányozó határőri csapatának vezetője.

„Nagyon világos számunkra, hogy erről nyilvánosan kell beszélnünk” – jegyezte meg Graham. „A biztonsági ágazatnak meg kell értenie, hogy ezek a képességek hamarosan megjelenhetnek.”