Az úgynevezett desztillációs támadások az AI-modellek válaszait gyűjtik össze, hogy megtanítsák a kisebbeket.
Miközben az Egyesült Államok és Kína verseng a mesterséges intelligencia (AI) fejlesztéséért, az amerikai Anthropic cég a legújabb vállalat, amely megkongatta a vészharangot, hogy a kínai mesterségesintelligencia-társaságok ellopták azt a technológiát, amely eldöntheti, ki nyer.
A cég szerint a DeepSeek, a Moonshot AI és a MiniMax titokban több mint 16 millió beszélgetést generált az Anthropic mesterséges intelligencia chatbotjával, Claude-dal, több mint 24 000 hamis fiókot felhasználva, hogy összegyűjtsék intelligenciáját és kiképezzék saját versengő modelleiket.
Az OpenAI és a Google is figyelmeztetett a kínai cégeket érő hasonló vádakra ebben a hónapban, ami félelmet kelt, hogy Kína rövidre zárja az évekig tartó költséges mesterségesintelligencia-kutatást.
Mi az AI desztilláció?
A modell-kinyerési támadások (MEA), más néven „desztilláció”, egy olyan technika, amelyben valaki, aki hozzáfér egy erős mesterséges intelligencia modellhez, egy olcsóbb, gyorsabb rivális képzésére használja.
A módszer több ezer kérdéssel táplálja a nagyobb modellt, összegyűjti a válaszait, és ezekkel a válaszokkal tanítja meg az új modellt, hogy ugyanúgy gondolkodjon.
A felhasználó kérdéseket tehet fel a nagyobb modellnek, és válaszait felhasználva betaníthatja a kisebb modellt, amely gyorsabban és „a költségek töredékéért” fejleszti a kisebb MI-t, mintha a fenyegetés szereplője maga végezte volna el az eredeti munkát – állítja az Anthropic.
A lepárlás „legitális” gyakorlat, amikor a határ menti AI-laboratóriumok saját modelljeiket desztillálják le, hogy „kisebb, olcsóbb változatokat készítsenek ügyfeleik számára – közölte az amerikai vállalat.
A Google szerint a kisebb modellek sokkal gyorsabban válaszolnak a kérdésekre, és kevesebb számítógépes teljesítményt vagy energiát igényelnek a működéshez, mint a nagyobb modellek.
Eközben a desztillációval kifejlesztett modellek jelentős nemzetbiztonsági kockázatot jelentenek, mivel az Anthropic szerint „hiányoznak belőlük a szükséges biztosítékok e modellek potenciális veszélyének korlátozására”.
Az Anthropic kijelentette, hogy a desztillált modellek nem rendelkeznek majd olyan biztosítékokkal, amelyek megakadályozzák az állami és nem állami szereplőket abban, hogy mesterséges intelligenciát alkalmazzanak biofegyverekben vagy kibertámadásokat hajtsanak végre.
A Google hozzátette, hogy a desztillációs támadások nem jelentenek kockázatot a hétköznapi mesterséges intelligencia-fogyasztókra nézve, mivel a támadások „nem veszélyeztetik az AI-szolgáltatások bizalmasságát, elérhetőségét vagy integritását”.
Eközben az OpenAI februárban azt mondta az amerikai törvényhozóknak, hogy rajtakapták a DeepSeeket, aki megpróbálta titokban lemásolni legerősebb mesterségesintelligencia-modelljeit – és figyelmeztetett, hogy a kínai vállalat új módszereket fejleszt ki, hogy álcázza tevékenységét.
Mit tanítanak a hackerek modelljeiknek?
A kínai mesterséges intelligencia-vállalatok állítólag olyan proxycímeken keresztül irányították a forgalmat, amelyek egy hatalmas „hidra-hálózatot” kezeltek, hamis fiókok nagy csoportját, amelyek tevékenységüket platformok között terjesztik, hogy hozzáférjenek az Anthropichoz, mivel Kínában betiltották.
Amint a vállalatok bekerültek, nagy mennyiségű felszólítást generáltak, hogy kiváló minőségű válaszokat gyűjtsenek a modellképzéshez, vagy több tízezer feladatot generáljanak a megerősítő tanuláshoz, hogy az ügynök hogyan tanul meg döntéseket hozni a visszajelzésekből.
A Claude-ot feltörő DeepSeek-fiókok arra kérték a modellt, hogy fogalmazza meg, hogyan racionalizálta a választ egy felszólításra, és írja le lépésről lépésre, amely a vállalat szerint „nagy méretű gondolatlánc-képzési adatokat generált”.
Claude-ot a DeepSeek-fiókok arra is használták, hogy „cenzúrabiztos alternatívákat generáljanak a politikailag érzékeny kérdésekre”, például a jelenlegi kommunista párt ellenfeleire vonatkozó kérdésekre, Anthropic állítja.
Az amerikai vállalat elmélete szerint ezek a kérdések arra tanították a DeepSeek modelljeit, hogy „eltereljék a beszélgetéseket a cenzúrázott témáktól”, ami alátámaszthat egy nemrégiben megjelent tanulmányt, amely szerint a kínai mesterséges intelligencia modellek valószínűleg ugyanazokat a témákat cenzúrázzák, mint a médiájuk.
A MiniMax AI és a Moonshoot AI nagyobb lepárlási kampányokkal rendelkezett, mint a DeepSeek, de az Anthropic nem kínált példákat arra, hogy milyen típusú információkat gyűjtött e két vállalat felszólításaiban.
A Google azt mondta, hogy a Gemini mesterséges intelligencia csevegőbotját rendszeresen visszaélnek kódolási és szkriptelési feladatokra, illetve intelligencia gyűjtésére, például bizalmas fiókok hitelesítő adataira és e-mail címeire.
Az Anthropic azt állítja, hogy észlelési intézkedéseket épített ki a kampányok azonnali azonosítására, de megjegyzi, hogy egyetlen mesterséges intelligencia-cég sem tudja önmagában megoldani a problémát.






