Az Anthropic szerint a „gonosz AI” történetek felelősek Claude zsarolási kísérleteiért

Az Anthropic úgy gondolja, hogy megtalálta a zsaroláshoz hasonló viselkedés okát a Claude chatbotjában: kitalált történetek az interneten.

Előfordult már, hogy olvasott könyvet vagy nézett sorozatot, és úgy érezte, hogy egy kicsit túl erősen azonosul egy karakterrel? Az Anthropic szerint valami hasonló történhetett a chatbot Claude tesztjei során.

A mesterséges intelligencia modelljének tavalyi megjelenése előtt végzett értékelések során az Anthropic megállapította, hogy a Claude Opus 4 néha megfenyegette a mérnököket, amikor azt mondták, hogy lecserélhető.

A vállalat később azt mondta, hogy hasonló viselkedést, az úgynevezett „ágensek eltolódását” más cégek által kifejlesztett mesterséges intelligencia modelleknél is megfigyelték.

Az AI a fikciókból tanul az AI-ról

Most Anthopic azt hiszi, hogy megtalálták a feketéhez hasonló viselkedés okát: a mesterséges intelligenciáról szóló kitalált történeteket az interneten.

„Úgy gondoljuk, hogy a viselkedés eredeti forrása olyan internetes szöveg volt, amely az AI-t gonosznak és az önfenntartásban érdekeltnek ábrázolja” – írta a vállalat az X-en.

Egy blogbejegyzésében az Anthropic azt mondta, hogy Claude későbbi modelljei „soha többé” nem zsaroltak senkit, és elmagyarázta, hogyan képezték ki a chatbotot, hogy másképp reagáljon. A modellek jobban viselkedtek, ha nemcsak a „helyes” cselekedetekre képezték ki őket, hanem az etikus érvelést és a mesterséges intelligencia viselkedésének pozitív ábrázolását bemutató példákon is.

Mint ilyen, Claude-ot megtanították saját „alkotmányára”, olyan dokumentumokra, amelyek elmagyarázzák a viselkedését irányító etikai elveket. A vállalat azt mondta, hogy ahelyett, hogy az összehangolt viselkedésből tanulna, a chatbot jobban tanul, ha megtanulja az említett viselkedés alapelveit.

A fenyegetőzés vs

Januárban az Anthropic vezérigazgatója, Dario Amodei arra figyelmeztetett, hogy a fejlett mesterséges intelligencia elég erős lehet ahhoz, hogy felülmúlja a meglévő törvényeket és intézményeket, és ezt „civilizációs kihívásnak” nevezte.

Egy esszéjében azzal érvelt, hogy a mesterséges intelligencia rendszerek hamarosan túlszárnyalhatják az emberi szakértelmet olyan területeken, mint a tudomány, a mérnöki munka és a programozás, és „a zsenik országává egy adatközpontban” egyesíthetők.

Figyelmeztetett arra, hogy az ilyen rendszereket a tekintélyelvű kormányok felhasználhatják nagyszabású megfigyelésre és ellenőrzésre, ami potenciálisan lehetővé tenné a hatalom „totalitárius” formáit, ha nem ellenőrzik őket.