Miért blokkolják a híradók az AI-t az internetes archívumok elérésében?

Az archivált hírtartalmakat használó mesterséges intelligencia vállalatok súlyosan megsérthetik a szerzői jogi törvényeket, különösen az olyan vállalatok elleni aktív perek közepette, mint az OpenAI és a Perplexity.

Kilenc országban mintegy 245 globális hírszervezet próbálja blokkolni az Internet Archívum bejáróit. Ezek olyan automatizált szoftverrobotok, amelyek az Internet Archívum nyilvános felületén, a Wayback Machine-en rögzítik, megjelenítik és archiválják a weboldalak tartalmát.

Az archívum több mint egy billió weboldalt tartalmaz egészen 1996-ig, így a világ egyik legnagyobb kollektív nyilvános információforrása. Ide tartoznak a nagy hírszervezetek, például a CNN, a The New York Times, a The Guardian és a USA Today korábbi cikkei.

Ezeket a weboldalakat különféle célokra használják, például történészek elsődleges forrásaként, vagy a megjelenés utáni változások bizonyítására.

Számos hírszervezet igyekszik blokkolni a bejárókat, mivel az AI-cégek az archívum tartalmát nagy nyelvi modellek (LLM) képzésére használják tisztességes fizetés vagy engedély megszerzése nélkül.

Az Originality AI mesterséges intelligencia-észlelő cég elemzése szerint már több mint 20 nagy hírszervezet blokkolja az ia_archiverbotot, az Internet Archívum által a Wayback Machine számára használt fő webrobot.

Azonban az Archívum négy feltérképező robotja közül legalább egyet 241 globális híroldal blokkol. A blokkolt webhelyek jelentős része a USA Today Co, az Egyesült Államok legnagyobb újságkiadója tulajdonában van. Ez azt jelenti, hogy több száz helyi kiadványt gyakorlatilag eltávolítottak a történelmi feljegyzésekből.

Az archív tartalmak AI betanítására való felhasználásának kockázatai

Az archív hírtartalom hatalmas mennyiségű kiváló minőségű szöveget és képet kínál, hogy a nagyszabású AI-modelleket emberibb írásmódra tanítsák. Ez elérhető az URL és az API interfészen keresztül, amely lehetővé teszi a különböző szoftverek egymás közötti kommunikációját és adatkérést, hídként működve a rendszerek között.

Ez még egyszerűbbé teszi az AI-cégek számára az archivált adatok elérését és a modellek betanítását.

Egy másik előny, hogy az Internet Archívum tartalma már strukturált, hozzárendelt és dátumozott.

Az Internet Archívum adatainak nagy része már megtalálható a kulcsfontosságú AI-képzési adatkészletekben. Ez azonban nagy gyengeség a hírszervezetek számára, amelyek már perelnek olyan mesterséges intelligencia-cégeket, mint a Perplexity és az OpenAI a szerzői jogok esetleges megsértése miatt.

„A probléma az, hogy az internetes archívumban található Times-tartalmakat mesterséges intelligencia-cégek a szerzői jogi törvény megsértésével arra használják fel, hogy közvetlenül versenyezzenek velünk” – mondta Graham James, a The New York Times szóvivője, a The Next Web idézete szerint.

„A Times hatalmas mennyiségű erőforrást fektet be eredeti újságírások készítésére, és ezt a munkát nem szabad az engedélyünk nélkül felhasználni.”

Más szervezetek, mint például a The Guardian, konzervatívabb megközelítést alkalmaztak az archívum hozzáférésének korlátozása, nem pedig teljes blokkolása révén.

Az Internet Archive fenntartja, hogy ez „járulékos kár”

A The Wayback Machine igazgatója, Mark Graham azt állította, hogy ezek csupán „járulékos károk”, és az igazi bűnösök az AI-cégek, amelyek az Archívum felületein keresztül hozzáférnek a korábbi tartalmakhoz.

Az Archívum azonban saját intézkedéseket hozott ennek korlátozására. Ez magában foglalja egyes webhelyanyagok nagyszámú letöltésének megakadályozását és bizonyos esetekben az automatikus kivonás korlátozását.

Graham kiemelte, hogy az archívum kulcsfontosságú megőrzési módszerként működik. E nélkül a nem archivált cikkek felhatalmazás vagy felelősség nélkül szerkeszthetők. Ez bármi lehet az idézetek megváltoztatásától vagy eltávolításától, a hibák módosításától vagy a követelések és hivatalos nyilatkozatok átirányításától.

Jelenleg ezeket a változásokat a Wayback Machine követi nyomon.

Ez oda vezetett, hogy egyes hírszervezetek megpróbáltak együttműködni az Internet Archívummal, hogy elfogadható kompromisszumokat vagy kerülő megoldásokat találjanak, amelyek a hozzáférés korlátozását foglalják magukban, nem pedig kemény blokkokat.

Hasonlóképpen, a Harc a jövőért non-profit digitális jogvédő szervezet is petíciót indított, amelyet már 100 jelenlegi újságíró írt alá, hogy tiltakozzanak ez ellen a tiltás ellen. Ez különösen akkor van így, amikor a nyilvános nyilvántartások és a történelem egyre inkább vitatott.