Rache der Autoren: Stephen King und weitere Autoren bringen Buch-Datenbank zur Schließung

Von: Sven Trautwein

Weltweit werden Tausende Bücher genutzt, um KI-Programme zu füttern. Berühmte Autoren laufen dagegen Sturm.

Vor Autoren macht Künstliche Intelligenz (KI) keinen Halt. Immer wieder gibt es Meldungen, dass künstlich erzeugte Bücher mit keinem richtigen Inhalt Online-Shops fluten. Doch woher haben die Softwarefirmen, die diese KI-gestützten Anwendungen anbieten, die Textinhalte? Texte von berühmten Autoren, darunter Stephen King, Zadie Smith und Margaret Atwood wurden ungefragt verwendet, um eine Textbasis zu schaffen. Vielen Autoren gefällt dieses Vorgehen nicht.

Bücher von Stephen King und weiteren Tausend Autoren dienen als Grundlage für KI-Software. Die Autoren wehren sich. © Jens Kalaene/dpa

Das größte Problem in Zusammenhang mit der Künstlichen Intelligenz ist, dass sie im Geheimen entwickelt wird. Um nun eine Art menschenähnliche Antwort auf Fragen zu bekommen, bearbeiten Systeme wie ChatGPT eine riesige Textmenge. Der wirkliche Umfang der genutzten Texte, mit denen die Anwendungen gefüttert wurden, ist nur wenigen Mitarbeitern von Meta oder OpenAI bekannt.

Einige Texte kommen von Wikipedia, andere von dem öffentlich zugänglichen Project Gutenberg, bei dem rund 70.000 Bücher kostenlos gelesen und heruntergeladen werden können. Kürzlich, so schreibt das Magazin The Atlantic, wurde im Juli in Kalifornien Klage gegen Meta eingereicht. Die Autoren Sarah Silverman („The Bedwetter“), Richard Kadrey („Höllenthron“) und Christopher Golden („Road of Bones – Straße des Todes“) sind dagegen, dass Firmen ihre Bücher nutzen, um die Software zu trainieren. Bisher war es jedoch noch nicht möglich, genau zu erkennen, ob die Textstellen wirklich genutzt wurden.

Datenbank mit mehr als 170.000 Büchern füttert KI

Doch eine Analyse zeigte, dass die Software wirklich Textstellen der Autoren nutzte. Weitere Untersuchungen zeigten, dass rund ein Drittel der Texte, die als Datengrundlage in „Books3“ genutzt werden, der Unterhaltungsliteratur und zwei Drittel dem Sachbuchbereich entstammen. Mehr als 170.000 Titel umfasst die „Books3“-Datenbank, so der Guardian. Auch Titel von Stephen King, Jonathan Franzen („Die Korrekturen“) und Haruki Murakami („Honigkuchen“) finden sich in der Datenbank.

OpenAI, das Unternehmen hinter dem KI-Chatbot ChatGPT, wurde ebenfalls beschuldigt, sein Modell auf urheberrechtlich geschützten Werken zu trainieren, so der Guardian. Hinweise auf die Quellen der Trainingsdaten von OpenAI finden sich in einem im Jahr 2020 von dem Unternehmen veröffentlichten Dokument, das zwei „internetbasierte Buchkorpora“ erwähnt, von denen eines den Namen „Books2“ trägt und schätzungsweise fast 300.000 Titel enthält. Eine Klage aus dem Juni besagt, dass die einzigen Websites, die so viel Material anbieten, „Schattenbibliotheken“ wie Library Genesis (LibGen) und Z-Library sind, über die Bücher in großen Mengen über illegales Filesharing beschafft werden können. Dabei kann Künstliche Intelligenz auch nützlich sein, wie diese vier Bücher verraten.

Während ein Sprecher von Meta sich weigerte, einen Kommentar zur Verwendung von „Books3“ durch das Unternehmen gegenüber The Atlantic abzugeben, bestätigte ein Sprecher von Bloomberg, dass das Unternehmen tatsächlich den Datensatz verwendet hat. „Wir werden den Books3-Datensatz nicht unter den Datenquellen einschließen, die zur Schulung zukünftiger Versionen von BloombergGPT verwendet werden“, fügten sie hinzu. Für Autor Andrew McCarten („Going Zero“) steht fest, dass wir mit KI ins Verderben rennen.

Bücher von Stephen King bei Prosecraft

Auch die Datenbank „Prosecraft“ verfügte über 25.000 Bücher, darunter zwanzig von Horror-Meister Stephen King. 2018 schrieb der Gründer von Prosecraft, dass sie eine große Literaturdatenbank aufbauen. Woher die Daten stammten und ob Verwertungsrechte vorlagen, wurde nicht mitgeteilt, schreibt yahoo!. Mehr als 8.000 Autoren wehrten sich kürzlich gegen die Nutzung ihrer Werke. Anfang August wurde „Prosecraft“ geschlossen. Doch das dürfte für die Autoren nicht ausreichen.