Titel von Penguin Randomhouse am häufigsten in KI-Software vertreten

Von: Sven Trautwein

Tausende Bücher dienten als Textgrundlage für eine Software, die beispielsweise in ChatGPT genutzt wird. Allen voran Titel von Penguin Randomhouse.

Prominente Autoren, darunter Margaret Atwood, Stephen King oder Sarah Silverman, haben in den vergangenen Monaten gegen die Nutzung ihrer Texte als Grundlage für Softwaremodelle, die beispielsweise von ChatGPT genutzt werden, geklagt. Auf amerikanischer Seite schlossen sich ihnen rund 8.000 Autoren an. Doch welche Verlage betrifft dies? Eine Suche in der Books3 Datenbank, die als Grundlage für Metas LLaMA und ChatGPT von OpenAI dient, zeigt, dass bestimmte Verlage diese Rangliste anführen.

Über 70.000 E-Books durchforstet

Mehr als 70.000 E-Books wurden unerlaubt genutzt, um Sprachmodelle für Künstliche Intelligenz mit Texten zu füttern. © Jonathan Raa/Imago

So hat sich Peter Schoppert, Geschäftsführer von NUS Press, ein wenig mit den Datensätzen auseinandergesetzt. Mit weiterer Hilfe konzentrierte er sich auf rund 72.000 E-Books, die nach Autorenname, Verlagsname und ISBN durchsucht wurden. Als Grundlage, so das Online-Magazin AI and Copyright, dienten vornehmlich englischsprachige E-Books. Die Auswertung ergab laut Schoppert ein interessantes Bild.

Penguin Randomhouse und Harper Collins auf Platz 1 und 2

Der Verlag mit der größten Anzahl an E-Book-Titeln in dieser gefilterten Liste ist die Penguin Publishing Group mit 6.866 ISBN, gefolgt von Harper Collins mit rund 5.800 Titeln und Random House Publishing mit rund 3.400 ISBN. Die aktuelle Auswertung kann hier eingesehen werden.

Auch die Univerlage sind laut Schoppert nicht verschont geblieben. So taucht die Columbia University Press mit 899 Tiiteln vor der Yale University Press mit 554 und Princeton UP mit 376 Titeln in der Liste auf. Dies zeigt laut Schoppert, dass die Annahme, die Texte, die für das Training der Software genutzt wurden, hauptsächlich Wikipedia und Reddit-Einträge seien, sowie Millionen Wörter aus dem Internet, falsch ist.

Mehr als 72.000 illegale E-Books

Es wurden mehr als 72.000 illegal kopierte E-Book-Inhalte gefunden, die zur Schulung von Large Language Models (LLMs) verwendet wurden. Das Urheberrecht blieb hier auf der Strecke. Kürzlich wandte sich auch Horror-Schriftsteller Stephen King mit einem Artikel in The Atlantic an die Leserschaft, dass er keine Zustimmung zur Nutzung seiner Texte gegeben hatte.

Die Authors Guild, Amerikas älteste und größte Berufsorganisation für Schriftsteller, passte kürzlich ihren Verlagsautorenvertrag an. Ein Zusatz verbietet ab sofort das Trainieren der Software mit diesen Texten. Doch ob sich KI-Unternehmen daran halten werden, ist offen, heißt es auf AI and Copyright. In der Vergangenheit hatten sich diese auch an raubkopierten Inhalten bedient. Kürzlich gelang Autoren, darunter Stephen King, ein Teilerfolg. Eine kleine Datenbank mit dem Namen „Prosecraft“ wurde vom Netz genommen.

