Inzwischen sollte es allseits bekannt sein, dass für das Training von Large Language Models (LLMs) wie GPT urheberrechtlich geschützten Inhalten verwendet werden. Dazu zählen unter anderem Bücher, Romane, Sachbücher (oft aus öffentlichen Datenbanken oder illegalen Leaks), Zeitungs- & Magazinartikel, wissenschaftliche Artikel & Studien (aus Plattformen wie Springer, Elsevier oder ArXiv), Blogs, Wikipedia, News-Websites, Social-Media-Beiträge (wie Reddit, Facebook & LinkedIn) und für das Codieren Open-Source-Code aus GitHub & Stack Overflow. Damit werden die Texte der generativen KIs immer besser! Für Bild, Audio und Video gilt das Ganze ebenso.
Dass das die Urheber der Texte, Bilder, Songs usw. nicht so ohne weiters auf sich sitzen lassen, liegt in der Natur des Kapitalismus und man möchte Firmen wie OpenAI, Mistral oder Deepseek dringend daran hindern, es zu tun oder zumindest am Geldkuchen partizipieren. Vor allem deshalb, weil viele dieser Inhalte ohne explizite Zustimmung der Urheber verwendet werden. Das führt zu rechtlichen Konflikten, da die KI-Modelle die Werke nicht einfach nur „lesen“, sondern daraus lernen und ähnliche Inhalte generieren können.

OpenAI & Co berufen sich aber das US Fair Use-Konzept, welches ein wesentlicher Bestandteil des Urheberrechts in Amerika ist. Es erlaubt die "eingeschränkte" Nutzung urheberrechtlich geschützter Werke ohne vorherige Genehmigung des Rechteinhabers. Es basiert auf § 107 des U.S. Copyright Act und dient dazu, eine Balance zwischen den Rechten der Urheber und dem öffentlichen Interesse an der Nutzung von geschützten Werken zu schaffen. Weiters behauptet man, dass das Training primär darauf abzielt, Muster, Sprache und Konzepte zu verstehen und nicht darauf, einzelne Werke zu speichern oder wörtlich wiederzugeben.
Es gibt ein paar Beispiele für FAIR USE:
Kritiken und Rezensionen: Ein Buchkritiker darf kurze Passagen zitieren.
Parodien und Satire: Eine humoristische Abwandlung eines Songs kann Fair Use sein.
Bildung und Wissenschaft: Lehrer dürfen Teile eines Buches im Unterricht verwenden.
News und Berichterstattung: Journalisten können Teile eines urheberrechtlich geschützten Videos in einer Nachrichtenanalyse nutzen.
Genau anhand dieser Beispiele versucht man Argumente für Fair Use zu finden:
Transformative Nutzung
LLMs reproduzieren nicht einfach Werke, sondern lernen Sprachmuster und generieren neue Inhalte.
Ähnlich wie eine Zusammenfassung oder eine Parodie könnte das als "transformativer" Gebrauch gelten.
Kein wirtschaftlicher Schaden für Urheber
LLMs ersetzen keine Bücher oder Zeitungsartikel direkt.
Sie nutzen das Material nicht als Kopie, sondern zur Wissensmodellierung.
Vergleich mit Suchmaschinen & Text-Mining
Google und andere Suchmaschinen indexieren und analysieren ebenfalls Inhalte, was als Fair Use gilt.
LLMs könnten in eine ähnliche Kategorie fallen.
Natürlich gibt es auch Gegenargumente:
Mangelnde Zustimmung der Urheber
Viele Autor:innen, Journalist:innen und Künstler:innen haben nie zugestimmt, dass ihre Werke für KI-Training genutzt werden.
Es gibt keine automatische Lizenzierung oder Vergütung.
Potenzielle Marktschädigung
Wenn KI-generierte Inhalte Originalwerke ersetzen (z. B. KI-geschriebene Artikel statt menschlicher Autoren), könnte das wirtschaftlicher Schaden für Kreative sein.
Reproduktion geschützter Inhalte
Manche LLMs können längere Passagen wörtlich wiedergeben, wenn sie oft genug im Training vorkamen – was eine Urheberrechtsverletzung sein kann.
Vor allem in Großbritannien gehen hier aktuell die Wogen hoch, denn es wird ein sogenanntes "Opt-out" im Urheberrecht eingeführt. Das bedeutet das Rechteinhaber ihre Werke von bestimmten Nutzungen auszuschließen müssen. Sprich ein System darf die Werke solange verwenden, bis der Urheber es nicht explizit untersagt.
Zurück in die USA. Fair Use ist eine rechtliche Verteidigung, kein automatisches Recht. Ob eine Nutzung tatsächlich unter Fair Use fällt, wird oft erst durch Gerichte entschieden. So auch bei den KI-Trainings! Jedoch gibt es keine festen Prozentsätze oder Längenangaben, die Fair Use garantieren oder eben nicht!
Das österreichische Urheberrecht kennt kein direktes Äquivalent zum „Fair Use“. Es gibt aber Schranken des Urheberrechts, z. B. das Zitatrecht oder die Nutzung zu wissenschaftlichen und schulischen Zwecken. Ich gehe davon aus, dass die EU hier Regularien bringen wird - jedoch sollte man nach einem Gleichgewicht zwischen der Förderung von KI-Innovation und dem Schutz der Rechte von Kreativen finden.
Die Zukunft könnte meiner Ansicht nach in 2 Richtungen gehen:
Strengere Regulierung & Lizenzmodelle – Gesetze und Klagen könnten dazu führen, dass KI-Unternehmen Inhalte lizenzieren und Urheber vergüten müssen. Erste Verträge mit Verlagen zeigen, dass dies möglich ist.
Technologische Anpassungen & Transparenz – Künstliche Intelligenz könnte gezielt mit offenen, lizenzierten oder eigens erstellten Daten trainiert werden, um Urheberrechte zu respektieren. Wenn aber die Grundlage der LLMs synthetische Daten sind, dann wird das für die Kreativität an sich zum Problem!
Alles in allem geht es wie sooft um den schnöden Mammon und den wird die KI vermutlich nicht so schnell abschaffen!
Comments