
Fachanwältin für Urheber- und Medienrecht Profil ansehen
Zur Aufnahme urheberrechtlich geschützter Werke in KI-Training-Datensets – Erstellt für die Wissenschaft, genutzt durch kommerzielle Unternehmen?
Die Entscheidung des Landgerichts Hamburg (Urteil vom 27. September 2024, Az. 310 O 227/23) in dem Verfahren des Fotografen Robert Kneschke gegen den gemeinnützigen Verein LAION e.V. („LAION“) hat weltweit hohe mediale Aufmerksamkeit erlangt. Nach Auffassung vieler Kommentatoren wurde erstmalig in Deutschland (möglicherweise auch Europa) über die Nutzung von urheberrechtlich geschützten Werken in Zusammenhang mit dem Training von (generativer) Künstlicher Intelligenz („KI“) entschieden.
Tatsächlich geht es bei dieser Entscheidung jedoch gerade nicht um die Bewertung einer Nutzung eines urheberrechtlich geschützten Werkes im Rahmen eines Trainings von KI. Bei genauerem Hinsehen war das Verfahren durch den klägerischen Antrag wie auch den beweisbaren Sachvortrag des Klägers vielmehr auf die einem möglichen KI-Training vorgelagerten Handlungen beschränkt.
Der Fall ist dennoch äußerst interessant: das Gericht klärt erste Fragen der urheberrechtlichen Schranke für „Text und Datamining“ (TDM), insbesondere zu Zwecken der wissenschaftlichen Forschung. Dabei wird offensichtlich, vor welchen Herausforderungen Rechteinhaber stehen, wenn sie ihre Werke wirksam vor der Aufnahme in ein KI-Training schützen wollen. Insbesondere die Möglichkeiten eines arbeitsteiligen Handelns von Wissenschaft und kommerziellen Unternehmen sowie die Vornahme von Handlungen in unterschiedlichen (möglicherweise für die KI-Betreiber vorteilhaften) Jurisdiktionen können eine Durchsetzbarkeit von Urheberrechten erschweren.
Rechteinhaber wie auch Anbieter von KI-Systemen sollten ihre Schritte daher sorgsam planen. Aufgrund der rechtlichen Unsicherheiten werden nachhaltig einsetzbare KI-Systeme allerdings immer eine strategische Kooperation zwischen der Content- und der Technologiebranche erfordern.
Der Fall
Der Fotograf Robert Kneschke wendet sich gegen die Nutzung einer von ihm erstellten Fotografie. Diese Fotografie war in einem Datenset von über 5 Milliarden Bild-Text-Paaren enthalten, welches der beklagte Verein LAION e.V. auf seiner Internetseite unter der Bezeichnung „LAION 5B“ öffentlich kostenfrei zur Verfügung stellte. Das (nach wie vor abrufbare) Datenset besteht nicht aus den Werken selbst, sondern aus einer Tabelle, die Hyperlinks zu im Internet öffentlich abrufbaren Bildern bzw. Bilddateien sowie weitere Informationen zu den entsprechenden Bildern enthält, darunter eine Bildbeschreibung (auch Alternativtext genannt), die Auskunft über den Inhalt des Bildes in Textform gibt.
Zur Erstellung des Datensets, insbesondere zum automatisierten Abgleich von Bild und Beschreibung, hatte LAION die Werke zwar heruntergeladen, schließlich aber lediglich die ursprünglichen (im Internet zugänglichen) Links veröffentlicht. Für die Erstellung des Datensets analysierte LAION per Software die Korrektheit der einem Bild beigeordneten textlichen Bildbeschreibung. Das Datenset eignet sich für das Trainieren von sog. generativer KI und wurde mutmaßlich auch für solches Training genutzt. Allerdings hat LAION selbst das Datenset nicht selbst für ein KI-Training genutzt. Daher war die Nutzung der Werke für ein KI-Training gerade nicht Gegenstand der Entscheidung.
Die streitgegenständliche Fotografie von Robert Kneschke wurde von einer Bildagentur im Internet vermarktet. Auf der Internetseite der Bildagentur wurde die Fotografie in einem Preview (in minderwertiger Auflösung und mit einem Wasserzeichen) öffentlich zugänglich gemacht. Die Bildagentur hatte in ihren auf der Internetseite hinterlegten Nutzungsbedingungen (Stand 2021) folgenden Hinweis aufgenommen:
„RESTRICTIONS YOU MAY NOT:
18. Use automated programs, applets, bots or the like to access the XXX.com website or any content thereon for any purpose, including, by way of example only, downloading Content, indexing, scraping or caching any content on the website.“
Der Fotograf beantragte die Unterlassung der Vervielfältigung seines Werkes zur Erstellung von KI-Trainingsdatensätzen.
Die Entscheidung
Das Gericht wies die Klage mit der Begründung ab, dass die von LAION vorgenommene streitgegenständliche Vervielfältigung von der Ausnahme des Text und Data Mining für wissenschaftliche Zwecke nach § 60d UrhG gedeckt und damit erlaubt sei.
Nach Auffassung des Gerichts seien die Vervielfältigungen durch LAION (nur) zum Zwecke des Text und Data Mining im Sinne des § 44b Abs. 1 UrhG angefertigt worden, nämlich zur automatisierten Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen. Vorliegend ginge es spezifisch um die Analyse der Korrelation von Bild und Text (nämlich der Frage der Nicht-/Übereinstimmung von Bildern und Bildbeschreibungen). Ein weiterer Zweck der Vervielfältigung (neben dem Zweck des TDM) sei zwar möglich, aber zum Zeitpunkt der Erstellung der Vervielfältigung noch nicht hinreichend konkret gewesen. Wer die von LAION dergestalt erstellten Datensets im Anschluss auf welche Weise nutzen würde – also auch ob und auf welche Weise diese durch Dritte im Rahmen eines Trainings von KI-Systemen genutzt werden würde – sei für LAION nicht absehbar gewesen.
LAION falle auch in den Kreis der nach § 60d UrhG Schrankenprivilegierten. Das TDM sei zu Zwecken der wissenschaftlichen Forschung durchgeführt worden. Der Begriff der wissenschaftlichen Forschung sei weit zu verstehen, ausreichend ist bereits das methodisch-systematische „Streben“ nach neuen Erkenntnissen; es genüge, dass der in Rede stehende Arbeitsschritt auf einen (späteren) Erkenntnisgewinn gerichtet ist. Das ist z.B. bei zahlreichen Datensammlungen der Fall ist, die zunächst erstellt werden müssen, um anschließend empirische Schlussfolgerungen zu ziehen. Insbesondere setzt der Begriff der wissenschaftlichen Forschung auch keinen späteren Forschungserfolg voraus. Für dieses spätere Forschungsziel genüge es, dass der Datensatz – unstreitig – kostenfrei veröffentlicht und damit gerade (auch) Forschenden auf dem Gebiet künstlicher neuronaler Netze zur Verfügung gestellt wurde. Durch die kostenfreie Zurverfügungstellung des Datensatzes sei auch die tatbestandlich erforderliche nicht-kommerzielle Zweckverfolgung gegeben.
Die Anwendbarkeit der TDM Schranke war auch nicht durch die Ausnahme des § 60d Abs. 2 Satz 3 UrhG ausgeschlossen. Ob private Unternehmen einen bestimmenden Einfluss auf die Forschung genommen hätten oder ob privaten Unternehmen ein bevorzugter Zugang zu den Forschungsergebnissen gewährt wurde, konnte durch den Kläger jedenfalls nicht nachgewiesen werden.
Randnotizen des Gerichts (obiter dictum)
Das Landgericht Hamburg hat anlässlich der Entscheidung die Gelegenheit ergriffen, einige interessante Ausführungen zum Thema Text und Data Mining und KI Training allgemein zu machen. Diese stellen jedoch nur die aktuelle Position des Landgerichts Hamburg dar, waren jedoch weder für den vorliegenden Fall relevant, noch entfalten sie irgendeine Bindungswirkung für andere Gerichte.
Dazu gehört die Einordnung des allgemeinen Rechtevorbehalts in Bezug auf automatisiertes Crawling und Scraping in den Nutzungsbedingungen der Webseite auf der der Preview des Bildes abrufbar war. Diesen allgemeinen Hinweis bewertete das Gericht als ausreichend klar und auch als ‚maschinenlesbar‘ im Sinne des § 44b Abs. 2 Satz 3 UrhG. Nach Ansicht des Landgerichts müsse insofern der neueste Stand der Technik –einschließlich von neuester KI-Technologie – berücksichtigt werden. Ob diese Ansicht bezüglich 2021 verfügbarer Technologien so durch andere Gerichte vertreten werden wird oder ob der Begriff ‚maschinenlesbar‘ eher als Standard im Sinne von robots.txt verstanden wird, bleibt abzuwarten. Sicherlich müssen hoch technologisierte Unternehmen oder Institute aber verfügbare Technologien zur Aufklärung eines etwa erklären Rechtevorbehalts einsetzen. Wir würden daher nicht empfehlen, sich auf derart allgemeine, vor allem menschenlesbare Vorbehalte allein zu verlassen. Dennoch könnte sich diese Argumentation des Landgericht Hamburg für Rechteinhaber in Zukunft als hilfreich erweisen. Wichtig ist in diesem Zusammenhang auch, dass das Gericht es als ausreichend erachtet hat, dass (auch) der Inhaber einfacher Nutzungsrechte dazu berechtigt ist, den TDM-Vorbehalt zu erklären.
Darüber hinaus nahm das Landgericht eine Differenzierung verschiedener Schritte im Zusammenhang mit der Nutzung von Werken für das Training und die Anwendung generativer KI vor. Erforderlich sei (jedenfalls) eine Unterscheidung zwischen
1) der (in diesem Verfahren allein streitgegenständlichen) Erstellung eines ‒ auch ‒ für KI-Training nutzbaren Datensatzes;
2) dem nachfolgenden Training des künstlichen neuronalen Netzes mit diesem Datensatz;
3) der nachfolgenden Nutzung der trainierten KI zum Zwecke der Erstellung neuer Bildinhalte.
Das Landgericht vertrat die Ansicht, dass der Anwendung der Text und Data Mining Ausnahmen nach § 44b UrhG oder 60d UrhG für Schritt 1), d, h, die Erstellung eines Datensatzes unter den Voraussetzungen der Ausnahmevorschriften, die grundsätzliche Möglichkeit der Schritte 2 und 3 nicht entgegensteht. Dies ergäbe sich auch so aus der Gesetzesbegründung der deutschen Umsetzung der EU-Richtlinie 2019/790 sowie aus der Begründung der KI-Verordnung (Verordnung (EU) 2024/1689) (Erwägungsgrund 105).
Demgegenüber heißt dies nicht, dass auch Schritt 2) oder gar 3) unter die Text und Data Mining Ausnahmen nach § 44b oder 60d UrhG fallen. Eben diese Schritte waren gerade nicht Gegenstand der Entscheidung des Landgerichts bzw. konnten durch den Kläger jedenfalls nicht nachgewiesen werden.
Insofern bleibt es dabei, dass bei Schritt 2) oder 3) jeweils selbständig zu beurteilen, wer wo welche technischen Schritte für ein solches Training vornimmt, und ob hier lokales Recht oder lokale Ausnahmen Anwendung finden.
Take away
Im Ergebnis stehen die Rechteinhaber – wie häufig bei technologisch neuen Entwicklungen – vor dem Problem, dass die technischen Prozesse und vor allem ein möglicherweise sogar geplantes arbeitsteiliges Handeln für die betroffenen Rechteinhaber nicht transparent sind. Darüber hinaus handelt es sich meist um internationale und Jurisdiktionen übergreifende Fallkonstellationen. Um Urheberrechte vor Gericht durchsetzen zu können, sind in diesen neuen Konstellationen rund um das Training und die Nutzung von KI-Systemen umfassende technische, aber auch rechtliche Kenntnisse (bzw. Gutachten) notwendig, die die technischen Hintergründe, die Anknüpfungspunkte einer rechtsverletzenden Handlung und das jeweils anwendbare Recht und dessen spezifische Ausnahmen in verschiedenen Rechtsordnungen überprüfen. Eine effektive Rechtsdurchsetzung ist dem einzelnen Urheber oder kleineren Rechteinhabern vor diesem Hintergrund praktisch verwehrt.
In diesem Zusammenhang soll die KI-Verordnung zwar kleine Erleichterungen zugunsten der Rechteinhaber bringen. Wie auf Basis der in der KI-Verordnung gewählten Vorgabe zur Erstellung und Veröffentlichung einer „hinreichend detaillierte(n) Zusammenfassung der für das Training des KI-Modells mit allgemeinem Verwendungszweck verwendeten Inhalte“ (Artikel 53 Abs. 1 lit. c) tatsächlich der Nachweis hinsichtlich der Nutzung eines spezifischen Werkes gelingen soll, ist derzeit noch unklar. Das bei der EU eingerichtete KI-Büro erarbeitet derzeit eine Vorlage zur Erstellung entsprechenden Zusammenfassungen.
Vor dem Hintergrund der vielen offenen Fragen und rechtlichen Unsicherheiten ist jedoch klar: Nachhaltig einsetzbare KI-Systeme werden immer eine strategische Kooperation zwischen der Content- und der Technologiebranche erfordern.