KI-Crawler: So schützt ihr eure Webseite vor Data-Scraping
Wir verraten, wann es sinnvoll ist, seine Daten zu schützen und zeigen euch Step-by-Step, wie ihr bestimmte Crawler von eurer Seite ausschließt
Laut dem kürzlich verabschiedeten AI Act müssen KI-Anbieter künftig mehr Transparenz bei ihren Trainingsdaten walten lassen und außerdem ein maschinenlesbares Opt-out ermöglichen. Aber wie genau das aussehen soll ist nicht definiert.
Was ist ein Opt-out?
Ein Opt-out ist einfach gesagt der Hinweis für Daten-Crawler, dass die Bilder auf einer bestimmten Website nicht verwendet werden dürfen. Dieser ist in der Regel in den Website-Code integriert. Wie genau das geht erklären wir euch unten im Step by Step.
Um die eigenen Bilder vom KI-Training auszuschließen müssen Opt-out-Hinweise für die Crawler der verschiedenen Unternehmen angelegt werden. Der Nachteil: alle Crawler, die nicht explizit ausgeschlossen werden, haben weiterhin Zugriff.
Kann ich meine Bilder direkt vor KI schützen?
Bisher leider nein. Das ist gerade dann ein Problem, wenn diese Bilder außerhalb der eigenen Website veröffentlicht, oder etwa per Screenshot vervielfältigt, heruntergeladen und anderweitig geteilt werden.
Auf Social Media sind die eigenen Bilder ungeschützt, außer die Plattform-Betreiber schließen Data-Crawler explizit aus. Das ist aber nur selten der Fall, denn oftmals sind Crawler erforderlich, um die eigenen Algorithmen zu trainieren und Google-Suchbarkeit zu gewährleisten.
Verschiedene Teams arbeiten dafür gerade an einer bildspezifischen Lösung. Etwa die Content Authenticity Intiative, die sich dafür einsetzt, dass Bilder eine eigene ID erhalten, in der sogar Bearbeitungsschritte festgehalten werden sollen.
Oder das Forschungsprojekt der University of Chicago, in dem Studierende ein neues Programm entwickeln, das Artworks für KI unlesbar machen soll.
Ist ein Opt-out sinnvoll?
Hier scheiden sich die Geister. Natürlich ist klar, dass Kreative ihre Arbeiten vor unrechtmäßiger Nutzung schützen wollen – oder zumindest eine Vergütung für die Nutzung ihrer Werke fordern. Aber nach aktueller Rechtslage ist Data-Scraping zu KI-Trainingszwecken erlaubt, sagt der Urheberrechtsanwalt Dr. Till Kreutzer im Interview zum Impuls: Doing KI.
Er wirft außerdem einige fast schon philosophische Fragen auf. Etwa, was den eigenen Stil ausmacht, ob dieser schützenswert ist, und ob Stile zu schützen nicht eher die Gestaltung einschränken würde. Ähnlich betrachtet er das Thema Opt-out.
Denn wollen wir nicht eigentlich eine KI, die von so vielen Werken wie möglich lernt, um ein möglichst diverses Bild von Kunst und Design zu erhalten? Diese Entscheidung bleibt jeder und jedem selbst überlassen – wichtig ist nur, diese Fragen offen zu diskutieren und als Kreativbranche solidarisch vorzugehen.
Webinar »KI in Branding & Gesetz«
Erfahrt von unseren Experten, was ihr und eure Kunden beim Einsatz von KI-Tools beachten müsst, um rechtlich auf der sicheren Seite zu sein. Meldet euch an und sichert euch einen Platz in unserem neuesten PAGE Academy Seminar.
Step by Step: How to Opt-out mit robots.txt
Es gibt mehrere Wege, einen Opt-out vorzunehmen. Etwa mit CAPTCHAS, die den Zugriff auf bestimmte Bereiche deiner Website für Bots abriegeln oder dynamisches Laden von kritischen Inhalten. Die häufigste verwendet die »robots.txt« Datei im Website Code, um bestimmte Crawler von der eigenen Seite auszuschließen. Wir zeigen euch, wie´s geht.
Schritt 1: robots.txt anlegen
Wenn du bereits eine robots.txt Datei im Stammverzeichnis deiner Website angelegt hast, kannst du diesen Schritt überspringen. Du kannst das testen, indem du /robots.txt an deine Website-URL anhängst. Wenn eine Fehlermeldung angezeigt wird, musst du die Datei zunächst anlegen.
Das geht dann, wenn du Zugriff auf deinen eigenen Seiten-Code hast. Hostanbieter wie Wix erlauben oft keine Änderungen in der robots.txt Datei, bei ihnen kannst du allerdings in der Regel individuell einstellen, ob deine Seite gecrawlt werden darf.
Die Datei kannst du in jedem beliebigen Texteditor erstellen, sie muss als »robots.txt« benannt sein und als UTF-8-codierte Textdatei formatiert. Sie sollte anschließend im Stammverzeichnis bzw. im Stammordner deiner Website abgelegt werden.
Schritt 2: Crawler ausschließen
Die robots.txt Dabei besteht aus mehreren Gruppen, die jeweils eine Regel formen. Die einzelnen Regeln setzen sich wiederum aus mehreren Bestandteilen zusammen: Die User-agent-Zeile, welche den Crawler spezifiziert. Einer Info, auf welche Verzeichnisse oder Dateien der User-Agent zugreifen darf (allow), und eine Zeile, von welchen Verzeichnissen er ausgeschlossen wird (disallow). Wenn die disallow-Zeile nach dem ersten Slash leer gelassen wird, darf der Crawler auf keine der Seiteninhalte zugreifen. Die genauen Regeln und Einzelfälle sind hier aufgeschlüsselt.
Die Info für den User-Agent findet ihr bei den jeweiligen KI-Anbietern. Der Code für den Open-AI-Crawler sähe etwa so aus:
User-agent: GPTBot
Disallow: / html-pfad /
Allow: / html-pfad /
Will man etwa Midjourney ausschließen lautet der User-agent für die Trainings-Datenbank Laion: CCBot. Für Googles Bard: Google-Extended (dabei sollte aber genau spezifiziert sein, was der Crawler auslesen darf, denn wenn die ganze Seite gesperrt wird, kann sich das auch auf die Google-Auffindbarkeit auswirken).
Schritt 3: Speichern und Google re-crawl
Abschließend wird das Dokument gespeichert und das Stammverzeichnis der Website aktualisiert (etwa per FTP-Server). Google erkennt allerdings die Änderungen in eurer robots.txt-Datei nicht automatisch. Dazu könnt ihr folgenden Befehl in die Suchleiste eingeben, und ausführen, um den Prozess abzuschließen.
https://www.google.com/webmasters/tools/robots?siteUrl=https://yourwebsite.com
Dann sollte die robot.txt Datei aktiv sein und euch vor den jeweiligen Crawlern schützen. Ganz wichtig: diese Maßnahme wirkt nur für künftige Crawling-Vorgänge. Ob eure Arbeiten bereits zum Training eingesetzt wurden findet ihr auf der Website haveibeentrained.com heraus und könnt anschließend über Formulare bei den jeweiligen KI-Anbietern eure Werke aus deren System nehmen lassen. Also Kopf hoch! Auch wenn der Opt-out keine Dauerlösung sein kann, habt ihr doch zumindest auf eurer eigenen Website in der Hand, was mit euren Werken passiert.
Das könnte dich auch interessieren