Google-Extended

Neues Tool sperrt KI-Trainings-Bots aus

29.09.2023
Von 


Manfred Bremmer beschäftigt sich mit (fast) allem, was in die Bereiche Mobile Computing und Communications hineinfällt. Bevorzugt nimmt er dabei mobile Lösungen, Betriebssysteme, Apps und Endgeräte unter die Lupe und überprüft sie auf ihre Business-Tauglichkeit. Bremmer interessiert sich für Gadgets aller Art und testet diese auch.
Mit einem neuen Tool erlaubt Google Website-Betreibern, die Verwendung ihrer Daten für das Training seiner KI-Modelle zu blockieren.
Nach dem GPTBot von OpenAI können Website-Betreiber nun in robots.txt auch die Webcrawler zum Trainieren von Google Bard und Vertex AI blockieren.
Nach dem GPTBot von OpenAI können Website-Betreiber nun in robots.txt auch die Webcrawler zum Trainieren von Google Bard und Vertex AI blockieren.
Foto: abitadya12 - shutterstock.com

Nachdem allmählich durchschimmerte, woher Generative-KI-Anwendungen wie ChatGPT ihre Trainingsdaten nehmen, haben viele Websites, darunter die New York Times, CNN, Reuters und Medium, bereits den Webcrawler für ChatGPT von OpenAI blockiert. OpenAI stellt selbst dafür eine Anleitung bereit, wie man den Zugriff von GPTBot in robots.txt sperrt.

Mit Google verhält sich die Sachlage etwas anders, da viele Unternehmen von der Indexierung ihrer Websites profitieren. Den Google-Bot komplett auszusperren, würde bedeuten, dass die Inhalte nicht mehr in die Ergebnisse von Websuchen aufgenommen werden.

Das war zumindest bislang so. In einer Ankündigung hat Google nun eine Möglichkeit vorgestellt, mit der Website-Betreiber die Verwendung ihrer Daten zum Trainieren der GenAI-Modelle Bard und Vertex AI ablehnen und trotzdem über die Google-Suche erreichbar bleiben können.

Durch die Verwendung von Google-Extended zur Kontrolle des Zugriffs auf die Inhalte einer Website kann ein Website-Administrator entscheiden, ob er diesen KI-Modellen dabei helfen will, mit der Zeit immer genauer und leistungsfähiger zu werden, erklärt Google in einem Statement.

Google-Extended ist über die robots.txt verfügbar. Auf der deutschsprachigen Überblicksseite ist das Product Token aber (noch) nicht aufgeführt, in der englischsprachigen Version wird es in der Rubrik Common Crawlers neben den verschiedenen Google-Bots aufgelistet.