New York Times, CNN und Australiens ABC blockieren den Zugriff des GPTBot-Webcrawlers von OpenAI auf Inhalte
HeimHeim > Blog > New York Times, CNN und Australiens ABC blockieren den Zugriff des GPTBot-Webcrawlers von OpenAI auf Inhalte

New York Times, CNN und Australiens ABC blockieren den Zugriff des GPTBot-Webcrawlers von OpenAI auf Inhalte

Sep 01, 2023

Die Chicago Tribune und die australischen Zeitungen Canberra Times und Newcastle Herald scheinen ebenfalls den Webcrawler des Herstellers von Chat GPT verboten zu haben

Nachrichtenagenturen wie die New York Times, CNN, Reuters und die Australian Broadcasting Corporation (ABC) haben ein Tool von OpenAI blockiert, wodurch das Unternehmen nicht mehr in der Lage ist, weiterhin auf ihre Inhalte zuzugreifen.

OpenAI steht hinter einem der bekanntesten Chatbots für künstliche Intelligenz, ChatGPT. Sein Webcrawler – bekannt als GPTBot – kann Webseiten scannen, um zur Verbesserung seiner KI-Modelle beizutragen.

The Verge berichtete als erster, dass die New York Times GPTBot auf ihrer Website blockiert hatte. Der Guardian stellte daraufhin fest, dass andere große Nachrichten-Websites, darunter CNN, Reuters, die Chicago Tribune, ABC und Marken der Australian Community Media (ACM) wie die Canberra Times und der Newcastle Herald, den Webcrawler offenbar ebenfalls verboten haben.

Sogenannte große Sprachmodelle wie ChatGPT erfordern große Mengen an Informationen, um ihre Systeme zu trainieren und es ihnen zu ermöglichen, Anfragen von Benutzern auf eine Weise zu beantworten, die menschlichen Sprachmustern ähnelt. Doch die dahinter stehenden Unternehmen machen oft keine Angaben darüber, ob in ihren Datensätzen urheberrechtlich geschütztes Material enthalten ist.

Die Blockierung von GPTBot ist in den robots.txt-Dateien der Herausgeber zu sehen, die Crawlern von Suchmaschinen und anderen Entitäten mitteilen, welche Seiten sie besuchen dürfen.

„Wenn Sie GPTBot den Zugriff auf Ihre Website erlauben, können KI-Modelle genauer werden und ihre allgemeinen Fähigkeiten und Sicherheit verbessern“, sagte OpenAI in einem Blogbeitrag, der Anweisungen zum Deaktivieren des Crawlers enthielt.

Alle untersuchten Filialen haben die Sperre im August hinzugefügt. Einige haben auch CCBot verboten, den Webcrawler für ein offenes Repository von Webdaten namens Common Crawl, der auch für KI-Projekte verwendet wird.

CNN bestätigte gegenüber Guardian Australia, dass es kürzlich GPTBot für alle seine Titel blockiert hat, äußerte sich jedoch nicht dazu, ob die Marke weitere Maßnahmen hinsichtlich der Verwendung ihrer Inhalte in KI-Systemen plant.

Ein Reuters-Sprecher sagte, das Unternehmen prüfe regelmäßig die robots.txt-Datei und die Nutzungsbedingungen der Website. „Da geistiges Eigentum das Lebenselixier unseres Unternehmens ist, ist es unerlässlich, dass wir das Urheberrecht unserer Inhalte schützen“, sagte sie.

Laut einem Sprecher wurden die Nutzungsbedingungen der New York Times kürzlich aktualisiert, um das Verbot des „Scrapings unserer Inhalte für KI-Training und -Entwicklung … noch klarer“ zu machen.

Ab dem 3. August verbieten die Website-Regeln ausdrücklich die Verwendung der Inhalte des Herausgebers für „die Entwicklung von Softwareprogrammen, einschließlich, aber nicht beschränkt auf das Training eines Systems für maschinelles Lernen oder künstliche Intelligenz (KI)“ ohne Zustimmung.

Nachrichtenagenturen auf der ganzen Welt stehen vor der Entscheidung, ob sie KI bei der Nachrichtenbeschaffung einsetzen wollen und wie sie damit umgehen sollen, dass ihre Inhalte möglicherweise von Unternehmen, die KI-Systeme entwickeln, in Schulungspools gesaugt werden.

Anfang August unterzeichneten Medien wie Agence France-Presse und Getty Images einen offenen Brief, in dem sie eine Regulierung der KI forderten, einschließlich Transparenz über „die Zusammensetzung aller Trainingssätze, die zur Erstellung von KI-Modellen verwendet werden“ und die Zustimmung zur Verwendung von urheberrechtlich geschütztem Material.

Google hat vorgeschlagen, dass KI-Systeme in der Lage sein sollten, die Arbeit von Verlagen zu übernehmen, sofern diese sich nicht ausdrücklich dagegen entscheiden.

In einer Einreichung zur Überprüfung des Regulierungsrahmens rund um KI durch die australische Regierung plädierte das Unternehmen für „Urheberrechtssysteme, die eine angemessene und faire Nutzung urheberrechtlich geschützter Inhalte ermöglichen, um das Training von KI-Modellen in Australien auf einer breiten und vielfältigen Datenpalette zu ermöglichen.“ Unterstützung praktikabler Opt-outs“.

Untersuchungen von OriginalityAI, einem Unternehmen, das das Vorhandensein von KI-Inhalten prüft, ergaben diese Woche, dass auch große Websites wie Amazon und Shutterstock GPTBot blockiert hatten.

Die robot.txt-Datei des Guardian verbietet GPTBot nicht.

ABC, Australian Community Media, Chicago Tribune, OpenAI und Common Crawl antworteten nicht fristgerecht.