Kod för att förhindra ChatGPT från att skanna webbplatser

OpenAI, skaparna av ChatGPT, har introducerat en ny webbsökningsrobot med namnet GPTBot, utformad för att bläddra genom internet och inhämta information för att träna sina artificiella intelligensmodeller (AI). Dock har det upptäckts att endast en rad kod behövs för att förhindra att sökningsroboten får tillgång till en webbplats data, vilket lyfter fram det komplexa förhållandet mellan webbsökning, integritet och upphovsrättsfrågor.

Innehållsförteckning

Vad är en sökningsrobot?

En sökningsrobot är ett automatiskt program som söker igenom internet för att samla information från webbplatser.
Den navigerar systematiskt genom webben och följer länkar från sida till sida.
Den extraherar text, bilder, länkar och andra data från de sidor den besöker.
Används av sökmotorer för att indexera sidor, av företag för att övervaka webbplatser och av AI för att träna modeller.
Sökningsroboten startar med en uppsättning utgångsadresser, hämtar länkar, navigerar genom sidor och lagrar insamlade data.
Fragen om integritet och upphovsrätt uppstår på grund av den automatiska insamlingen av information.
Kort sagt är en webbsökningsrobot en digital utforskare som scannar internet för att samla in data med applikationer som sträcker sig från forskning till AI-träning.

OpenAI instruerar hur man blockerar GPTBot från att samla in data

Lanseringen av GPTBot och dess mottaglighet för blockering rapporterades av flera publikationer, inklusive Search Engine Journal, på måndagen. Denna sökrobot fungerar genom att bläddra igenom webbplatser för data, liknande hur sökmotorer som Google opererar.

Även om denna typ av sökning är avgörande för att träna AI-modeller, har det väckt debatt om integritet och obehörig användning av data.

OpenAI har tagit ett unikt steg genom att inte bara introducera GPTBot utan också tillhandahålla en metod för webbplatsägare att blockera dess åtkomst. Genom att infoga en enkel kodrad i webbplatsens “robots.txt”-fil, kan utvecklare förhindra GPTBot från att samla in data från deras webbplats.

Steg för steg för att blockera GPTBot

Nedan visas hur du förhindrar att ChatGPTs webbsökningsrobot får tillgång till din webbplats.

1. GPTBot

“GPTBot är OpenAIs webbsökningsrobot och kan identifieras med följande användaragent och sekvens”, meddelar OpenAI på sin webbplats.
Användaragenttoken: GPTBot
Fullständig användaragentsträng: Mozilla/5.0 AppleWebKit/537.36 (KHTML, som Gecko; kompatibel; GPTBot/1.0; +https://openai.com/gptbot)

2. Användning av insamlad data

OpenAI förklarar även på sin webbplats hur den insamlade informationen används: “Webbsidor som söks igenom med användaragenten GPTBot kan potentiellt användas för att förbättra framtida modeller och filtreras för att utesluta källor som kräver tillgång via en betalvägg, som är kända för att samla in personligt identifierbar information (PII) eller som innehåller text som bryter mot våra riktlinjer. Att tillåta GPTBot att få tillgång till din webbplats kan hjälpa AI-modeller att bli mer exakta och förbättra deras generella kapacitet och säkerhet.”

3. Hur man blockerar GPTBot

För att förhindra att GPTBot får tillgång till din webbplats, kan du lägga till följande i din webbplats robots.txt-fil:
Användaragent: GPTBot
Disallow:/

4. Hur man tillåter anpassad åtkomst

OpenAI lär även ut hur man tillåter GPTBot att endast få tillgång till “specifika delar av din webbplats” genom att lägga till GPTBot-token till robots.txt-filen på ett annat sätt:
Användaragent: GPTBot
Tillåt: /katalog-1/
Disallow: /katalog-2/