OpenAI kommer att betala för använda nyheter från AP i träningen AI

Utvecklaren av ChatGPT, OpenAI, har kommit överens om att betala för rättigheterna att använda nyhetsberättelser från Associated Press (AP) för att träna sina algoritmer för artificiell intelligens.

Detta är det första stora avtalet av sitt slag mitt i en växande debatt om huruvida teknikföretag bör betala skapare av innehåll vars information används från webben för att utveckla AI-verktyg.

Enligt ett uttalande från AP kommer OpenAI att få tillgång till AP:s arkiv av textbaserade nyhetsberättelser som sträcker sig tillbaka till 1985.
Utöver licensavgifterna kommer AP även att få tillgång till OpenAIs teknik för att utföra experiment och förbättra sin journalistik.
Nyhetsorganisationen har redan använt automatiseringsteknik för att producera rapporter om lokala sportevenemang och ekonomiska resultat under flera år.
AP uppger att de inte använder “generativa” teknologier – såsom chattbotar, till exempel – för att skriva sina berättelser.

Företag som OpenAI, Google och andra inom AI-sektorn har använt miljarder fraser från internet för att mata sina “breda språkmodeller” som driver deras chattbotar.

Nyhetsartiklar, Wikipedia-sidor, kommentarer på sociala medier och blogginlägg är alla en del av dessa modeller utan tillstånd från deras skapare. Teknikföretagen hävdar ofta att de är fria att använda offentliga data.

En analys från Washington Post av en databas med webbplatser som användes för att träna en av OpenAIs äldre AI-modeller visade att AP:s huvudsakliga nyhetssajt var den 68:e mest citerade källan i databasen.

Motstånd mot praxis

En växande grupp av författare, musiker, nyhetsorganisationer och sociala medieplattformar har talat ut mot denna praxis. Deras argument är att användningen av deras innehåll för att träna AI representerar en stor förändring i hur internet fungerar, särskilt eftersom vissa av AI-verktygen som tränas med mänskligt innehåll redan ersätter mänskliga arbeten.

Under de senaste två veckorna har flera stämningar lämnats in mot industrin med anklagelser om datamissbruk, inklusive grupptalan mot OpenAI och Google, samt stämningar mot OpenAI som lämnats in av komikern Sarah Silverman och två framstående skönlitterära författare.

I torsdags rapporterade Washington Post att Federal Trade Commission har inlett en utredning om hur OpenAI använder konsumentdata för att träna sina modeller.

Chattbotar som ChatGPT tränas baserat på en uppsättning information och kan inte kontinuerligt uppdateras utan att konfigureras om från början. Detta betyder att de är mindre användbara för att förmedla de senaste nyheterna och aktuell information.

Teknikföretagen har försökt lösa detta problem genom att låta chattbotar söka på webben eller ställa frågor till en separat, ständigt uppdaterad databas. Avtalet med AP ger OpenAI endast tillgång till dess nyhetsarkiv, men det arkivet uppdateras regelbundet med de senaste nyheterna.

Teknikföretag har tidigare betalat direkt för nyhetsinnehåll för andra syften. Google och Facebook betalar nyhetsföretag för direkt tillgång till deras innehåll för att visa det på sina plattformar i vissa länder. I Australien har regeringen antagit en lag som kräver denna praxis, och en liknande lag är på väg att träda i kraft i Kanada.

Motstånd mot praxis

BLOGG