Automattic, Wordpress e l'Intelligenza Artificiale

5 marzo 2024

Ha fatto scandalo la notizia che Automattic venderà i dati di Tumblr.com e Wordpress.com a OpenAI e Midjourney.

https://readwrite.com/tumblr-and-wordpress-to-sell-user-data-to-train-ai-models/

Come è già successo in altri casi (Adobe, Instagram), il cambiamento è stato introdotto in sordina ed è un opt-in di default: significa che se NON si vuole che i propri contenuti finiscano nei dataset di training bisogna attivarsi per disabilitare l'opzione.

Purtroppo questa è solo l'ennesima puntata di una triste storia che sta vedendo le aziende web, già in crisi a causa del credit crunch, fare cassa in ogni modo possibile. L'“intelligenza artificiale” è dove girano i soldi e quindi ora si vendono i dati (anche) alle aziende che creano i modelli.

Anzi, quello che probabilmente sta succedendo è che si sta in un certo senso “regolarizzando” una pratica che era già in atto: i post di Wordpress e Tumblr erano con tutta probabilità già presenti nei dataset che avevano rubacchiato contenuti in giro per il web e ora Automattic cerca di guadagnarci qualcosa.

Uno degli interrogativi più interessanti riguardo la questione è cosa succede nel caso in cui un blog decida di fare l'opt-out dopo che i dati sono già stati condivisi: esistono processi di Automattic per assicurarsi che i dati vengano effettivamente rimossi dal training set di OpenAI e Midjourney? E quanto tempo sarà necessario perché la rimozione si rifletta sui modelli pubblicamente disponibili?

Il trend dell'utilizzo dei dati degli utenti per l'allenamento di modelli si riscontra anche in quello che è successo a Reddit e Twitter, che hanno prima chiuso le API che permettevano di accedere ai contenuti e ora sono l'uno (Reddit) in trattativa per vendere i dati a Google e l'altro (Twitter) direttamente nel mercato dell'IA con X.ai/Grok. Per questo secondo caso c'è anche la ciliegina sulla torta di una causa intentata ai danni di OpenAI da Elon Musk, ufficialmente perché l'azienda avrebbe tradito il mandato di sviluppare l'IA “a favore di tutta l'umanità”, ma forse anche col fine di ostacolare un diretto concorrente di mercato.

In tutto questo l'Unione Europea, che al momento sembra l'unica entità interessata a tutelare gli utenti e regolamentare l'introduzione degli strumenti basati su “intelligenza artificiale” nella società non ha alcun tipo di protezione per questi casi in cui le aziende decidono di vendere i dati dei loro utenti per uno scopo che non era coperto dagli accordi utente stipulati inizialmente.