Le licenze sui dataset per l’addestramento dell’AI
Il mercato dei dati di addestramento non si basa solo sui dati raccolti su Internet tramite il crawling ma anche su contenuti concessi in licenza dai titolari dei diritti, che sono i più preziosi.
Mentre da un lato è attivo un forte contenzioso promosso dai titolari dei diritti nei confronti degli sviluppatori di sistemi di intelligenza artificiale, dall’altro si comincia a ragionare sul possibile sfruttamento economico dei dati di addestramento.
Abbiamo visto nel primo articolo dedicato al rapporto EUIPO come i titolari dei diritti sui contenuti possano opporsi o concedere licenze per l’uso delle proprie opere anche a fini di addestramento.
Come l’AI può diventare un business per gli autori che la temono
Nel mese di Maggio 2025 l’EUIPO ha pubblicato il risultato di una corposa ricerca sul rapporto tra intelligenza artificiale e diritto d’autore, andando ad esaminare non tanto le criticità, quanto le prospettive concrete di una possibile convivenza a vantaggio di tutti i soggetti coinvolti.
Il mercato dei dataset
Il tema di cui ci occupiamo oggi è diverso.
Non stiamo più parlando dei contenuti classici, ovvero i libri, i testi, le immagini, ma dei dati estratti da quelli, lavorati e organizzati per essere dati in pasto alle macchine.
Dal punto di vista tecnico i dati, per potere essere efficacemente usati per il training, devono essere elaborati, puliti e resi leggibili dalla macchina.
L’estrazione e l’elaborazione dei dati possono essere effettuate da soggetti che si occupano solo di text and data mining (TDM) specializzati nella produzione di dataset e che non necessariamente sono sviluppatori di sistemi di intelligenza artificiale. Ad esempio, LAION ha creato dataset di coppie immagine-testo utilizzando i dati dell’archivio di Common Crawl come punto di partenza per poi filtrarli e elaborarli per migliorarne la qualità e produrre alla fine un foglio di calcolo contenente collegamenti ipertestuali e descrizioni delle immagini.
Gli investimenti per la lavorazione dei dati possono essere significativi e quanto prodotto a seguito di questi interventi potrebbe a sua volta godere della tutela sui generis prevista per le banche dati che si aggiunge alla protezione di base sui singoli contenuti di cui dicevamo all’inizio.
Anche quando i dataset sono raccolte di semplici fatti non protetti da diritti di copyright, il dataset organizzato e strutturato può avere una sua tutela e un suo valore economico.
Le annotazioni, che spesso sono fondamentali per l’addestramento, possono essere create anche con l’assistenza di sistemi di intelligenza artificiale ma questo potrebbe ulteriormente complicare le cose in quanto molti termini d’uso di tali sistemi vietano l’uso del modello per creare modelli concorrenti.
Il mercato dei dataset è talmente rilevante che sono nate piattaforme per la loro distribuzione. Tra le più importanti ci sono Hugging Face, intesa a promuovere un approccio open-source e Kaggle di proprietà di Google.
A queste si aggiungono strumenti che consentono di effettuare un’analisi dei dataset, sulla diversità dei contenuti, sui bias e su indicazioni relative al diritto d’autore. Si tratta di un’attività delicata in quanto i dataset etichettati erroneamente possono esporre gli sviluppatori a responsabilità per la violazione dei termini di utilizzo che può eventualmente essere trasferita contrattualmente sugli utenti che integrano tali modelli nei propri sistemi AI e li distribuiscono.
Per ovviare a questi problemi diventa fondamentale predisporre adeguate condizioni contrattuali e, secondo molti, una soluzione potrebbe essere quella di adattare le licenze open-source già esistenti a questo nuovo mercato.
I modelli di licenza per l’AI
Le soluzioni proposte includono la possibilità di creare modelli di licenza del tutto nuovi, come la nuova licenza open, progettata specificamente per i dataset destinati all’intelligenza artificiale, BigScience Responsible AI License (RAIL) o la licenza MIT opportunamente modificata o, addirittura, una delle licenze Open Data Commons.
Il mercato dei dati di addestramento non si basa solo sui dati raccolti su Internet tramite il crawling ma anche su contenuti concessi in licenza dai titolari dei diritti, che sono i più preziosi perché i più mirati, utilizzati in particolare nelle fasi di post-addestramento/fine-tuning o in applicazioni RAG (Retrieval-Augmented Generation).
Shutterstock, ha concluso diversi accordi di licenza sui suoi contenuti per un valore di circa 10 milioni di dollari l’anno, con clienti come Meta, Apple, Amazon, Reka AI e OpenAI, mentre nel 2023, i ricavi derivanti dalla concessione in licenza a società che sviluppano AI sono stati stimati in 104 milioni di dollari, pari a circa il 12% del fatturato complessivo dell’azienda.
Il sistema RAG Perplexity, che combina un LLM con il recupero di fonti esterne per migliorare l’affidabilità, ha messo a punto il Perplexity Publishers Program, coinvolgendo partner importanti come TIME, Der Spiegel, Fortune, Entrepreneur, The Texas Tribune e WordPress.com, prevedendo un sistema di condivisione dei ricavi quando vengono utilizzati i contenuti selezionati. L’azienda ha anche espresso l’intenzione di sviluppare un modello in abbonamento a tariffa fissa per gli utenti, che includerebbe l’accesso ai contenuti dei publisher partecipanti. Non è chiaro se gli accordi con gli editori includano anche l'accesso ai contenuti per finalità di addestramento, oppure se si limitino al solo utilizzo per RAG.
OpenAI ha concluso accordi con grandi gruppi editoriali e anche se i termini degli accordi non sono pubblici, molti sembrano includere l’autorizzazione all’accesso e l’uso delle pubblicazioni a fini RAG.
L’importanza dei dati
L’intensa domanda di dati per sviluppare modelli di intelligenza artificiale ha generato preoccupazioni sul fatto che le future generazioni di informatici possano esaurire i dati necessari, portando a un rallentamento del progresso nel machine learning. Si stima che lo stock di dati linguistici di alta qualità sarà esaurito entro il 2026, i dati linguistici di bassa qualità tra il 2030 e il 2050, e i dati visivi tra il 2039 e il 2060.
Questa scarsità incide sul valore delle licenze e potrebbe indurre alcuni operatori ad attendere a concedere i diritti su alcuni dati in attesa che il loro valore salga in futuro.
Anche la necessità di dati di alta qualità nella fase di fine-tuning è un importante fattore trainante per i mercati delle licenze. Stipulare accordi di licenza mirati con specifici titolari dei diritti rappresenta già una forma di filtraggio perché si sa che il catalogo di un certo titolare è noto per essere coerente con le esigenze di addestramento di uno sviluppatore.
La necessità di dati di alta qualità non riguarda solo i metadati, ma anche le caratteristiche tecniche degli asset digitali. Alcuni asset, in particolare audio, immagini e video, sono compressi per la distribuzione online e potrebbero non essere adatti per casi d’uso specifici che richiedono dati in alta risoluzione. Questo conferisce una maggiore forza negoziale ai titolari di contenuti che hanno una qualità maggiore.
Infine, non si può dimenticare che contrariamente a quanto si possa pensare, i sistemi di intelligenza artificiale sono molto attenti a non violare norme di legge, perché comportamenti scorretti potrebbero costare loro molto cari.
L’esistenza di schemi di come Fairly Trained, che certifica i modelli GenAI addestrati esclusivamente con dati autorizzati, testimonia l’attenzione crescente alla concessione di licenze come dimensione etica dell’AI.
Quindi esiste ed è molto fiorente un mercato dei dati e un mercato delle licenze che ha fatto emergere aggregatori di contenuti e intermediari tra titolari dei diritti e sviluppatori di IA.
Tra gli aggregatori si segnalano Datarade, Created by Humans e Protoge Media, mentre tra gli intermediari la piattaforma di distribuzione musicale TuneCore e il suo programma AI and Data Protection Program che consente di gestire le riserve di diritti per conto degli artisti e di concedere in licenza i loro contenuti per applicazioni AI.
A queste figure si affiancano le società di gestione collettiva, spesso indicate come CMO, Collective Management Organization, che sono fondamentali per facilitare e gestire la remunerazione derivante dagli accordi con le società dell’intelligenza artificiale e per distribuire i pagamenti in modo equo e trasparente.
Alcuni aggregatori si stanno specializzando nella raccolta di contenuti da piattaforme UGC, User-Generated Content, come i social network e questo rappresenta una nuova fonte di reddito per i creatori online che in passato non avevano finalità commerciali, come gli stessi utenti che pubblicano grandi volumi di contenuti sui social.
Si stima che Troveo, piattaforma di licenza e addestramento AI, abbia elaborato circa 1 milione di ore di video, di cui il 25% proveniente da creatori su YouTube, TikTok e Instagram.
Il mercato non solo esiste, ma è in rapida crescita.
Il suo valore ancora non è facilmente determinabile, ma alcune informazioni emergono soprattutto dalla stampa.
Nel prossimo approfondimento sulla Ricerca EUIPO di cui ci stiamo occupando, affronteremo il tema del prezzo dei dati e forniremo alcune indicazioni sulle tariffe praticate e sui modelli di remunerazione allo studio.
Preziosissima la tua newsletter!
Veramente incredibile il potenziale di questo mercato che potrebbe toccare sicuramente i search engine in senso lato!
Grazie mille!