Il prezzo dei dati di addestramento per l’intelligenza artificiale
Un’analisi dei prezzi di licenza sulle diverse piattaforme di aggregazione mostra che le tariffe dei dati per il training dei sistemi AI possono variare in base a diversi fattori.
Nell’ultimo articolo sul rapporto dell’EUIPO abbiamo visto come il mercato dei dati di addestramento sia molto fiorente e come stiano nascendo anche nuove figure professionali e nuovi modelli di business intorno a questo fenomeno.
Le licenze sui dataset per l’addestramento dell’AI
Mentre da un lato è attivo un forte contenzioso promosso dai titolari dei diritti nei confronti degli sviluppatori di sistemi di intelligenza artificiale, dall’altro si comincia a ragionare sul possibile sfruttamento economico dei dati di addestramento.
Il tema di cui ci occupiamo oggi sono le tariffe.
Anche se le informazioni sul costo dei dati di addestramento non vengono generalmente rese pubbliche, si possono rintracciare notizie dalla stampa. Ovviamente dovranno essere considerate con una certa cautela ma sono comunque un punto di partenza rilevante.
Quanto costano i dati di addestramento per l’AI?
Un articolo di Reuters riporta che la piattaforma di hosting di immagini Photobucket avrebbe trattato licenze ad un costo variabile tra 0,05 e 1 dollaro per foto, a seconda del tipo di licenziatario e di immagine, mentre la piattaforma Freepik avrebbe concesso in licenza la maggior parte del suo archivio di duecento milioni di immagini a tariffe comprese tra 0,02 e 0,04 dollari per immagine.
Sempre in base a quanto riportato da Reuters, alcuni intermediari di licenze avrebbero dichiarato che gli sviluppatori di sistemi AI sarebbero disposti a pagare 1–2 dollari per immagine, 2–4 dollari per video brevi e 100–300 dollari per ora di filmati lunghi, mentre contenuti sensibili come immagini di nudo, utilizzate per addestrare filtri GenAI, possono arrivare a costare 5–7 dollari per immagine.
Secondo un articolo di Bloomberg, Adobe avrebbe acquistato clip video per l’addestramento a una media di 3 dollari al minuto, mentre altre fonti riportano prezzi variabili da 1 a 6 dollari al minuto di video. La piattaforma di licenze video Calliope indica un prezzo di 6,25 dollari al minuto per contenuti video HD, con un sovrapprezzo per contenuti 4K o 3D.
Si tratta di cifre molto elevate se si pensa alla quantità di dati di cui gli sviluppatori possono avere bisogno, considerando anche che i costi da sostenere non finiscono qui.
Gli sviluppatori dovranno spendere altri importi per l’etichettatura e l’annotazione dei dati e le cifre, nuovamente, non sono basse. Amazon SageMaker Ground Truth per l’etichettatura indica una tariffa di 0,012 dollari per classificazione base, 0,036 dollari per etichettatura con bounding box, 0,84 dollari per segmentazione semantica oltre una tariffa mensile di 0,08 dollari per oggetto, con la conseguenza che i costi di annotazione possono superare quelli della licenza del dato grezzo.
Il valore di un’opera come dato di addestramento può dipendere dalla quantità di dati che ne possono essere estratti per ottenere informazioni e correlazioni e questa è una peculiarità dei dati di addestramento che non viene regolamentata nelle licenze tradizionali che non mirano a questo scopo.
Nel caso dei dati di addestramento i contenuti protetti vengono scomposti in token, quindi opere più lunghe o in alta risoluzione generano più token e diventano più importanti e costose, per cui è possibile che sul piano commerciale la tokenizzazione possa essere considerata come base di calcolo del prezzo.
Come vengono decise le tariffe
Allo stato attuale, un’analisi dei prezzi di licenza sulle diverse piattaforme di aggregazione mostra che le tariffe possono variare in base a diversi fattori, tra cui il volume dei dati, la risoluzione, le variazioni di contenuto, le zoomate, la possibilità di modificare i tag.
Molte piattaforme differenziano i prezzi anche in base allo specifico caso d’uso.
I contenuti utilizzati per addestrare AI generali o generative hanno un sovrapprezzo, così come i dati di addestramento per generare dati sintetici, probabilmente per il fatto che questi dati sintetici possano sostituire parzialmente i contenuti reali o umani nel processo di addestramento. Anche se i dati sintetici non sono sempre adeguati all’addestramento, tanto che un loro uso eccessivo potrebbe portare al collasso del modello, potrebbero in futuro essere preferiti a causa dell’aumento dei costi dei dataset naturali.
Sul prezzo dei dati intervengono molti fattori di cui si deve tenere conto nei contratti di licenza che non possono essere quelli classici finora noti, in quanto le esigenze del mercato sono diverse e molto peculiari.
Anche l’interpretazione di concetti contrattuali standard, come la durata e la cessazione del contratto, pongono seri problemi in caso di dati utilizzati a fini di training. Inoltre i contenuti protetti da copyright concessi in licenza per addestrare modelli, possono essere riutilizzati per addestrare versioni future degli stessi modelli e il concetto di “utilizzi di addestramento successivi” potrebbe essere più adeguato dei tradizionali periodi contrattuali limitati nel tempo.
Ci sono anche dubbi su come interpretare la “risoluzione del contratto” nel momento in cui i dati concessi in licenza sono stati già ingeriti e incorporati nel funzionamento di un modello.
Le decisioni di prezzo dei titolari dovranno quindi considerare sia il valore iniziale dei dati, sia il loro potenziale valore residuo nei processi di memorizzazione e apprendimento ricorsivo.
La nascita di nuove associazioni
Per risolvere tutti questi problemi e individuare nuove forme contrattuali adatte a soddisfare le nuove esigenze del mercato stanno nascendo nuove forme di associazionismo.
Dataset Providers Alliance (DPA), ad esempio, è un consorzio di aggregatori indipendenti e intermediari di licenze per l’intelligenza artificiale, tra cui Rightsify, Global Copyright Exchange (GCX), vAIsual, Calliope Networks, ado, Datarade e Pixta AI, che ha lo scopo di promuovere la trasparenza e la standardizzazione nella concessione in licenza di contenuti di proprietà intellettuale.
DPA ha ipotizzato diverse licenze e in particolare una Licenza basata sull’uso con tariffe proporzionali al volume di dati utilizzati e alla scala di distribuzione del modello, una Licenza basata sui risultati in cui la royalty è legata al successo commerciale dei modelli addestrati, un Modello in abbonamento con accesso a più livelli, una Licenza ibrida, con una tariffa iniziale e una royalty in base alle prestazioni e una serie di Licenze settoriali personalizzate per ambiti specifici.
Nel calcolo delle tariffe da includere nei contratti di licenza, può giocare un ruolo rilevante anche la reciprocità.
Gli accordi con gli sviluppatori spesso prevedono che le risposte generate dall’AI includano citazioni e link alla fonte originale, generando traffico verso i contenuti dei licenzianti. Sebbene il tasso di clic dipenda dal tipo di contenuto, un fattore determinante nei termini di licenza è la lunghezza massima dell’estratto (snippet) che può essere utilizzato, in quanto snippet più lunghi possono ridurre la probabilità che l’utente visiti la fonte originale, abbassando il traffico e viceversa. Pertanto snippet più lunghi possono giustificare tariffe più alte, ma meno traffico, mentre snippet più brevi possono comportare tariffe più basse, ma maggiore traffico verso la fonte.
Altro aspetto importante che può influire sul prezzo delle licenze è la monetizzazione dell’esperienza nella governance dei dati che può essere una voce della trattativa. I data scientist dei fornitori di contenuti hanno competenze specifiche nella cura dei dati e queste competenze rappresentano un asset prezioso, che può essere monetizzato negli accordi di licenza diretta.
Un aspetto peculiare, ma molto rilevante, da tenere in considerazione nei contratti di licenza sui dati di addestramento riguarda la possibilità di includere una forma di remunerazione che, oltre che al training, si estenda agli output.
Musical AI stipula accordi con i produttori di registrazioni sonore o con intermediari per poi concedere in licenza i cataloghi agli sviluppatori AI che li utilizzano come dati di addestramento e nell’accordo di licenza prevede l’obbligo di rendicontazione dei contenuti generati dal sistema. Musical AI afferma, infatti, di possedere un sistema software proprietario in grado di determinare in che misura gli output generati siano attribuibili ai singoli input di addestramento e su questa base può calcolare il compenso dovuto.
Si tratta di un modello simile a quello usato dalle piattaforme di streaming musicale, dove una parte dei ricavi generati viene distribuita ai titolari dei diritti in base al numero di riproduzioni dei contenuti.
La CMO musicale tedesca GEMA, nel 2024, ha introdotto un modello di licenza che prevede una royalty standard del 30% del reddito netto del fornitore GenAI, una royalty minima legata alla quantità di output generato e una partecipazione degli autori ai benefici economici dell’uso successivo della musica generata, almeno nei casi in cui questa sarebbe soggetta a licenza se fosse stata creata da esseri umani.
Secondo uno studio di Wang et al. del 2024, si potrebbe addirittura proporre un modello di condivisione dei ricavi tra sviluppatori e titolari dei diritti basato sulla teoria del valore di Shapley utilizzata per calcolare il contributo di ogni titolare di diritti all’output generato, attribuendo un contributo maggiore alle fonti che stilisticamente somigliano all’output prodotto e riconoscendo maggiore rilevanza alle fonti specializzate.
EKILA sta sviluppando un sistema per individuare la provenienza e l’attribuzione dei media sintetici attraverso l’uso di uno standard che permette di incorporare metadati dettagliati nelle immagini sintetiche, tracciandone l’origine fino al modello generativo e ai dati di addestramento specifici.
Il sistema utilizza NFT che includono diritti d’uso e attribuzione e consente di potere gestire licenze dinamiche oltre che supportare pagamenti automatici delle royalty tramite smart contract legati ai diritti tokenizzati.
Grazie agli NFT è inoltre possibile eseguire aggiornamenti della proprietà garantendo la continuità della provenienza anche in caso di trasferimento degli asset, mentre la struttura decentralizzata aumenta la fiducia e la resilienza, pur dovendo fare i conti con alcune criticità, tra cui la complessità dell’implementazione e lo scetticismo verso blockchain e criptovalute.
Al momento si tratta di spunti e di proposte, molto interessanti, che ci dimostrano ancora una volta come l’intelligenza artificiale ci obblighi ad utilizzare, adesso più che mai, la fantasia e l’immaginazione, spinti dalla necessità di affrontare in modo nuovo il futuro che ci aspetta.
Dell’uomo c’è ancora molto, tanto bisogno.