Le opere protette da copyright sono utilizzabili per l’addestramento dell’AI
La Regional Court di Amburgo ha emesso la prima decisione al mondo sull’utilizzabilità di opere protette dal copyright per il training di sistemi di intelligenza artificiale.
Il 24 Settembre 2024 la Regional Court di Amburgo ha emesso la prima decisione al mondo sull’utilizzabilità di opere protette dal diritto d’autore per le attività di addestramento di sistemi di intelligenza artificiale, battendo gli Stati Uniti dove sono pendenti una quindicina di casi in attesa di una sentenza su questo spinoso e controverso tema.
Il caso ha riguardato l’associazione no profit LAION, citata in giudizio da un fotografo, dopo avere scoperto che tra le immagini dalla stessa elaborate era inclusa anche una sua fotografia sulla quale vantava dei diritti d’autore.
LAION non si occupa di sviluppare sistemi di intelligenza artificiale ma lavora nell’ambito della ricerca con lo scopo di raccogliere, principalmente dal web, immagini al fine di classificarle. In sostanza LAION acquisisce immagini legalmente disponibili, le esamina e per ognuna di esse crea un’etichetta, formando un data set di correlazioni tra le immagini e le rispettive descrizioni, pronto ad essere utilizzato dai sistemi di intelligenza artificiale per il loro addestramento.
La Corte ha definito il data set di LAION come «un tipo di documento tabellare contenente collegamenti ipertestuali a immagini o file di immagini accessibili pubblicamente su Internet, nonché ulteriori informazioni sulle immagini corrispondenti, tra cui una descrizione dell'immagine, che fornisce informazioni sul contenuto dell'immagine in forma testuale. Il set di dati comprende 5,85 miliardi di coppie immagine-testo e può essere utilizzato per addestrare la cosiddetta intelligenza artificiale generativa».
Nel caso di specie non c’è stata contestazione sul fatto che la fotografia fosse coperta da copyright e che LAION l’avesse prelevata da Internet, ma la Corte è stata chiamata a pronunciarsi sulle eccezioni alla legge del diritto d’autore che consentono di potere utilizzare materiale protetto per attività di text and data mining.
Text and data mining e il diritto di opt-out
Il text and data mining (TDM) è definito nell’art. 2 della Direttiva 2019/790 come «qualsiasi tecnica di analisi automatizzata volta ad analizzare testi e dati in formato digitale avente lo scopo di generare informazioni inclusi, a titolo non esaustivo, modelli, tendenze e correlazioni», definizione che bene rappresenta quello che accade in fase di addestramento di un sistema di intelligenza artificiale.
La stessa Direttiva prevede, all’art. 4, che gli Stati membri possono introdurre un’eccezione o una limitazione al diritto d’autore, consentendo la riproduzione e l’estrazione di dati da opere protette, su cui si abbia legalmente accesso, ma precisa che i titolari dei diritti hanno la facoltà di opporsi a questa possibilità, manifestando la loro volontà contraria in modo appropriato, esercitando un diritto di opt-out. Il codice tedesco ha incorporato questa previsione nel § 44b UrhG, che LAION ha invocato a suo favore, ma la Corte le ha dato torto.
Infatti, anche se l’immagine ripresa da LAION era liberamente accessibile dalla rete Internet, sul sito su cui era ospitata c’era la seguente dichiarazione che, secondo la Corte, doveva essere letta come una manifestazione di dissenso:
«RESTRICTIONS YOU MAY NOT: 18. Use automated programs, applets, bots or the like to access the ...com website or any content thereon for any purpose, including, by way of example only, downloading Content, indexing, scraping or caching any content on the website».
LAION ha sostenuto che questa clausola non potesse considerarsi un valido esercizio del diritto di opt-out in quanto, a differenza di quanto richiesto dalla legge, la dichiarazione mancava del requisito di leggibilità da una macchina. L’acquisizione dei dati avviene in modo automatico da parte dei programmi di scraping, senza l’intervento di un operatore umano, per cui il software deve essere in grado di comprendere il contenuto dell’opt-out per arrestarsi prima di procedere all’acquisizione.
Ciò significa, come sostengono molti, che l’opt-out può essere validamente esercitato soltanto introducendo una stringa di codice sul sito Internet, mentre diversamente non sarebbe interpretabile dal software.
La Corte, pur prendendo nota del dibattito in corso su questo tema, si è discostata da questa lettura, ritenendo che vi sarebbe una contraddizione nel consentire ai fornitori di modelli di AI di sviluppare modelli sempre più potenti per la comprensione e la creazione di testi avvalendosi dell’eccezione di text and data mining, da un lato, senza richiedere loro di utilizzare quegli stessi sistemi per leggere il linguaggio naturale, dall’altro. Dato che risulterebbero disponibili, da tempo, sistemi in grado di farlo, LAION avrebbe potuto utilizzarli, per cui la clausola di cui sopra, anche se scritta in linguaggio non informatico, è stata ritenuta sufficiente per un valido esercizio del diritto di opt-out.
Fin qui tutto a favore del fotografo, ma il passaggio fondamentale della decisione è un altro ed è questo che ha condotto al respingimento della domanda di contraffazione da lui avanzata.
Il concetto di ricerca scientifica
La Corte ha infatti ritenuto che, nonostante quanto sopra, LAION potesse avvalersi della previsione del § 60d UrhG, corrispondente all’art. 3 della Direttiva 2019/790, in base al quale esiste un’eccezione ai diritti d’autore per le riproduzioni e le estrazioni di dati protetti effettuate da organismi di ricerca a fini di ricerca scientifica.
Il concetto di ricerca scientifica è stato interpretato dalla Corte in senso ampio, come lo sforzo metodico-sistematico di acquisire nuove conoscenza e non in modo restrittivo, tale da coprire solo le fasi di lavoro direttamente associate all'acquisizione di nuove conoscenze. L’attività di ricerca è anche la fase di lavoro finalizzata a una successiva acquisizione di conoscenze, come nel caso della raccolta di numerosi dati che deve essere effettuata per poter trarre conclusioni empiriche in un secondo momento.
Pertanto, la creazione di un set di dati che può costituire la base per l'addestramento di sistemi di intelligenza artificiale, può essere considerata ricerca scientifica, anche se non è immediatamente correlata ad un aumento di conoscenza, in quanto è un lavoro fondamentale che consente di acquisire conoscenze in un momento successivo.
Il fotografo ha contestato che dietro l’attività di LAION ci fossero importanti interessi economici, ma la Corte ha evidenziato che la circostanza che il data set venga utilizzato anche da aziende commerciali per l'addestramento o l'ulteriore sviluppo dei loro sistemi di intelligenza artificiale, è irrilevante perché la ricerca delle aziende commerciali è pur sempre ricerca. Ciò che conta è esclusivamente la natura specifica dell'attività scientifica, mentre l'organizzazione e il finanziamento dell'istituzione in cui la ricerca viene svolta sono irrilevanti.
Nel caso di specie questo argomento non ha, però, avuto bisogno di particolare approfondimento, in quanto lo scopo non commerciale perseguito da LAION è stato considerato evidente per il fatto che il data set è stato messo a disposizione dei ricercatori nel campo delle reti neurali artificiali gratuitamente.
Conclusioni
Se la classificazione dei dati è un’attività di ricerca a prescindere dall’uso che ne viene fatto, le società americane che sviluppano sistemi di intelligenza artificiale, come OpenAI, sono state lungimiranti, o probabilmente ben consigliate, nell’avvalersi di organismi non profit europei per l’acquisizione dei data set di addestramento, che potrebbero rappresentare una valida schermatura contro le contestazione dei titolari dei diritti.
Ovviamente non si non può ancora scrivere la parola fine su questo argomento, la sentenza potrebbe essere ulteriormente impugnata e giungere alla Corte di Giustizia o essere contraddetta da altre decisioni, ma certamente si tratta di un coraggioso passo avanti.
L’apertura all’uso di dati protetti ai fini di addestramento di un sistema di intelligenza artificiale farebbe tirare un sospiro di sollievo a chi sviluppa sistemi AI, trattandosi di dati per loro tanto necessari quanto l’aria.
Prima di salutarvi, vi segnalo che su Stroncature è uscito il video della presentazione del libro di Stefano Feltri “10 rivoluzioni nell'economia globale (che in Italia ci stiamo perdendo)”, a cui ho partecipato come discussant.
È stato un vero piacere parlare con Stefano e con Nunziante Mastrolia degli spunti interessanti offerti dal libro, anche in relazione all’innovazione e all’intelligenza artificiale.
Buongiorno,
mi spiace informarla che il software antivirus considera il sito Stroncature come pericoloso.