Dati di addestramento AI e Fair use: la decisione Thomson v. ROSS non scrive la parola fine
I commentatori hanno salutato questa decisione preliminare come una grande vittoria degli autori, ma è ancora presto per trarre conclusioni così azzardate per due motivi.
Buongiorno a tutti e a tutte,
prima di lasciarvi all’articolo di oggi, vi comunico che giovedì 6 marzo sarò a Firenze per partecipare come speaker all’evento "𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝘇𝗮 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹𝗲: 𝗿𝗶𝘃𝗼𝗹𝘂𝘇𝗶𝗼𝗻𝗲 𝗲 𝗼𝗽𝗽𝗼𝗿𝘁𝘂𝗻𝗶𝘁𝗮̀", organizzato dalla Confcommercio di Firenze-Arezzo.
Con me tanti importanti relatori per parlare di intelligenza artificiale, di diritto d'autore, di opportunità e conseguenze concrete per le aziende.
Per maggiori informazioni e per iscriversi all'evento: https://confcommercio.ar.it/articoli/confcommercio-firenze/23053-intelligenza-artificiale-e-futuro-del-terziario-a-firenze-levento-di-confcommercio
Ci vediamo a Firenze!
«Un uomo intelligente sa quando ha ragione, un uomo saggio sa quando ha torto».
Con queste parole il Giudice Bibas della Corte distrettuale del Delaware apre la sua ultima Opinion con la quale cambia la sua precedente presa di posizione sul fair use, nel caso Thomson v. Ross (Thomson Reuters Enterprise Centre GmbH v. ROSS Intelligence Inc., Case No. 1: 20-cv-00613, D. Del. 2021).
Il caso
Il 6 maggio 2020, Thomson aveva citato in giudizio ROSS, accusandola di aver copiato il database giuridico di Westlaw, comprese le annotazioni, per addestrare il proprio sistema di ricerca legale. In particolare ROSS si era servita di LegalEase, partner di Westlaw, tramite il quale aveva potuto utilizzare il database di Thomson, nonostante la licenza d’uso proibisse espressamente il suo impiego per sviluppare prodotti in concorrenza, cosa che ROSS ha poi fatto.
Thomson ha quindi chiesto che ROSS fosse condannata per violazione diretta di diritto d’autore, oltre che per violazione della licenza, per avere utilizzato le informazioni della banca dati per creare un sistema, basato sull’intelligenza artificiale, in concorrenza con quello di Thomson.
ROSS ha respinto le accuse, sostenendo che l’eventuale sovrapposizione fosse trascurabile e che le annotazioni non fossero soggette a protezione del diritto d’autore, ma soprattutto invocando a suo favore la dottrina americana del fair use, per cui è possibile un uso limitato di opere protette senza il consenso del titolare del copyright, se sussistono una serie di elementi. In particolare si devono tenere in considerazione almeno quattro fattori:
l’uso trasformativo della seconda opera, che può sussistere se ha un nuovo scopo o significato rispetto all’originale;
la natura dell’opera protetta, la sua originalità rispetto al soggetto trattato;
la quantità e importanza della parte copiata;
l’effetto su mercato, che può essere rilevante se la seconda opera si pone in concorrenza con l’opera originale copiata.
La decisione del Giudice
In un primo momento il Giudice aveva ritenuto di non potere assumere alcuna valutazione preliminare sul caso, ma che fosse necessario un giudizio di merito approfondito per comprendere il funzionamento del sistema.
Adesso, invece, afferma che dopo avere studiato meglio la questione è pronto ad esprimere la sua valutazione, diversamente da quanto scritto in precedenza e sul fair use nega che questa dottrina possa applicarsi al caso di specie.
I commentatori hanno salutato questa decisione preliminare come una grande vittoria degli autori, ma è ancora presto per trarre conclusioni così azzardate per due ordini di motivi.
Primo, perché, pur trattandosi di un caso relativo ad una banca dati che utilizza l’intelligenza artificiale per le funzioni di ricerca, non siamo di fronte né ad un’AI generativa, secondo perché i dati in questione non sono stati utilizzati per l’addestramento di un sistema AI, per cui i casi più rilevanti e preoccupanti devono ancora essere decisi.
La banca dati di ROSS, scrive il Giudice, ha copiato le note a margine di ogni caso preparate da Thomson, le ha classificate con codici numerici e le ha utilizzate come fonte da cui attingere per fornire i risultati delle ricerche, non per addestrare un sistema di intelligenza artificiale. Siamo quindi di fronte al plagio di una banca dati che è stata utilizzata come base per le ricerche di un’altra banca dati, più evoluta, che utilizza sistemi di intelligenza artificiale per ottimizzare le ricerche, ma questo non ha niente a che vedere con il ben diverso, e serio, problema dei dati di addestramento coperto da copyright.
Il Giudice lo dice chiaramente nella sua decisione:
«È incontestato che l'intelligenza artificiale di Ross non sia un'IA generativa (cioè un'IA che genera autonomamente nuovi contenuti). Al contrario, quando un utente inserisce una domanda legale, Ross restituisce opinioni giudiziarie pertinenti già scritte. Questo processo è simile al modo in cui Westlaw utilizza le note redazionali e il sistema di numerazione per fornire un elenco di casi con note pertinenti».
Questa è, di fatto, una contraffazione classica che non ha niente a che vedere con l’utilizzo di dati di addestramento, per questo il Giudice può decidere subito superando i precedenti dubbi che lo avevano assalito e può affermare che l’uso che ROSS ha fatto della banca dati del concorrente è illecito e non consente l’applicazione della dottrina del fair use.
Questa decisione è quindi ben lungi dallo scrivere la parola fine sul dibattuto tema dell’utilizzo di dati coperti da copyright per il training dei sistemi AI e i legali dei sistemi coinvolti in altre importanti cause legali, come OpenAI o Anthropic, avranno ampi margini di manovra per evidenziare la diversità dei loro casi rispetto a questo.
Il punto cruciale
C’è però un punto della decisione che qualche preoccupazione potrebbe destarla ed è quello in cui il Giudice, dopo avere evidenziato la natura del trattamento di dati fatto da ROSS che non è, afferma, un uso a fini di training, aggiunge che:
«non ha importanza se Thomson Reuters abbia utilizzato i dati per addestrare i propri strumenti di ricerca legale; l'impatto su un potenziale mercato per i dati di addestramento AI è sufficiente. Ross ha l'onere della prova. Non ha fornito abbastanza fatti per dimostrare che questi mercati non esistano e non ne sarebbero influenzati».
Il Giudice sembra quindi dire che non importa se i dati non sono stati utilizzati per addestrare un sistema AI che, nel caso di specie, non è neppure un sistema di AI generativa, perché quello che conta è l’impatto che la nuova banca dati può avere sul mercato, incluso il “potenziale mercato dei dati” che ROSS non ha dimostrato che non esista e che non possa essere influenzato dal suo servizio.
È proprio l’ipotetica esistenza di un mercato dei dati, che viene definito come potenziale, che apre una breccia sulla possibilità che i sistemi AI debbano pagare per utilizzare dati di addestramento, senza tuttavia esplicitarlo in modo chiaro ed essendo troppo presto per stabilire se questa sia la reale posizione della Corte.
Se questa incrinatura aprirà una crepa profonda o resterà un graffio marginale sull’applicabilità del fair use ai dati di addestramento, potranno rivelarlo solo le prossime decisioni su casi ben più rilevanti e pertinenti che attendono il verdetto finale.