AI ACT, privacy e web scraping
L'AI ACT non regolamenta il trattamento dei dati, rinviando al GDPR. Ma l'effettiva applicabilità del GDPR ai sistemi di intelligenza artificiale è tutt'altro che certa.
L’AI Act non regolamenta tutte le materie che impattano sui sistemi di intelligenza artificiale, rinviando a normative già esistenti.
Tra gli argomenti non trattati in modo specifico rientra il trattamento dei dati personali che, pure, ha una rilevanza notevole in questo settore, per il quale si rinvia genericamente al General Data Protection Regulation (GDPR), entrato in vigore nel 2016, richiamato espressamente all’interno della Relazione di accompagnamento all’AI Act.

Il rinvio, da un lato, può sembrare superfluo, trattandosi di una normativa a cui tutti quanti siamo già sottoposti, mentre dall’altro può sembrare insufficiente, in quanto per la natura dei sistemi di intelligenza artificiale e per il loro meccanismo di funzionamento, potrebbe rendersi difficile una piena conformità.
Per rendersene conto basta pensare allo scraping.
Web scraping per il training dei sistemi di AI
I sistemi di AI, per essere addestrati e migliorati, necessitano di importanti quantità di dati che vengono raccolti attraverso appositi programmi, i c.d. bot, in maniera massiva e indiscriminata, con la conseguenza che al loro interno può finire di tutto, non solo dati personali generici, ma anche dati particolari, come quelli che rivelano l'origine razziale o etnica, le opinioni politiche, le convinzioni religiose o filosofiche, l'appartenenza sindacale, dati genetici, biometrici, relativi alla salute, alla vita sessuale o all'orientamento sessuale.
Questi dati richiedono un consenso espresso ed informato per il loro lecito utilizzo, che non si può certo ottenere in fase di scraping e tanto meno la mera possibilità di reperire i dati online può equivalere al consenso.
Inoltre, il GDPR impone il rispetto di una serie di principi che, quanto meno, male si adattano ad una raccolta di dati massiva. Detti principi sono:
Principio di liceità, correttezza e trasparenza, che impone che i dati debbano essere trattati in modo lecito, corretto e trasparente nei confronti dell'interessato;
Principio di limitazione della finalità, che stabilisce che i dati debbano essere raccolti per finalità determinate, esplicite e legittime;
Principio di minimizzazione dei dati, che impone che gli stessi debbano essere adeguati, pertinenti e limitati a quanto necessario rispetto alle finalità per le quali sono trattati;
Principio di esattezza, che prevede l’esattezza dei dati trattati e, se necessario, l’aggiornamento o la rettifica degli stessi;
Principio di limitazione della conservazione, che impone che i dati vengano conservati per un arco di tempo non superiore al conseguimento delle finalità per le quali sono trattati;
Principio di integrità e riservatezza, che stabilisce che venga garantita adeguata sicurezza e protezione dei dati personali, anche mediante misure tecniche e organizzative idonee.
In aggiunta, gli artt. 13 e 14 GDPR impongono un obbligo di informativa al titolare del trattamento dei dati, che non si comprende come possa essere data.
Per di più, il GDPR riconosce e garantisce anche i diritti riconosciuti dagli artt. 7 e da 15 a 21 del GDPR, ovvero:
Diritto di revocare il consenso;
Diritto di accesso, ossia il diritto di ottenere dal titolare del trattamento la conferma che sia o meno in corso un trattamento di dati personali che lo riguardano e in tal caso, di ottenere l'accesso ai dati personali e a determinate informazioni;
Diritto di rettifica, ovvero il diritto alla modificazione dei dati personali inesatti che riguardano l’interessato senza ingiustificato ritardo;
Diritto all’oblio, ossia il diritto dell’interessato alla cancellazione dei dati che lo riguardano senza ingiustificato ritardo in presenza di determinati requisiti;
Diritto di limitazione, con riferimento all’attività di trattamento in corso;
Diritto alla portabilità dei dati, che prevede il diritto dell’interessato di ricevere in un formato strutturato, di uso comune e leggibile da dispositivo automatico i dati personali che lo riguardano forniti a un titolare del trattamento e ha il diritto di trasmettere tali dati a un altro titolare del trattamento senza impedimenti da parte del titolare del trattamento cui li ha forniti qualora siano soddisfatti determinati requisiti;
Diritto di opposizione, in virtù del quale l'interessato ha il diritto di opporsi in qualsiasi momento, per motivi connessi alla sua situazione particolare
Ovviamente il soggetto sarebbe impossibilitato ad esercitare tali diritti una volta che i suoi dati, raccolti dal web, finiscano nel calderone dei dati di addestramento.
Si tratta di un problema forse più teorico che pratico, proprio perché i dati personali una volta elaborati dal sistema non sarebbero rintracciabili, ma in linea teorica ricordiamo che, ai sensi del GDPR, per trattamento si intende «qualsiasi operazione o insieme di operazioni, compiute con o senza l'ausilio di processi automatizzati e applicate a dati personali o insiemi di dati personali, come la raccolta, la registrazione, l'organizzazione, la strutturazione, la conservazione, l'adattamento o la modifica, l'estrazione, la consultazione, l'uso, la comunicazione mediante trasmissione, diffusione o qualsiasi altra forma di messa a disposizione, il raffronto o l'interconnessione, la limitazione, la cancellazione o la distruzione», per cui al suo interno rientrano le attività compiute in fase di addestramento.
La decisione dell’Autorità Garante Privacy di Amburgo
Su questo intricato punto si è espressa, il 15 Luglio 2024, l’Autorità Garante di Amburgo emanando uno specifico Discussion Paper in cui ha stabilito che:
«La semplice detenzione di un LLM non costituisce un trattamento ai sensi dell'articolo 4 (2) del GDPR. Questo perché negli LLM non vengono memorizzati dati personali. Nella misura in cui i dati personali sono trattati in un sistema di AI supportato da LLM, il trattamento deve essere conforme ai requisiti del GDPR. Ciò vale in particolare per l'output di tale sistema di AI».
L’Autorità si concentra sugli LLM, i Large Language Models, modelli di AI progettati per comprendere, generare e manipolare il linguaggio umano su larga scala, che sono integrati in sistemi di intelligenza artificiale più complessi come ChatGPT e afferma che, una volta che l’LLM è stato sviluppato e addestrato, i dati iniziali non sono più disponibili, in quanto sono stati usati e analizzati per creare il modello, ma non sono stati conservati.
Questa affermazione è sostanzialmente vera perché, stando almeno alle informazioni che abbiamo a disposizione dai produttori, durante il training vengono estratte informazioni dai dati, ma non viene conservata alcuna copia degli stessi.
Il punto, però, è che il problema si sposta a monte, al momento dell’addestramento e la stessa Autorità afferma che «l’addestramento di un LLM che utilizza dati personali deve essere conforme alle norme sulla protezione dei dati» e che «durante l’addestramento, devono essere rispettati anche i diritti degli interessati» per poi concludere che «tuttavia, le potenziali violazioni durante la fase di addestramento degli LLM non pregiudicano la liceità dell'utilizzo di tale modello all'interno di un sistema di AI».
Quindi, anche se il Garante tedesco ha sostenuto che i dati immessi all’interno di un LLM non sono più reperibili o ricomponibili in un secondo momento all’interno del sistema di AI, per cui il suo utilizzo non integra un trattamento di dati personali, il problema resta per la fase di addestramento di cui il Garante non si è occupato.
Conclusioni
Nonostante l’importanza della decisione dell’Autorità Garante tedesca, permangono ancora incertezze riguardo all'effettiva applicabilità del GDPR ai sistemi di intelligenza artificiale, come richiesto dall'AI Act, tanto che c’è chi ritiene necessario un intervento legislativo.
Su questo importante tema si è concentrato il G7 dei Garanti Privacy, tenutosi a Roma dal 9 all’11 Ottobre, con l’obiettivo di definire, attraverso la redazione dell’Action Plan e degli altri documenti finali, una proposta comune per una sicura e responsabile circolazione dei dati personali e per armonizzare le tecnologie emergenti e l’intelligenza artificiale con la libertà delle persone.
Lo scopo del G7 è stato anche quello di promuovere una più stretta ed efficace azione di controllo sull’applicazione della normativa in materia di protezione dati, auspicando il riconoscimento, da parte dei Governi, di un ruolo adeguato alle Autorità di protezione dei dati nel sistema complessivo di governance dell’AI, dandosi appuntamento al G7 Privacy 2025 che sarà ospitato dall’Autorità canadese.
Non è quindi escluso che, nonostante l’ipertrofismo normativo a cui siamo assistendo, si renda necessario un ulteriore intervento che tenga conto delle peculiarità dei sistemi di intelligenza artificiale.