I metodi di anonimizzazione alla prova dei sistemi LLL

Premessa

Fino a prima dell’avvento dei sistemi di intelligenza artificiale si riteneva che rimuovere i dati personali da un testo garantisse la anonimizzazione dei dati.

Oggi i ricercatori[1] ci insegnano che la rimozione dei dati personali da un testo ne comporta la de-identificazione e non l’anonimato.

Cosa significa l’acronomo LLM[2]

Un modello linguistico di grandi dimensioni (anche modello linguistico ampio o modello linguistico grande), noto anche con l’inglese large language model (in sigla LLM) è un tipo di modello linguistico notevole per essere in grado di ottenere la comprensione e la generazione di linguaggio di ambito generale. Gli LLM acquisiscono questa capacità adoperando enormi quantità di dati per apprendere miliardi di parametri nell’addestramento e consumando grandi risorse di calcolo nell’operatività. L’aggettivo “grande” presente nel nome si riferisce alla grande quantità di parametri del modello probabilistico (nell’ordine dei miliardi). Gli LLM sono in larga parte reti neurali artificiali e in particolare trasformatori e sono (pre-)addestrati usando l’apprendimento autosupervisionato o l’apprendimento semisupervisionato.

In quanto modelli linguistici autoregressivi, funzionano prendendo in ingresso un testo e predicendo ripetutamente la parola o il simbolo immediatamente successivi. Fino al 2020, la regolazione fine dei parametri era l’unico modo di adattare un modello affinché fosse capace di compiere determinati compiti. Invece, per modelli più grandi, come GPT-3, risultati simili possono essere ottenuti lavorando sul testo in ingresso (detto prompt, “spunto”), con un processo di ingegnerizzazione dello stesso chiamato appunto in inglese prompt engineering. Si pensa che questo genere di modelli acquisiscano implicitamente la conoscenza della sintassi, della semantica e della “ontologia” intrinseche nei corpi linguistici usati nell’addestramento, ma al contempo imprecisioni o pregiudizi eventualmente presenti negli stessi testi. Le principali sfide attuali di questi grandi modelli comprendono, tra le altre cose, errori fattuali,[7] pregiudizi linguistici,[8] pregiudizi di genere, pregiudizi razziali e pregiudizi politici.[3]

Gli attuali sistemi LLL raggiungono prestazioni quasi a livello umano nel dedurre dati personali da testi online del mondo reale. Con le capacità dei modelli in costante aumento, i metodi esistenti di anonimizzazione del testo sono attualmente inadeguati rispetto ai requisiti normativi e alle minacce avversarie. Questo solleva la questione di come gli individui possano proteggere efficacemente i propri dati personali quando li condividono online.

Recenti studi hanno dimostrato (Staab et al., 2023) che i moderni LLM possono essere utilizzati in modo improprio per previsioni personali ad alta precisione.

Il concetto di anonimizzazione è stato oggetto di una Opinion rilasciata dal Garante Europeo per la Protezione dei dati (EDPB)[4]

In riferimento a tale questione, l’EDPB ha precisato come anche quando un modello di IA non è stato intenzionalmente progettato per fornire informazioni relative a una persona fisica identificata o identificabile a partire dai dati di addestramento, le informazioni del dataset di addestramento, inclusi i dati personali, possono comunque rimanere “assorbite” nei parametri del modello e possono essere estratte o altrimenti ottenute, direttamente o indirettamente, dal modello in una fase successiva anche grazie a tecniche di analisi in continua evoluzione.

Tale forte dichiarazione di principio è tesa ad evitare una deriva verso la deresponsabilizzazione in un mercato nel quale pochi soggetti sviluppano e addestrano modelli, e molti altri li impiegano attraverso diverse forme di riaddestramento per scopi propri. Non c’è dunque alcuna automatica interruzione di responsabilità tra development deployment, e chi usa un modello che non ha sviluppato deve sapere che può trovarsi a trattare dati personali.

Naturalmente, la ragionevolezza dello sforzo necessario per estrarre dati personali dai parametri del modello conta, e se lo sforzo è “irragionevole” allora la natura anonima dei parametri di un modello di IA può essere affermata. Tuttavia, prosegue l’EDPB, la ricerca scientifica è particolarmente dinamica in questo settore e occorre tenerne conto ed essere sempre aggiornati.

Il metodo

In linea generale, affinché un modello di IA possa essere considerato anonimo, sia:

 (1) la probabilità di estrazione diretta (anche probabilistica) di dati personali riguardanti individui i cui dati personali sono stati utilizzati per sviluppare il modello e

(2) la probabilità di ottenere, intenzionalmente o meno, tali dati personali derivanti da interrogazioni,

dovrebbero essere irrilevanti, tenendo conto di “tutti i mezzi che ragionevolmente possono essere utilizzati” dal responsabile del trattamento o da un’altra persona. 

Per condurre la propria valutazione, le Autorità nazionali di controllo (SA) dovrebbero esaminare la documentazione fornita dal titolare del trattamento per dimostrare l’anonimato del modello. A tale riguardo, il parere fornisce un elenco non prescrittivo e non esaustivo di metodi che possono essere utilizzati dai titolari del trattamento per dimostrare l’anonimato, e che quindi possono essere presi in considerazione dalle autorità di controllo nel valutare la richiesta di anonimato del titolare del trattamento. Ciò riguarda, ad esempio, gli approcci adottati dai titolari del trattamento, durante la fase di sviluppo, per prevenire o limitare la raccolta di dati personali utilizzati a fini di formazione, per ridurne l’identificabilità, per impedirne l’estrazione o per fornire garanzie circa la resistenza allo stato dell’arte agli attacchi.

Sulla natura dei modelli di IA in relazione alla definizione di dato personale

L’articolo 4, paragrafo 1, GDPR definisce i dati personali come “qualsiasi informazione riguardante una persona fisica identificata o identificabile” (ossia l’interessato). Inoltre, il considerando 26 GDPR prevede che i principi di protezione dei dati non dovrebbero applicarsi alle informazioni anonime, vale a dire informazioni che non si riferiscono a una persona fisica identificata o identificabile, tenendo conto di “tutti i mezzi che ragionevolmente possono essere utilizzati” dal titolare del trattamento o da un’altra persona. Ciò include:

(i) dati che non sono mai stati correlati a un individuo identificato o identificabile; e

(ii) dati personali che sono stati resi anonimi in modo tale che l’interessato non sia o non sia più identificabile.

L’EDPB con la Opinion n. 28-2024 ha inteso fornire le seguenti considerazioni generali.

I modelli di intelligenza artificiale, indipendentemente dal fatto che siano addestrati o meno con dati personali, sono generalmente progettati per fare previsioni o trarre conclusioni, ovvero sono progettati per dedurre. Inoltre, i modelli di intelligenza artificiale addestrati con dati personali sono spesso progettati per fare inferenze su individui diversi da quelli i cui dati personali sono stati utilizzati per addestrare il modello di intelligenza artificiale. Tuttavia, alcuni modelli di intelligenza artificiale sono progettati specificamente per fornire dati personali riguardanti individui i cui dati personali sono stati utilizzati per addestrare il modello o in qualche modo per rendere disponibili tali dati. In questi casi, tali modelli di intelligenza artificiale includeranno intrinsecamente (e in genere necessariamente) informazioni relative a una persona fisica identificata o identificabile, e quindi comporteranno il trattamento di dati personali. Pertanto, questi tipi di modelli di intelligenza artificiale non possono essere considerati anonimi. Questo sarebbe il caso, ad esempio,

(i) di un modello generativo messo a punto sulle registrazioni vocali di un individuo per imitarne la voce; o

(ii) qualsiasi modello progettato per rispondere con i dati personali della formazione quando vengono richieste informazioni riguardanti una persona specifica. Sulla base delle considerazioni di cui sopra, nel rispondere alla domanda 1 della richiesta, l’EDPB si concentra sulla situazione dei modelli di IA che non sono progettati per fornire dati personali relativi ai dati di addestramento.

L’EDPB ritiene che, anche quando un modello di IA non è stato intenzionalmente progettato per produrre informazioni relative a una persona fisica identificata o identificabile dai dati di addestramento, le informazioni provenienti dall’insieme di dati di addestramento, compresi i dati personali, potrebbero comunque rimanere “assorbite” nei parametri del modello, ovvero rappresentato attraverso oggetti matematici. Possono differire dai dati di addestramento originali, ma possono comunque conservare le informazioni originali di tali dati, che alla fine possono essere estraibili o altrimenti ottenute, direttamente o indirettamente, dal modello. Ogni volta che informazioni relative a individui identificati o identificabili i cui dati personali sono stati utilizzati per addestrare il modello possono essere ottenute da un modello di intelligenza artificiale con mezzi ragionevolmente probabili da utilizzare, si può concludere che tale modello non è anonimo.  A questo proposito, la richiesta afferma che “le pubblicazioni di ricerca esistenti evidenziano alcune potenziali vulnerabilità che possono esistere nei modelli di intelligenza artificiale che potrebbero comportare il trattamento di dati personali, così come il trattamento di dati personali che potrebbe avvenire quando i modelli vengono utilizzati per l’uso con altri dati, tramite interfacce di programmazione dell’applicazione (“API”) o interfacce “prompt””.

Sulla base delle considerazioni di cui sopra, l’EDPB ritiene che i modelli di intelligenza artificiale formati su dati personali non possano, in tutti i casi, essere considerati anonimi. Invece, la determinazione se un modello di IA sia anonimo dovrebbe essere valutata, sulla base di criteri specifici, caso per caso. 3.2 Sulle circostanze in cui i modelli di IA potrebbero essere considerati anonimi e la relativa dimostrazione relativa alla domanda 1 della richiesta, si chiede all’EDPB di chiarire le circostanze in cui un modello di IA, che è stato formato utilizzando dati personali, può essere considerato anonimo.

Per quanto riguarda la questione 1, lettera i), lettera a), della richiesta 27 , si chiede all’EDPB di chiarire quali prove e/o documentazione le autorità di revisione dovrebbero prendere in considerazione nel valutare se un modello di IA è anonimo.

Considerazione generale sull’anonimizzazione nel contesto in questione L’uso dell’espressione “qualsiasi informazione” nella definizione di “dato personale” all’articolo 4, paragrafo 1, GDPR riflette l’obiettivo di assegnare un ampio campo di applicazione a tale concetto, che comprende ogni tipo di informazione purché “riguardante” l’interessato, identificato o identificabile, direttamente o indirettamente.  Le informazioni possono riguardare una persona fisica anche quando sono tecnicamente organizzate o codificate (ad esempio in un formato leggibile solo da una macchina, proprietario o aperto) in un modo che non rende immediatamente evidente la relazione con quella persona fisica. In tali casi, è possibile utilizzare applicazioni software per identificare, riconoscere ed estrarre facilmente dati specifici.

Poiché i modelli di intelligenza artificiale di solito non contengono record che possono essere direttamente isolati o collegati, ma piuttosto parametri che rappresentano relazioni probabilistiche tra i dati contenuti nel modello, potrebbe essere possibile dedurre informazioni dal modello, come l’appartenenza inferenza, in scenari realistici. Pertanto, affinché un’autorità di controllo possa concordare con il titolare del trattamento che un determinato modello di IA possa essere considerato anonimo, dovrebbe verificare almeno se ha ricevuto prove sufficienti che, con mezzi ragionevoli:

  • i dati personali, relativi ai dati di formazione, non possono essere estratto dal modello; e
  • qualsiasi output prodotto durante l’interrogazione del modello non si riferisce agli interessati i cui dati personali sono stati utilizzati per addestrare il modello.  Le autorità di controllo dovrebbero considerare tre elementi nel valutare se tali condizioni siano soddisfatte.
  • In primo luogo, le autorità competenti dovrebbero considerare gli elementi individuati nei più recenti pareri del WP29 e/o nelle linee guida dell’EDPB in materia. Per quanto riguarda l’anonimizzazione alla data del presente Parere, le SA dovrebbero considerare gli elementi inclusi nel WP29 Opinion 05/2014 sulle tecniche di anonimizzazione (il “WP29 Opinion 05/2014”), il quale afferma che se non è possibile individuare, collegare e dedurre informazioni da un set di dati apparentemente anonimo, i dati possono essere considerati anonimi. Si afferma inoltre che “ogniqualvolta una proposta non soddisfa uno dei criteri, dovrebbe essere effettuata una valutazione approfondita dei rischi di identificazione”. Considerata la summenzionata probabilità di estrazione e inferenza, l’EDPB

ritiene che molto probabilmente i modelli di intelligenza artificiale richiedano una valutazione così approfondita dei rischi di identificazione.

In secondo luogo, tale valutazione dovrebbe essere effettuata tenendo conto di “tutti i mezzi che ragionevolmente possono essere utilizzati” dal responsabile del trattamento o da un’altra persona per identificare le persone, e la determinazione di tali mezzi dovrebbe basarsi su fattori oggettivi, come spiegato nel Considerando 26 GDPR, che possono includere:

a. le caratteristiche dei dati di addestramento stessi, il modello di AI e la procedura di addestramento;

b. il contesto in cui il modello di IA viene rilasciato e/o elaborato;

c. le ulteriori informazioni che potrebbero consentire l’identificazione e che potrebbero essere a disposizione della persona interessata;

d. i costi e il tempo necessario alla persona per ottenere tali informazioni aggiuntive (nel caso in cui non siano già a sua disposizione); ed

e. la tecnologia disponibile al momento del trattamento, nonché gli sviluppi tecnologici.

Le autorità di controllo dovrebbero valutare se i titolari del trattamento hanno valutato il rischio di identificazione da parte del titolare del trattamento e di diversi tipi di “altre persone”, compresi terzi non intenzionali che accedono al modello di IA, valutando anche se possano ragionevolmente essere considerati in grado di ottenere l’accesso o trattare i dati in questione.  In sintesi, l’EDPB ritiene che, affinché un modello di IA possa essere considerato anonimo, utilizzando mezzi ragionevoli, sia

(i) la probabilità di estrazione diretta (anche probabilistica) di dati personali riguardanti individui i cui dati personali sono stati utilizzati per addestrare il modello; nonché

(ii) la probabilità di ottenere, intenzionalmente o meno, tali dati personali a seguito di query, dovrebbe essere insignificante per qualsiasi interessato. Per impostazione predefinita, le autorità di vigilanza dovrebbero considerare che i modelli di IA richiederanno probabilmente una valutazione approfondita della probabilità di identificazione per giungere a una conclusione sulla loro possibile natura anonima. Tale probabilità dovrebbe essere valutata tenendo conto di “tutti i mezzi che ragionevolmente possono essere utilizzati” dal titolare del trattamento o da un’altra persona, e dovrebbe anche considerare il (ri)utilizzo o la divulgazione non intenzionale del modello. 

Gli elementi per valutare la probabilità residua di identificazione

Mentre potrebbero essere adottate misure sia in fase di sviluppo che di implementazione al fine di ridurre la probabilità di ottenere dati personali da un modello di IA, la valutazione dell’anonimato di un modello di IA dovrebbe anche considerare accesso diretto al modello.  Inoltre, le autorità di controllo dovrebbero valutare, caso per caso, se le misure attuate dal titolare del trattamento per garantire e dimostrare che un modello di IA è anonimo sono adeguate ed efficaci.

In particolare, la conclusione della valutazione di un’autorità di controllo potrebbe differire tra un modello di IA disponibile al pubblico, accessibile a un numero sconosciuto di persone con una gamma sconosciuta di metodi per cercare di estrarre dati personali, e un modello di IA interno accessibile solo a dipendenti. Sebbene in entrambi i casi le autorità di controllo dovrebbero verificare che i titolari del trattamento abbiano adempiuto ai loro obblighi di responsabilità ai sensi dell’articolo 5, paragrafo 2, e dell’articolo 24 GDPR, i “mezzi che ragionevolmente possono essere utilizzati” da altre persone possono avere un impatto sulla portata e sulla natura dei possibili scenari da considerare. Pertanto, a seconda del contesto di sviluppo e implementazione del modello, le SA possono considerare diversi livelli di test e resistenza agli attacchi.

Conclusione

Lo sviluppo della tecnologia in materia di sistemi di intelligenza artificiale, così come attestato anche da recenti studi di settore, devono indurre aziende ed enti a rivedere i concetti di anonimizzazione e pseudonimizzazione sia:

  • ai fini della determinazione se sia applicabile ad un dato trattamento la normativa in materia di protezione dei dati personali;
  • sia, qualora si pervenga alla conclusione che il trattamento abbia ad oggetto anche dati personali, al fine della individuazione delle misure tecniche e organizzative che – tenuto conto dello stato dell’arte e dei costi di attuazione, nonché della natura, dell’oggetto, del contesto e delle finalità del trattamento, come anche del rischio di varia probabilità e gravità per i diritti e le libertà delle persone fisiche – che il titolare e il responsabile del trattamento dovranno “mettere a terra”.

[1] Large Language Models are Advanced Anonymizers; di Robin Staab, Mark Vero, Mislav Balunovi´c e Martin Vechev

[2] Link: https://it.wikipedia.org/wiki/Modello_linguistico_di_grandi_dimensioni

[3] Esempi noti di modelli linguistici grandi sono i modelli GPT di OpenAI (ad esempio GPT-3, oppure GPT-3.5 e GPT-4, usati in ChatGPT), PaLM di Google (usato in Gemini), e LLaMa di Meta, nonché BLOOM, Ernie 3.0 Titan, e Claude 2 di Anthropic.

[4] Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models Adopted on 17 December 2024

About Author /

Dott. Prof.( a.c.) Davide De Luca - Compliance & Cybersecurity Advisor - LinkedIn

Lascia un commento

Your email address will not be published.

Start typing and press Enter to search