Il Governo della Intelligenza Artificiale Generale: visto dall’altra sponda dell’Oceano. Come delineare un profilo di rischio per il futuro.

Premessa

L’evoluzione dell’intelligenza artificiale ha raggiunto un punto di svolta. I modelli GPAI – general-purpose AI – non sono più strumenti specializzati, ma piattaforme versatili che alimentano un’intera galassia di applicazioni. Da GPT-4 a Claude, da Gemini a LLaMA, questi “foundation models” possiedono capacità emergenti, impatti sistemici e potenziali rischi catastrofici. Come gestire, allora, questa nuova complessità? Il Center for Long-Term Cybersecurity dell’Università di Berkeley propone un Profilo di Gestione del Rischio[1], un quadro operativo pensato per chi sviluppa e implementa i modelli GPAI.

Il documento nasce con un’intenzione chiara: offrire una guida concreta a sviluppatori, regolatori e utenti, affinché l’innovazione non superi la capacità della società di comprenderla e controllarla. Il profilo integra gli standard NIST e ISO, ma si concentra sulle sfide uniche poste dai modelli ad uso generale. Non si tratta di una norma vincolante, bensì di una buona pratica, uno “strumento ponte” tra sviluppo tecnologico e regolazione emergente.

Tra i punti salienti troviamo l’invito a fissare soglie di tolleranza al rischio, sospendere lo sviluppo di modelli se emergono impatti severi, identificare gli usi prevedibili e quelli abusivi. Grande attenzione è data al red teaming, alla tracciabilità dei rischi non misurabili, alla necessità di audit indipendenti. Viene raccomandata una documentazione trasparente, tramite schede di sistema o model cards, per facilitare il dialogo con utenti e stakeholder.

Il profilo distingue con chiarezza tra i rischi per individui (diritti, sicurezza, benessere), gruppi vulnerabili (bias, disuguaglianze) e impatti sociali sistemici (democrazia, ambiente, CBRN). I requisiti di affidabilità comprendono sicurezza, robustezza, trasparenza, equità, privacy e capacità esplicativa.

Ciò che emerge, oltre alla ricchezza tecnica del documento, è un’etica della responsabilità. Chi costruisce modelli ad alto impatto ha anche il dovere di valutare le conseguenze a monte. Non è sufficiente delegare agli sviluppatori di applicazioni: la prevenzione dei rischi più gravi – inclusi quelli emergenti – comincia già nella fase di progettazione del modello.

Il documento non ignora le sfide dell’open source: il rilascio aperto dei pesi di un modello comporta benefici in termini di trasparenza e accessibilità, ma anche rischi di abuso. Viene quindi suggerito un approccio graduale, con rilascio controllato e valutazione approfondita prima di ogni apertura completa.

In definitiva, questo profilo rappresenta una bussola per orientarsi nella complessità della nuova intelligenza artificiale. Non è solo un manuale tecnico, ma una proposta culturale: governare l’AI significa non lasciarsi governare da essa. Una tecnologia potente merita una governance all’altezza – informata, multidisciplinare, e soprattutto, lungimirante.

Modelli di IA sempre più multifunzionali, come i modelli linguistici di grandi dimensioni all’avanguardia o altri modelli di “IA di uso generale” (GPAI), i “modelli di fondazione”, i modelli di IA generativi[2] e i “modelli di frontiera”[3] (in genere denominati di seguito con il termine generico [4]“modelli GPAI/di fondazione”), possono offrire numerose funzionalità utili, ma anche rischi di eventi avversi come la manipolazione su larga scala delle persone attraverso la disinformazione generata dai modelli di IA o altri eventi con impatti dannosi su scala sociale. Questo documento fornisce un profilo degli standard di gestione del rischio dell’IA, ovvero un insieme mirato di pratiche o controlli di gestione del rischio specificamente per l’identificazione, l’analisi e la mitigazione dei rischi dei modelli GPAI/di fondazione. Questo profilo è progettato per integrare le linee guida ampiamente applicabili del NIST AI Risk Management Framework (AI RMF) o di uno standard di gestione del rischio dell’IA correlato come ISO/IEC 23894.

Le “funzioni principali” del NIST AI RMF, ovvero ampie categorie di attività, si applicano, ove appropriato, a tutti i cicli di vita dei sistemi di IA e forniamo le relative linee guida nelle sezioni correlate di questo Profilo: “Governare” (Sezione 3.1) per le policy, i ruoli e le responsabilità del processo di gestione del rischio di IA; “Mappare” (Sezione 3.2) per l’identificazione dei rischi di IA nel contesto; “Misurare” (Sezione 3.3) per la valutazione delle caratteristiche di affidabilità dell’IA; e “Gestire” (Sezione 3.4) per le decisioni su come stabilire le priorità, evitare, mitigare o accettare i rischi di IA. Gli utenti di questo Profilo dovrebbero dare la massima priorità alle seguenti fasi di gestione del rischio e alle corrispondenti sezioni delle linee guida del Profilo. (L’applicazione appropriata delle linee guida del Profilo per le seguenti fasi dovrebbe essere considerata come base di riferimento o aspettative minime per gli utenti di questo Profilo; gli utenti di questo Profilo possono superare le aspettative minime applicando anche le linee guida in altre sezioni.)

Verificare o aggiornare, e incorporare, ciascuna delle seguenti fasi di gestione del rischio ad alta priorità quando si prendono decisioni di “go/no-go”, in particolare se procedere con fasi importanti o investimenti per lo sviluppo o l’implementazione di modelli GPAI/fondamentali all’avanguardia su larga scala (Gestione 1.1). » • Assumersi la responsabilità delle attività di valutazione e gestione del rischio per le quali la propria organizzazione ha accesso a informazioni, capacità o opportunità per sviluppare competenze sufficienti per un’azione costruttiva, o che siano sostanzialmente maggiori rispetto ad altre nella catena del valore (Governo 2.1). Raccomandiamo inoltre di applicare questo principio in tutte le altre fasi di valutazione e gestione del rischio e vi facciamo spesso riferimento in altre sezioni delle linee guida. » • Definire soglie di tolleranza al rischio per prevenire rischi inaccettabili (Mappa 1.5). Ad esempio, il NIST AI RMF 1.0 raccomanda quanto segue: “Nei casi in cui un sistema di intelligenza artificiale presenta livelli di rischio negativi inaccettabili, ad esempio quando sono imminenti impatti negativi significativi, si stanno effettivamente verificando danni gravi o sono presenti rischi catastrofici, lo sviluppo e l’implementazione dovrebbero cessare in modo sicuro finché i rischi non possono essere gestiti in modo adeguato” (NIST 2023a, p.8).

Identificare gli usi, gli usi impropri e gli abusi ragionevolmente prevedibili di un modello GPAI/fondazione (ad esempio, la generazione automatizzata di contenuti tossici o illegali o disinformazione, o il sostegno alla proliferazione di armi informatiche, chimiche, biologiche, radiologiche o nucleari) e identificare i potenziali impatti ragionevolmente prevedibili (ad esempio, sui diritti fondamentali)[5] (Mappa 1.1).

Identificare se un modello GPAI/fondazione potrebbe portare a impatti significativi, gravi o catastrofici, ad esempio a causa di guasti o errori correlati in domini di distribuzione ad alto rischio, comportamenti o vulnerabilità emergenti pericolosi o usi impropri e abusi dannosi (Mappa 5.1). • Utilizzare red-team e test avversari come parte di un’ampia interazione con i modelli GPAI/fondazione per identificare capacità, vulnerabilità o altre proprietà emergenti pericolose di tali sistemi (Misura 1.1). • Monitorare i rischi identificati importanti (ad esempio, vulnerabilità dovute a data poisoning e altri attacchi o errata specificazione degli obiettivi) anche se non possono ancora essere misurati (Misura 1.1 e Misura 3.2). • Implementare controlli di riduzione del rischio in modo appropriato durante l’intero ciclo di vita di un modello GPAI/fondazione, ad esempio auditing indipendente, scale-up incrementale, red-teaming, accesso strutturato o rilascio graduale e altri passaggi (Manage 1.3, Manage 2.3 e Manage 2.4). • Incorporare i fattori di rischio identificati del sistema di intelligenza artificiale e le circostanze che potrebbero causare impatti o danni nella rendicontazione e nell’interazione con le parti interessate interne ed esterne (ad esempio, quando si segnala a sviluppatori a valle, autorità di regolamentazione, utenti, comunità interessate, ecc.) sul sistema di intelligenza artificiale, come appropriato, ad esempio utilizzando schede modello, schede di sistema e altri meccanismi di trasparenza (Govern 4.2).

Raccomandiamo inoltre: Documentare il processo utilizzato per considerare i controlli di mitigazione del rischio, le opzioni considerate e le motivazioni delle scelte. La documentazione su molti elementi dovrebbe essere condivisa in materiale pubblicamente disponibile, come le schede di sistema. I dettagli su elementi specifici, come le vulnerabilità di sicurezza, possono essere responsabilmente omessi dai materiali pubblici per ridurre il potenziale di abuso, soprattutto se disponibili a revisori, organizzazioni di condivisione e analisi delle informazioni o altre parti, a seconda dei casi. Gli argomenti relativi al rischio relativi al modello GPAI/fondamentale e le relative sezioni di guida in questo Profilo includono quanto segue. (Alcuni di questi argomenti si sovrappongono ad altri, in parte perché le linee guida spesso prevedono valutazioni iterative per un ulteriore approfondimento delle problematiche identificate nelle fasi precedenti.) » • Impatti ragionevolmente prevedibili (Sezione 3.2, Mappa 1.1), tra cui: Per gli individui, inclusi gli impatti sulla salute, la sicurezza, il benessere o i diritti fondamentali;

Ai gruppi, comprese le popolazioni vulnerabili a impatti o danni avversi sproporzionati; e Alla società, compresi gli impatti ambientali. •

Fattori di danno significativi, gravi o catastrofici (Sezione 3.2, Mappa 5.1), tra cui:

Pregiudizi e discriminazioni correlati;

 Impatti sulla fiducia sociale o sui processi democratici;

Fallimenti di robustezza correlati;

Potenziale per usi impropri ad alto impatto, come per armi informatiche o armi chimiche, biologiche, radiologiche o nucleari (CBRN);

Capacità di manipolare o ingannare gli esseri umani in modi dannosi;

Perdita di comprensione e controllo di un sistema di intelligenza artificiale in un contesto reale. • Caratteristiche di affidabilità dell’IA (Sezione 3.4, Misura 2[6]), tra cui:

Sicurezza, affidabilità e robustezza (Misura 2.5: Il sistema di IA da implementare si dimostra valido e affidabile. Sono documentati i limiti della generalizzabilità al di là delle condizioni in cui la tecnologia è stata sviluppata.

, Misura 2.6: Il sistema di IA viene valutato regolarmente per individuare i rischi per la sicurezza, come identificato nella funzione Mappa. Il sistema di IA da implementare è dimostrato sicuro, il suo rischio negativo residuo non supera la tolleranza al rischio e può fallire in sicurezza, in particolare se utilizzato oltre i limiti di conoscenza. Le metriche di sicurezza riflettono l’affidabilità e la robustezza del sistema, il monitoraggio in tempo reale e i tempi di risposta in caso di guasti del sistema di IA.

);

 Sicurezza e resilienza (Misura 2.7: La sicurezza e la resilienza del sistema di intelligenza artificiale, come identificate nella funzione Mappa, vengono valutate e documentate.

);

Responsabilità e trasparenza (Misura 2.8: I rischi associati alla trasparenza e alla responsabilità, come identificati nella funzione Mappa, vengono esaminati e documentati.

);

Spiegabilità e interpretabilità (Misura 2.9: Il modello di intelligenza artificiale viene spiegato, convalidato e documentato, e l’output del sistema di intelligenza artificiale viene interpretato nel suo contesto, come identificato nella funzione Mappa, per informare l’uso e la governance responsabili.);  È fondamentale garantire che gli utenti sappiano interpretare il comportamento e gli output del sistema, inclusi i limiti del sistema stesso e le spiegazioni fornite. Tuttavia, la spiegabilità e l’interpretabilità sono spesso estremamente limitate per i LLM e altri modelli GPAI/fondazione con architetture di deep learning. Questi sistemi possono essere inappropriati per applicazioni che richiedono un livello più elevato di spiegabilità e interpretabilità. Per alcuni modelli GPAI/fondazione sempre più performanti, l’affidabilità di alcune tecniche (come la RLHF) per l’allineamento del comportamento del modello con i valori o le intenzioni umane potrebbe essere migliorata integrando metodi di interpretabilità sufficienti a prevenire un “allineamento ingannevole” (Hubinger et al. 2019, Ngo, Chan et al. 2022). • Sebbene le tecniche di interpretabilità non siano ancora sufficienti per valutare rischi come i fallimenti nascosti della RLHF per l’allineamento tra GPAI e modelli di fondazione, gli sviluppatori di modelli GPAI/fondazione (in particolare i modelli di frontiera) dovrebbero includere tali rischi in un registro dei rischi o in un altro strumento per tracciare i rischi identificati difficili da valutare. (Si vedano le linee guida correlate in questo documento alla Misura 3.2.)

Nelle linee guida del NIST AI RMF Playbook per la Misura 2.9, elementi di azione e documentazione particolarmente utili per i modelli GPAI/fondamentali includono: • Quale tipo di informazioni sulla progettazione, le operazioni e i limiti del sistema di IA è accessibile agli stakeholder esterni, inclusi utenti finali, consumatori, autorità di regolamentazione e individui interessati dall’uso del sistema di IA? Nel Profilo GAI del NIST, azioni aggiuntive particolarmente utili per la Misura 2.9 includono: • Applicare e documentare i risultati della spiegazione del ML (ad esempio, analisi degli embedding, attribuzioni basate su gradiente, compressione del modello/modelli surrogati, occlusione/riduzione dei termini) • Documentare i dettagli del modello GAI, inclusi: Uso proposto e valore organizzativo; Ipotesi e limitazioni; Metodologie di raccolta dati; Provenienza dei dati; Qualità dei dati; Architettura del modello; Obiettivi di ottimizzazione; Algoritmi di addestramento; Approcci RLHF; Approcci di fine-tuning o generazione aumentata dal recupero; Dati di valutazione; Considerazioni etiche; Requisiti legali e normativi.

Privacy (Misura 2.10); Le sfide per la privacy dei modelli GPAI/fondazione includono il problema che, dopo il pre-addestramento su grandi quantità di dati web non curati o provenienti da altre fonti, materiale personale sensibile presente nei dati di addestramento può essere rivelato tramite richieste dell’utente. I log e le cronologie dell’interazione con i modelli GPAI/fondazione possono includere anche informazioni altamente sensibili o personali, che potrebbero essere soggette a violazioni o fughe di dati. Nelle linee guida del NIST AI RMF Playbook per la Misura 2.10, elementi di azione e documentazione particolarmente preziosi per i modelli GPAI/fondazione includono: • Documentare la raccolta, l’uso, la gestione e la divulgazione di informazioni personali sensibili nei set di dati, in conformità con le policy sulla privacy e sulla governance dei dati. • Stabilire e documentare protocolli (autorizzazione, durata, tipo) e controlli di accesso per i set di addestramento o i dati di produzione contenenti informazioni personali sensibili, in conformità con le policy sulla privacy e sulla governance dei dati. Monitorare le query interne ai dati di produzione per individuare pattern che isolano i dati personali. • La vostra organizzazione ha implementato pratiche basate sulla responsabilità nella gestione e protezione dei dati (ad esempio, i Principi sulla privacy PDPA e OCSE)? • Quali valutazioni ha condotto l’ente sulla sicurezza dei dati e sugli impatti sulla privacy associati al sistema di intelligenza artificiale? Ulteriori passaggi utili da considerare includono: • Consentire alle persone di acconsentire e/o negare il consenso all’utilizzo dei propri dati. • Informare gli utenti e le comunità interessate in merito a violazioni della privacy o della sicurezza. Nel Profilo GAI del NIST, azioni aggiuntive particolarmente utili per la Misura 2.10 includono: • Condurre un red-teaming sull’intelligenza artificiale per valutare problematiche quali: Emissione di campioni di dati di training e successivi rischi di reverse engineering, estrazione di modelli e inferenza di appartenenza; Rivelazione di informazioni biometriche, riservate, protette da copyright, concesse in licenza, brevettate, personali, proprietarie, sensibili o marchiate; Monitoraggio o rivelazione di informazioni sulla posizione di utenti o membri di set di dati di training. (Vedere anche le linee guida in questo documento per Govern 2.1 per quanto riguarda i ruoli degli sviluppatori upstream e degli sviluppatori e distributori downstream, e vedere le linee guida in questo documento alla Misura 1.1 sugli approcci per misurare i rischi identificati per i modelli GPAI/fondamentali.)

Equità e parzialità (Misura 2.11: L’equità e la parzialità, come identificate nella funzione Mappa, vengono valutate e i risultati vengono documentati.).

ɧ Completezza, rappresentatività ed equilibrio delle fonti di dati. ɧ Identificare le caratteristiche dei dati di input che possono fungere da proxy per l’appartenenza a gruppi demografici (ad esempio, punteggio di credito, codice postale) o altrimenti dare origine a pregiudizi emergenti all’interno dei sistemi di intelligenza artificiale. ɧ Forme di pregiudizio sistemico in immagini, testo (o incorporamenti di parole), audio o altri dati complessi o non strutturati. • Sfruttare le valutazioni di impatto per identificare e classificare gli impatti e i danni del sistema per gli utenti finali, altri individui e gruppi con input da comunità potenzialmente colpite. • Identificare le categorie di individui, gruppi o ecosistemi ambientali che potrebbero essere colpiti attraverso il coinvolgimento diretto con comunità potenzialmente colpite. • Raccogliere e condividere informazioni sulle differenze nei risultati per i gruppi identificati. • In che modo l’entità ha identificato e mitigato i potenziali impatti di pregiudizi nei dati, inclusi risultati iniqui o discriminatori?

Ulteriori passaggi preziosi includono: • Esaminare lo sviluppo e l’utilizzo del sistema di intelligenza artificiale per individuare potenziali minacce ai diritti umani, alla dignità o al benessere. • Assicurarsi che l’interfaccia utente del sistema di intelligenza artificiale sia utilizzabile da persone con bisogni speciali o disabilità, o da persone a rischio di esclusione. • Determinare metodi per distribuire i benefici del sistema in modo ampio ed equo.


[1] Profilo degli standard di gestione del rischio dell’IA per l’IA a scopo generale (GPAI) e i modelli di base. Autori: ANTHONY M. BARRETT • JESSICA NEWMAN • BRANDIE NONNECKE • NADA MADKOUR† DAN HENDRYCKS • EVAN R. MURPHY • KRYSTAL JACKSON • DEEPIKA RAMAN

[2] IA generativa: “Qualsiasi sistema di IA la cui funzione principale è generare contenuti” (Toner 2023). In genere, utilizziamo il termine “IA generativa” solo per evidenziare problematiche specifiche del testo sintetico (che può includere codice software), immagini, video, audio o altri media sintetici. (In altri documenti, “IA generativa” è spesso utilizzata approssimativamente nello stesso modo in cui utilizziamo il termine “GPAI/modello di base”). » Esempi di IA generativa: “Esempi tipici di sistemi di IA generativa includono generatori di immagini (come Midjourney o Stable Diffusion), modelli linguistici di grandi dimensioni o modelli multimodali (come GPT-4, PaLM o Claude), strumenti di generazione di codice (come [GitHub] Copilot) o strumenti di generazione audio (come VALL-E o resemble.ai)” (Toner 2023).

[3] Modello di frontiera: un modello GPAI o di fondazione all’avanguardia, allo stato dell’arte o altamente capace; tali modelli possono anche possedere capacità pericolose o a doppio uso sufficienti a rappresentare gravi rischi per la sicurezza pubblica. (Si veda, ad esempio, Ganguli, Hernandez et al. 2022, Anderljung, Barnhart et al. 2023 e Microsoft 2023.) » Consideriamo i modelli di frontiera il sottoinsieme più grande e con la più alta capacità dei modelli GPAI/di fondazione. Sono tipicamente caratterizzati da dimensioni del modello, elaborazione o dati di addestramento e/o capacità risultanti superiori o prossime alle soglie record del settore. (Si veda anche “frontiera del modello di fondazione” nel Glossario.) » » Il nostro utilizzo del termine “modello di frontiera” corrisponde approssimativamente ai modelli di fondazione a doppio uso, come definiti dall’Ordine Esecutivo 141101 (Casa Bianca 2023c) e ai modelli GPAI con rischio sistemico, come definiti dall’EU AI Act (EP 2024). Esempi di modelli di frontiera: ad agosto 2024, i modelli in prossimità o alla frontiera del settore includono GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 e Llama 3.1 405B.2

[4] Sistema di IA generico (GPAI o GPAIS): “Un sistema di IA in grado di svolgere o essere adattato per svolgere una serie di compiti distinti, inclusi alcuni per i quali non è stato intenzionalmente e specificamente addestrato” (Gutierrez et al. 2022, p. 22). » » » Nei GPAIS attualmente disponibili, in genere un singolo modello GPAI/fondamentale di grandi dimensioni svolge un ruolo centrale come componente fondamentale di un GPAIS. Esempi di GPAIS includono sistemi di IA generativi unimodali (ad esempio, GPT-3) e sistemi generativi multimodali (ad esempio, DALL-E 3), nonché sistemi di apprendimento per rinforzo come MuZero e sistemi di IA con capacità emergenti. I GPAIS non includono sistemi di IA a scopo fisso addestrati specificamente per compiti come la classificazione di immagini o il riconoscimento vocale (Gutierrez et al. 2022).

[5][5][5] Modello di base o modello di IA generico (GPAI/modello di base): “Qualsiasi modello addestrato su dati di grandi dimensioni (generalmente utilizzando l’autosupervisione su larga scala) che può essere adattato (ad esempio, perfezionato) a un’ampia gamma di attività a valle” (Bommasani et al. 2021, p. 3). Trattiamo “modelli GPAI/di base” come un termine generico che include anche modelli di frontiera e modelli di IA generativa, salvo nei casi in cui sia necessario essere più specifici. » » » In genere, un singolo modello GPAI/di base di grandi dimensioni svolge un ruolo centrale come componente fondamentale di un sistema GPAI che incorpora un modello GPAI/di base. (Vedi GPAI, di seguito.) – Un modello GPAI/di base può spesso fungere da GPAIS, soprattutto se lo sviluppatore del modello GPAI/di base rilascia un modello GPAI/di base dopo aver aggiunto elementi come la messa a punto delle istruzioni, un’interfaccia utente in stile chatbot, ecc. Pertanto, molti modelli GPAI/di base come GPT-3 possono essere considerati GPAIS. – Le dichiarazioni e le linee guida di ampia portata contenute nel presente documento sui “sistemi di IA” si applicano in genere anche ai modelli GPAI/fondamentali, salvo ove espressamente esclusi (ad esempio, dichiarazioni sui sistemi di IA a scopo fisso). Il nostro utilizzo dei termini “modello di IA a scopo generale” e “sistema di IA a scopo generale” è molto simile ai termini corrispondenti nell’EU AI Act (EP 2024), con la differenza che non escludiamo i modelli di IA utilizzati per la ricerca. Esempi di modelli fondazionali includono GPT-4, Claude 3, PaLM 2, LLaMA 2 e altri.

[6] Misura 2: i sistemi di intelligenza artificiale vengono valutati in base a caratteristiche di affidabilità.

About Author /

Dott. Prof.( a.c.) Davide De Luca - Compliance & Cybersecurity Advisor - LinkedIn

Lascia un commento

Your email address will not be published.

Start typing and press Enter to search