Web Scraping ed intelligenza artificiale generativa, le indicazioni del garante.
Premessa
Il web scraping (detto anche web harvesting o web data extraction) è una tecnica informatica di estrazione di dati da un sito web per mezzo di programmi software. Di solito, tali programmi simulano la navigazione umana nel World Wide Web utilizzando l’Hypertext Transfer Protocol (HTTP) o attraverso browser, come Internet Explorer o Mozilla Firefox.
Strettamente correlato all’indicizzazione dei siti Internet, tale tecnica è attuata mediante l’uso di bot dalla maggior parte dei motori di ricerca. D’altro canto, il web scraping si concentra di più sulla trasformazione di dati non strutturati presenti in Rete, di solito in formato HTML, in metadati che possono essere memorizzati e analizzati in locale in un database. Il web harvesting è altresì affine alla web automation, che consiste nella simulazione della navigazione umana in Rete attraverso l’uso di software per computer.
Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping, come ad esempio rilevare e impedire ai bot la visualizzazione delle loro pagine. Per aggirare il problema esistono sistemi di web scraping che si affidano a tecniche come DOM parsing, Computer Vision e natural language processing per simulare la navigazione web umana. Grazie a queste tecniche è possibile raccogliere i contenuti delle pagine web per l’analisi offline.[1] Può essere usato per confrontare prezzi online, monitorare dati meteorologici, rilevare modifiche in un sito internet, nella ricerca scientifica, per il web mashup e il web data integration.[1]
Si parla di web scraping laddove l’attività di raccolta massiva ed indiscriminata di dati (anche personali) condotta attraverso tecniche di web crawling è combinata con un’attività consistente nella memorizzazione e conservazione dei dati raccolti dai bot per successive mirate analisi, elaborazioni ed utilizzi. Le finalità per cui vengono impiegati i bot e svolta attività di web scraping sono molteplici, talune sono senz’altro malevoli (si pensi ai tradizionali attacchi DDoS – Distributed Denial of Service – ai tentativi di login forzato, allo scalping, al furto di credenziali ed alle frodi digitali), mentre per tali altre la valutazione di liceità o illiceità resta inevitabilmente rimessa a un accertamento da compiersi caso per caso sulla base di una pluralità di valutazioni di competenza sotto taluni profili del soggetto che vi procede e sotto taluni altri al soggetto che pubblica i dati personali che formano oggetto di tale attività. Tra le finalità alla base dell’attività di web scraping, come si è anticipato, vi è anche quella di addestramento di algoritmi di intelligenza artificiale generativa. I grandi dataset utilizzati dagli sviluppatori di intelligenza artificiale generativa hanno provenienze variegate, ma il web scraping costituisce un denominatore comune. Gli sviluppatori possono, infatti, utilizzare dataset oggetto di autonoma attività di scraping, oppure attingere da data lake di terze parti i quali sono stati, a loro volta, precedentemente creati mediante operazioni di scraping. Per contro, è possibile che i dataset di addestramento siano costituiti dai dati già in possesso degli sviluppatori, come ad esempio i dati degli utenti di servizi offerti dal medesimo sviluppatore o i dati degli utenti di un social network.
Cosa prevede il Regolamento AI sull’argomento
Il regolamento sulla IA[2] al fine di garantire un livello costante ed elevato di tutela degli interessi pubblici in materia di salute, sicurezza e diritti fondamentali stabilisce regole comuni per i sistemi di intelligenza artificiale.
Allo stesso modo, il regolamento tende a migliorare il funzionamento del mercato interno istituendo un quadro giuridico uniforme in particolare per quanto riguarda lo sviluppo, l’immissione sul mercato, la messa in servizio e l’uso di sistemi di intelligenza artificiale (sistemi di IA) nell’Unione, in conformità dei valori dell’Unione, promuovere la diffusione di un’intelligenza artificiale (IA) antropocentrica e affidabile, garantendo nel contempo un livello elevato di protezione della salute, della sicurezza e dei diritti fondamentali sanciti dalla Carta dei diritti fondamentali dell’Unione europea («Carta»), compresi la democrazia, lo Stato di diritto e la protezione dell’ambiente, proteggere contro gli effetti nocivi dei sistemi di IA nell’Unione, nonché promuovere l’innovazione. Il presente regolamento garantisce la libera circolazione transfrontaliera di beni e servizi basati sull’IA, impedendo così agli Stati membri di imporre restrizioni allo sviluppo, alla commercializzazione e all’uso di sistemi di IA, salvo espressa autorizzazione del presente regolamento.
La tecnica del web scraping è presa in esame nel Considerando (43) e nell’art. 5 che riporta le pratiche di intelligenza artificiale vietate
(43) L’immissione sul mercato, la messa in servizio per tale finalità specifica o l’uso di sistemi di IA che creano o ampliano le banche dati di riconoscimento facciale mediante scraping non mirato di immagini facciali da internet o da filmati di telecamere a circuito chiuso dovrebbero essere vietati, in quanto tale pratica accresce il senso di sorveglianza di massa e può portare a gravi violazioni dei diritti fondamentali, compreso il diritto alla vita privata.
(157) (omissis) È opportuno istituire una procedura di salvaguardia specifica per garantire un’esecuzione adeguata e tempestiva rispetto ai sistemi di IA che presentano un rischio per la salute, la sicurezza e i diritti fondamentali. La procedura per siffatti sistemi di IA che presentano un rischio dovrebbe essere applicata ai sistemi di IA ad alto rischio che presentano un rischio, ai sistemi vietati che sono stati immessi sul mercato, messi in servizio o utilizzati in violazione dei divieti riguardanti le pratiche di cui al presente regolamento e ai sistemi di IA che sono stati messi a disposizione in violazione dei requisiti di trasparenza di cui al presente regolamento e che presentano un rischio.
Tra le pratiche di intelligenza artificiale vietate dall’art. 5 del Regolamento è inserita la seguente fattispecie:
l’immissione sul mercato, la messa in servizio per tale finalità specifica o l’uso di sistemi di IA che creano o ampliano le banche dati di riconoscimento facciale mediante scraping non mirato di immagini facciali da internet o da filmati di telecamere a circuito chiuso;
Le indicazioni del Garante
Il Garante privacy ha pubblicato le indicazioni[3] per difendere i dati personali pubblicati online da soggetti pubblici e privati in qualità di titolari del trattamento dal web scraping, la raccolta indiscriminata di dati personali su internet, effettuata, da terzi, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG). Il documento tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva, deliberata lo scorso dicembre.
Nel documento l’Autorità suggerisce alcune tra le misure concrete da adottare[4]:
- la creazione di aree riservate, accessibili solo previa registrazione, in modo da sottrarre i dati dalla pubblica disponibilità.
Atteso che l’addestramento dell’intelligenza artificiale generativa si basa su enormi quantità di dati che spesso provengono da attività di web scraping diretta (ovverosia effettuata dallo stesso soggetto che sviluppa il modello), indiretta (ovverosia effettuata su dataset creati mediante tecniche di web scraping da soggetti terzi rispetto allo sviluppatore del modello) od ibrida, su fonti presenti nel web, la creazione di aree riservate, a cui si può accedere solo previa registrazione, rappresenta una valida cautela in quanto sottrae dati dalla ritenuta pubblica disponibilità. Tale tipologia di cautela tecnico-organizzativa può, sebbene indirettamente contribuire ad una maggiore tutela dei dati personali rispetto ad attività di web scraping.
- l’inserimento di clausole anti-scraping nei termini di servizio dei siti; il monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita.
L’inserimento nei Termini di Servizio (ToS) di un sito web o di una piattaforma online dell’espresso divieto di utilizzare tecniche di web scraping costituisce una clausola contrattuale che, se non rispettata, consente ai gestori di detti siti e piattaforme di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte. Si tratta di una cautela di mera natura giuridica che opera, in quanto tale ex post, ma che può fungere da strumento di carattere special-preventivo e, in tal modo, fungere da deterrente, contribuendo ad una maggiore tutela dei dati personali rispetto ad attività di web scraping.
- interventi specifici sui bot utilizzando, tra le altre, le soluzioni tecnologiche rese disponibili dalle stesse società responsabili del web scraping (es: l’intervento sul file robots.txt.).
il web scraping si basa sull’utilizzo di bot. Qualunque tecnica in grado di limitare l’accesso ai bot si rivela, pertanto, un efficace metodo per arginare l’attività automatizzata di raccolta dati che viene effettuata tramite tali software. È doveroso sottolineare che nessuna tecnica che agisce sui bot è in grado di annullarne l’operatività al 100%, ma anche che alcune azioni di contrasto possono indubbiamente contribuire a prevenire/mitigare il web scraping non desiderato per finalità di addestramento dell’intelligenza artificiale generativa.
- Un semplice accorgimento tecnico quale il monitoraggio delle richieste HTTP ricevute da un sito web o da una piattaforma consente di individuare eventuali flussi anomali di dati in ingresso ed in uscita da un sito web o da una piattaforma online e di intraprendere adeguate contromisure di protezione. Tale cautela può essere accompagnata anche da un Rate Limiting, una misura tecnica che permette di limitare il traffico di rete ed il numero di richieste selezionando solo quelle provenienti da determinati indirizzi IP, al fine di impedire a priori un traffico eccessivo di dati (in particolare attacchi DDoS o web scraping). Si tratta di cautele di natura tecnica che, sebbene indirettamente, possono contribuire ad una maggiore tutela dei dati personali rispetto ad attività di web scraping per finalità di addestramento dell’intelligenza artificiale generativa.
indicazioni per gli enti e le aziende
Chi fa uso di tecniche per estrarre dati dai siti deve, in prima battuta, adottare una serie di accorgimenti utili ad evitare di incorrere in violazioni di legge.
Pertanto necessita accertare che i dati di cui si vuole compiere l’estrazione:
- siano dati personali o meno
- i dati estratti sono dati disponibili al pubblico
- siano soggetti alla normativa in materia di protezione del diritto di autore
- leggere attentamente i termini di servizio redatti dal gestore del sito, per accertare se lo stesso imponga un divieto assoluto di ricorrere a tecniche di scraping
[1] Link: https://en.wikipedia.org/wiki/Web_scraping
[2] Regolamento (UE) 2024/1689 del Parlamento europeo e del Consiglio, del 13 giugno 2024, che stabilisce regole armonizzate sull’intelligenza artificiale e modifica i regolamenti (CE) n, 300/2008, (UE) n, 167/2013, (UE) n, 168/2013, (UE) 2018/858, (UE) 2018/1139 e (UE) 2019/2144 e le direttive 2014/90/UE, (UE) 2016/797 e (UE) 2020/1828 (regolamento sull’intelligenza artificiale) (Testo rilevante ai fini del SEE). Link: https://eur-lex.europa.eu/eli/reg/2024/1689/oj?locale=it
[3] Link: https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/10077389
[4] Il Garante precisa che si tratta di misure non obbligatorie che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi: lo stato dell’arte tecnologico; i costi di attuazione, in particolare per le PMI.