​L'attività definita Web scraping fa riferimento al processo di estrazione automatica di informazioni dalle pagine Web utilizzando appositi software. L'operazione consente di recuperare dati strutturati o non strutturati dai siti online, in modo automatizzato. Un'attività che può essere utile per la raccolta di dati pubblici, ricerca, monitoraggio dei prezzi, aggregazione di contenuti, analisi della concorrenza e altro ancora. Ma il Web scraping può anche alimentare i data set dei modelli generativi di intelligenza artificiale con lo scopo di addestrarli e rispondere alle domande degli utenti.

Il Web scraping implica l'utilizzo di appositi software che analizzano il codice sorgente delle pagine collezionando i dati di interesse e, talvolta, l'intera struttura del sito. È una procedura molto versatile e oltre all'indicizzazione dei motori di ricerca, viene utilizzato anche per altri scopi:

  • Creazione di database di contatti;
  • Monitoraggio e confronto dei prezzi delle offerte online;
  • Combinazione di dati provenienti da diverse fonti online;
  • Tracciatura della presenza e della reputazione online;
  • Raccolta di dati finanziari, meteorologici e di altro tipo;
  • Monitoraggio del contenuto web per eventuali modifiche;
  • Raccolta di dati a fini di ricerca;
  • Esecuzione di data mining.

Alcuni esempi di Web scraping

Gli esempi sono numerosi: ad esempio, i motori di ricerca, come Google, che monitorano milioni di pagine web per raccogliere parole, frasi, immagini, video e tutte le informazioni utili per fornire agli utenti risultati più completi e accurati. Oppure gli strumenti di comparazione dei prezzi che aiutano gli utenti a trovare le migliori offerte su determinati prodotti o servizi. Il monitoraggio degli annunci di lavoro da più siti web contemporaneamente e la raccolta di indirizzi e-mail per scopi di marketing.

Il web scraping è legale quanto si vanno ad acquisire dati liberi e pubblici, non protetti da diritto d'autore. Semmai il punto della discussione riguarda l'utilizzo dei dati, spesso venduti a terzi al fine di creare delle truffe su misura e delle campagne spam personalizzate. Gli operatori dei portali web hanno il diritto di installare le misure protettive più idonee, ma spesso vengono aggirate illegalmente, violando le condizioni dei termini di servizio.​

Non è possibile costituire un elenco telefonico diverso dal DBU. Per utilizzare le numerazioni telefoniche è necessario un consenso preventivo. Non possono essere raccolti dati di contatto per mezzo di web-scraping e deve essere assicurato il diritto di cancellazione degli utenti

Il provvedimento del Garante

Il Garante privacy, tuttavia, è molto attento al problema e recentemente è intervento con un provvedimento nei confronti del titolare del sito web trovanumeri.com: stop alla costituzione e diffusione online di un elenco telefonico formato con i dati tramite Web scraping e ingiunzione del pagamento di una sanzione di 60 mila euro. L'attuale quadro normativo non consente infatti la creazione di elenchi telefonici generici, che non siano estratti dal data base unico (DBU) dei numeri telefonici e dei dati identificativi dei clienti di tutti gli operatori nazionali di telefonia fissa e mobile.

Dagli accertamenti dell'Autorità è emerso che il titolare del sito non aveva un'idonea base normativa per trattare i dati; sul sito non disponeva delle indicazioni per rivolgersi al titolare del trattamento e non c'era la possibilità di ottenere la cancellazione dei dati in caso di mancato funzionamento dell'apposito form. Anche nella breve informativa privacy pubblicata non era indicato l'intestatario del sito, la cui identificazione ha richiesto lunghe indagini. Il Garante ha dichiarato dunque illecita la raccolta, la conservazione e la pubblicazione dei dati personali.

Numerosissime sono state in questi anni i ricorsi ai tribunali e le richieste di intervento ricevute dal Garante relative alla pubblicazione non autorizzata di nominativi, indirizzi, numeri di telefono, anche di titolari di utenze riservate.

In Italia, ad esempio, un altro caso di presunto Web scraping molto noto riguarda la causa che 2019 che Trenitalia ha intentato nei confronti della società inglese Gobright Media Ltd, società produttrice di Trenìt, app che consente all'utente di confrontare le tariffe dei treni ad alta velocità. Il centro del contenzioso sono i dati e la loro licenza d'utilizzo: Trenitalia, infatti, accusava la società britannica di utilizzare impropriamente la propria banca dati, accendendo a informazioni quali gestione del traffico ferroviario, costo dei biglietti, orari, ritardi, etc… Il tribunale di Roma ha prima ordinato a Gobright di cessare l'attività di Web scraping e successivamente ha autorizzato l'attività, perché non realizzava una sostanziale sottrazione dei dati.

Allargando il focus vanno menzionati altri casi noti inerenti il Web scraping illegale di aziende che abusano e violano i termini di servizio o le norme sul copyright.

Con la sentenza della Corte d'Appello della Nona Circoscrizione degli Stati Uniti, LinkedIn ha intentato causa per impedire a un concorrente, HiQ, di eseguire lo scraping di informazioni personali dai profili pubblici del social network degli utenti. Nel 2020, la sentenza ha stabilito che la legge CFAA non era stata violata perché i dati di LinkedIn oggetto di scraping erano pubblici (non protetti da password).

Un altro caso alla ribalta della cronaca riguarda Clearview AI: l'azienda di riconoscimento facciale ha ricevuto una pesante multa per aver eseguito lo scraping di milioni di foto di volti di persone presi dai social media. Clearview AI trattava dati sensibili senza una base giuridica valida. 

Nel caso trovanumeri.com il Garante ha così ribadito alcuni importanti princìpi: chi affida le proprie informazioni di contatto al web, ha finalità che non sono necessariamente quella di ricevere comunicazioni di marketing o vederli indicizzati ed ulteriormente diffusi. Raccogliere dati di contatto per formare elenchi da utilizzare successivamente con finalità di marketing, è illecito. Così come lo è diffondere tali dati sotto forma di elenco.

Nel definire l'ammontare dell'ammenda l'Autorità ha tenuto conto della gravità della violazione, dell'elevato numero di soggetti i cui dati sono stati pubblicati (circa 26 milioni di utenti), della durata della violazione e del carattere doloso della condotta dell'intestatario.

Come difendersi dal Web scraping

Ma è possibile per gli utenti difendersi dal web scraping?

Innanzitutto, si possono creare aree riservate nei siti web in cui si può entrare esclusivamente attraverso registrazione, come avviene sui social network, che hanno diversi livelli per usufruire di determinati contenuti. Oppure possono essere utilizzati servizi anti-bot, file robots.txt, o il blocco degli indirizzi IP dei bot. È comunque molto importante prevedere nei termini di servizio (TOS) di un sito il divieto assoluto di utilizzare tecniche di scraping per il recupero sistematico di dati e informazioni.