Il provvedimento del Garante
Il Garante privacy, tuttavia, è molto attento al problema e recentemente è intervento con un provvedimento nei confronti del titolare del sito web trovanumeri.com: stop alla costituzione e diffusione online di un elenco telefonico formato con i dati tramite Web scraping e ingiunzione del pagamento di una sanzione di 60 mila euro. L'attuale quadro normativo non consente infatti la creazione di elenchi telefonici generici, che non siano estratti dal data base unico (DBU) dei numeri telefonici e dei dati identificativi dei clienti di tutti gli operatori nazionali di telefonia fissa e mobile.
Dagli accertamenti dell'Autorità è emerso che il titolare del sito non aveva un'idonea base normativa per trattare i dati; sul sito non disponeva delle indicazioni per rivolgersi al titolare del trattamento e non c'era la possibilità di ottenere la cancellazione dei dati in caso di mancato funzionamento dell'apposito form. Anche nella breve informativa privacy pubblicata non era indicato l'intestatario del sito, la cui identificazione ha richiesto lunghe indagini. Il Garante ha dichiarato dunque illecita la raccolta, la conservazione e la pubblicazione dei dati personali.
Numerosissime sono state in questi anni i ricorsi ai tribunali e le richieste di intervento ricevute dal Garante relative alla pubblicazione non autorizzata di nominativi, indirizzi, numeri di telefono, anche di titolari di utenze riservate.
In Italia, ad esempio, un altro caso di presunto Web scraping molto noto riguarda la causa che 2019 che Trenitalia ha intentato nei confronti della società inglese Gobright Media Ltd, società produttrice di Trenìt, app che consente all'utente di confrontare le tariffe dei treni ad alta velocità. Il centro del contenzioso sono i dati e la loro licenza d'utilizzo: Trenitalia, infatti, accusava la società britannica di utilizzare impropriamente la propria banca dati, accendendo a informazioni quali gestione del traffico ferroviario, costo dei biglietti, orari, ritardi, etc… Il tribunale di Roma ha prima ordinato a Gobright di cessare l'attività di Web scraping e successivamente ha autorizzato l'attività, perché non realizzava una sostanziale sottrazione dei dati.
Allargando il focus vanno menzionati altri casi noti inerenti il Web scraping illegale di aziende che abusano e violano i termini di servizio o le norme sul copyright.
Con la sentenza della Corte d'Appello della Nona Circoscrizione degli Stati Uniti, LinkedIn ha intentato causa per impedire a un concorrente, HiQ, di eseguire lo scraping di informazioni personali dai profili pubblici del social network degli utenti. Nel 2020, la sentenza ha stabilito che la legge CFAA non era stata violata perché i dati di LinkedIn oggetto di scraping erano pubblici (non protetti da password).
Un altro caso alla ribalta della cronaca riguarda Clearview AI: l'azienda di riconoscimento facciale ha ricevuto una pesante multa per aver eseguito lo scraping di milioni di foto di volti di persone presi dai social media. Clearview AI trattava dati sensibili senza una base giuridica valida.
Nel caso trovanumeri.com il Garante ha così ribadito alcuni importanti princìpi: chi affida le proprie informazioni di contatto al web, ha finalità che non sono necessariamente quella di ricevere comunicazioni di marketing o vederli indicizzati ed ulteriormente diffusi. Raccogliere dati di contatto per formare elenchi da utilizzare successivamente con finalità di marketing, è illecito. Così come lo è diffondere tali dati sotto forma di elenco.
Nel definire l'ammontare dell'ammenda l'Autorità ha tenuto conto della gravità della violazione, dell'elevato numero di soggetti i cui dati sono stati pubblicati (circa 26 milioni di utenti), della durata della violazione e del carattere doloso della condotta dell'intestatario.
Come difendersi dal Web scraping
Ma è possibile per gli utenti difendersi dal web scraping?
Innanzitutto, si possono creare aree riservate nei siti web in cui si può entrare esclusivamente attraverso registrazione, come avviene sui social network, che hanno diversi livelli per usufruire di determinati contenuti. Oppure possono essere utilizzati servizi anti-bot, file robots.txt, o il blocco degli indirizzi IP dei bot. È comunque molto importante prevedere nei termini di servizio (TOS) di un sito il divieto assoluto di utilizzare tecniche di scraping per il recupero sistematico di dati e informazioni.