Contenuti sensibili e tracciati in almeno 150 milioni siti web

Maura Piras 19 Ottobre 2020 Tecnologia Commenti disabilitati su Contenuti sensibili e tracciati in almeno 150 milioni siti web

Il team di ricercatori ha lavorato per due anni all’elaborazione di oltre un miliardo di siti web, alla ricerca di pagine internet che tengono traccia di informazioni sensibili.

Sono almeno 150 milioni i siti web che includono contenuti sensibili e tracciati. Questo è quanto emerge da uno studio, che verrà presentato durante l‘Association for Computing Machinery Internet Measurement Conference 2020. Studio condotto da un team internazionale di esperti dell’Instituto Madrileno De Estudios Avanzados, a Madrid, dell’Università tecnica di Berlino e della Cyprus University of Technology, a Cipro. I ricercatori hanno analizzato circa un miliardo di pagine e indirizzi web.

“Il Regolamento generale europeo sulla protezione dei dati (GDPR) – spiega Nikolaos Laoutaris dell’Instituto Madrileno De Estudios Avanzados – comprende delle clausole specifiche con restrizioni legate alla raccolta e al trattamento dei dati personali sensibili. Ovvero quelli che rivelano l’origine razziale o etnica, le opinioni pubbliche, le convinzioni religiose o filosofiche, l’appartenenza sindacale, la genetica dei dati, le informazioni biometriche e tutte le informazioni che consentono di identificare un individuo in modo univoco, ma anche i dati relativi alla vita e all’orientamento sessuale di una persona”.

I nuovi classificatori

Il team ha lavorato per due anni all’elaborazione di oltre un miliardo di siti web. Hanno sviluppato classificatori specializzati in machine learning in grado di identificare e riconoscere le tipologie di indirizzi web. “Circa 150 milioni dei siti che abbiamo analizzato – sostiene l’autore – includevano contenuti sensibili. La legislazione esistente sui dati personali sensibili prevede il trattamento delle informazioni da parte di esseri umani, ad esempio in caso di reclami, indagini o per perseguire casi in tribunale. Con l’uso dei nuovi classificatori di machine learning, tuttavia, ulteriori misure proattive possono essere adottate”. L’esperto spiega che ad esempio il browser può avvisare l’utente prima di aprire un determinato URL potenzialmente problematico da questo punto di vista. In questo modo sarebbe possibile bloccare i tracker. Bisogna essere in grado di classificare la sensibilità e la pericolosità di un sito, una verifica non facile da effettuare in tempo reale.

Difficoltà

“Il motivo principale della difficoltà di questa classificazione dipende dall’ambiguità di alcuni termini chiave, come ‘salute’, che rimandano a una serie di significati e ambiti, alcuni dei quali anche potenzialmente sensibili. La maggior parte degli sforzi per produrre il classificatore sono stati destinati alla raccolta di dati. Grazie a questi è possibile addestrare l’algoritmo a distinguere gli usi sensibili da quelli consentiti.

“Stiamo lavorando per garantire il rispetto della privacy di tutti, per fare in modo che non si verifichino violazioni da parte di altri esseri umani. Speriamo di fornire i primi risultati disponibili a tutti entro il 2021. La maggior parte delle persone non si preoccupa di essere monitorata per cose che considerano innocenti. Il nostro studio è il più esteso riguardo il trattamento dei dati sensibili. Sono davvero tante le pagine in cui vengono monitorati, pagine che sembrano essere rilevabili come il resto del web”.