Seth Stephens-Davidowitz, economista, autore ed opinionista della nota testata americana
The New York Times, ha di recente provato a suggerire
in un suo editoriale una correlazione tra determinate ricerche su Google, la loro posizione geografica, e il rapporto con la pandemia attualmente in corso. Ogni giorno infatti, milioni di persone in tutto il mondo digitano dei sintomi di un potenziale malessere, che sentono su di loro in quel momento, su Google. Sarebbe possibile usare queste ricerche per aiutare a
rilevare focolai sconosciuti di Covid-19, in particolare in parti del mondo con scarse infrastrutture dedicate ai test?
Non si tratta di un’ipotesi così impensabile, ma non è nemmeno un’idea nuova. Mentre sembrano esserci informazioni importanti sulla presenza di Covid-19 nei dati di ricerca, bisogna porre molta attenzione nella
costruzione di modelli basati su questi dati, imparando dai tentativi passati che hanno cercato di sfruttare tali informazioni per misurare la diffusione geografica di diverse malattie. È importante citare
un articolo del 2009 pubblicato su Nature, in cui i ricercatori hanno dimostrato che le ricerche di Google relative all'influenza avevano rispecchiato in modo accurato i dati settimanali sui tassi di influenza, diffusi dai Centri per il controllo e la prevenzione delle malattie. I ricercatori hanno usato questi termini di ricerca per costruire un modello al fine di aiutare a rilevare le epidemie prima che i dati ufficiali fossero raccolti.
Sebbene il modello abbia funzionato inizialmente, sono state riscontrate alcune difficoltà durante la pandemia di influenza H1N1 del 2009. Il problema era che l'influenza, essendo così presente e diffusa a livello mediatico, portava molte persone a cercarla su Google per paura e/o curiosità. In quel particolare caso,
l’aumento della percezione del pericolo per la malattia ha portato le ricerche Google a mostrare dati sull’influenza sballati, rispetto alle statistiche di contagio reale.
Pur considerando questo tipo di “contaminazione” all’interno dei dati, Seth Stephens-Davidowitz porta come un possibile esempio la situazione
in Ecuador nei primi giorni di aprile. I dati ufficiali mostrano come, mentre l'Ecuador ha tra i più alti tassi di casi pro-capite di Covid-19 in Sud America, ha anche un tasso più basso di Stati Uniti, Canada, Australia, Iran e gran parte dell'Europa. Allo stesso tempo, gli ecuadoregni stanno ora effettuando più ricerche relative alla perdita dell'olfatto rispetto a qualsiasi altro paese al mondo (come suggeriscono le statistiche di Google). Le ricerche di "
no puedo oler" ("Non riesco a sentire l'odore") sono circa 10 volte più numerose in Ecuador rispetto ad un paese come la Spagna, anche se il primo stato riporta ufficialmente meno di un decimo di casi pro capite. Gli ecuadoriani sono primi in classifica anche per ricerche di febbre, brividi e diarrea. I dati di ricerca, in altre parole, suggeriscono che l'Ecuador potrebbe essere ancora più un epicentro di Covid-19 di quanto affermino i dati ufficiali.
Tra i tentativi passati e l’esempio portato dall’economista, sta sempre più emergendo l’importanza di produrre nuovi metodi per
migliorare i modelli di tracking delle malattie basati sui big data, contribuendo a rilanciare progetti di monitoraggio di questo tipo. È fondamentale individuare e raccogliere solo le ricerche che hanno più probabilità di essere segnalazioni di sintomi, piuttosto che quelle relative alle notizie.
Query come "Non riesco a sentire l'odore" sono particolarmente utili, perché la struttura delle stesse suggerisce che colui che la sta digitando possa effettivamente aver contratto la malattia; diversamente, altre query relative alla perdita dell'olfatto in generale potrebbero invece suggerire una semplice curiosità sull'argomento.
È plausibile che fatti importanti sulla malattia di Covid-19 possano essere trovati su Google Trends (che ricordiamo, diffonde tutto
pubblicamente e gratuitamente) o in altri grandi set di dati da data scientist, esperti medici o persino da investigatori di dati amatoriali, ed è altrettanto fondamentale che debba essere fatto tutto il possibile per trarre valore dalla loro interpretazione.