Dalle misure alle mappe. Prima puntata: Dati “spaziali”?!

Il problema

La forma dei dati

Sarà accaduto moltissime volte anche a voi: avete ricevuto una lista di misure, prese in punti diversi più o meno nello stesso istante, e vi hanno chiesto di estenderle ad un’intera area più o meno grande.

Benvenuti nel club: anche a voi è stato posto il problema di “spazializzare” i dati.

Dato che la cosa è accaduta anche a me, che mi ha dato alcuni problemi, e che soffrire senza un motivo valido mi sembra cosa tutto sommato poco astuta, desidererei condividere alcune esperienze e idee, così come le ho maturate in questi ultimi più-di-vent’anni.

In questa prima puntata vedremo insieme il problema, ed alcune sue sfaccettature. Nelle puntate che seguiranno vedremo, invece, alcuni metodi pratici, con relativi vantaggi e svantaggi.

Sembra facile, ma…

Mi ricordo, quando avevo dieci anni, un Carosello in cui un buffo personaggio diceva qualcosa del tipo “Si si si si. Sembra facile.” E so per certo che non si riferiva ad un modello di caffettiera Moa di un noto produttore. No: era un messaggio trasversale, che bucava il tempo, e si occupava della spazializzazione dei dati.

“Spazializzare” i dati sembra, a prima vista, un problema semplice. Tipo, l’analogo in tre dimensioni del tracciare a mano la linea continua che raccorda i punti sperimentali.

A complicare il problema, però, c’è un elemento: i punti sperimentali sono affetti da errore sperimentale. Quelli che in prima battuta ci si presentano (o ci vengono presentati) come numeri, in realtà a stretto rigore andrebbero immaginati alla stregua di variabili casuali, con una ben definita distribuzione e, possiamo stante certi, una dispersione intorno alla media maggiore di zero.

Non basta: c’è anche il problema della scelta dei punti, che molto spesso non è per nulla libera.

Un Tipico Problema Malposto

Appunto: malposto. La spazializzazione di un insieme di misure è un procedimento intrinsecamente “visivo”: viene bene, se il risultato soddisfa il nostro senso estetico. E, avessimo a disposizione del tempo, ed un piccolo laboratorio di scultura, non sarebbe difficile plasmare una bella superficie che interpola od approssima il nostro insieme di misure.

Non appena però tentiamo di fare la stessa cosa (rappresentare i dati tramite una superficie “bella”) con tecniche algoritmiche, intanto per cominciare otterremo un risultato che dipende dall’algoritmo usato.

E nessuna delle soluzioni risulta davvero soddisfacente.

Il che porta inevitabilmente a scegliere una soluzione di compromesso. Cioè, una forma funzionale, un modello matematico, che non dia risultati troppo brutti e, nello stesso tempo, che coaguli attorno a sé un minimo di consenso.

Per capire cosa intendo dire, prendiamo un caso semplice:

Grafico e mappa di “isoconcentrazione” di un “inquinante” la cui concentrazione alla superficie del suolo è descritta esattamente dall’equazione c=exp(-(x^2+y^2)/100), valutata su una griglia “fitta” di 129 x 129 punti: la situazione ideale

Niente di che. Una situazione di questo tipo si verifica spontaneamente quando (caso piuttosto comune) un inquinante diffonde in matrice fluida in un mezzo poroso uniforme, se il fluido se ne sta fermo. Cosa che accade, per esempio, in certe falde acquifere. Casi analoghi, meno frequenti, si incontrano anche in atmosfera.

Il grafico precedente è stato costruito immaginando di poter campionare la concentrazione a proprio piacere, senza alcuna considerazione per tempi e denaro, compiendo nel caso più di 16000 misure, tutte nello stesso preciso istante.

Però, tempo e denaro esistono, come esistono recinti, muri, canali, e in generale tutte le tracce lasciate dalla nostra specie su, e dentro, il territorio. Ciò porta a campionare i punti su una grigia fatta più o meno così:

Griglia irregolare di punti di campionamento della concentrazione

Usando lo stesso metodo di interpolazione adoperato per le più-di-sedicimila-misure, ma limitandoci alle 16 che vediamo qui sopra, la figura che otteniamo è decisamente diversa:

Grafico e mappa di “isoconcentrazione” di un “inquinante” la cui concentrazione alla superficie del suolo è descritta esattamente dall’equazione c=exp(-(x^2+y^2)/100), valutata su una griglia “irregolare” costituita da 16 punti: la situazione più comune

Lasciatemelo dire: questo ultimo grafico è molto più brutto del primo.

Indubbiamente, non abbiamo fatto un grande sforzo. Abbiamo applicato in modo brutale il metodo di interpolazione “inverso del quadrato della distanza” (il default del pacchetto software che ho usato per comporre le mappe), senza domandarmi nulla di eventuali errori di misura od altro.

E come spesso accade in questi casi, ho evocato l’effetto GIGOGarbage In (in questo caso un metodo di interpolazione scelto a casaccio), Garbage Out.

Sorge spontanea, allora, la domanda: è possibile fare di meglio?

La risposta breve è: Sì, si può. Impegnandocisi, e conoscendo i propri dati.

Per la risposta lunga, dovrete avere la pazienza di aspettare le prossime puntate…

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *