È come guardare il cielo stellato in una limpida notte di agosto.
All’inizio siamo colpiti da una moltitudine di caotici puntini luminosi, poi però guardando meglio, con più attenzione, cominciamo a scorgere delle forme, delle relazioni tra punti luminosi, delle aggregazioni di stelle che danno vita a figure, a costellazioni. E allora possiamo dar loro un nome, un senso, una storia.
È così che mi piace rappresentare la nuova figura professionale del data scientist, con le sue capacità di risalire da una grande mole di dati, a prima vista “caotici”, a ipotesi su una realtà complessa e non direttamente verificabile. Il data scientist aggrega, elabora, analizza e visualizza grandi dataset (spesso non strutturati) per estrarre informazioni a supporto delle decisioni. Estrae conoscenza dai dati. Sfrutta raffinate analisi statistiche e tecniche di modellazione per scoprire pattern e relazioni celate nei database. Esplora associazioni tra i dati, individua modelli, sequenze ripetute o regolarità nascoste.
La caratteristica principale del data scientist è l’attitudine a “esplorare”: quel cercare di scoprire quanto è sconosciuto o nascosto, quell’analizzare in profondità i fenomeni alla ricerca di una loro comprensione, quell’approfondire un ragionamento che aiuti ad ampliare la conoscenza.
Per certi aspetti, il data scientist basa la sua esplorazione dei dati sulla decifrazione di segni, sull’individuazione di “indizi”, che gli consentano di costruire ipotesi di interpretazione dei fenomeni. Potremmo dire che segue un modello di conoscenza abduttiva, “indiziaria”.
Nel suo saggio “Spie. Radici di un paradigma indiziario”, lo storico Carlo Ginzburg sostiene l’esistenza di un modello epistemologico, o paradigma, operante di fatto in molte discipline anche se non esplicitato da nessuna teorizzazione. Il detective, lo storico, il filosofo, il medico, lo scienziato, lo psicanalista attivano nelle loro discipline procedure inferenziali simili per cercare di comprendere le realtà in cui intervengono. Come il cacciatore primitivo che dalle tracce e dalle orme nel fango scovava la pista della preda, così lo “scienziato del dato” deve utilizzare la sua intelligenza indiziaria per orientarsi nella complessità dei dati e del mondo.
Non si tratta dunque di descrivere un fenomeno o di verificare ipotesi precostituite (H0 – H1.), ma di formulare nuove ipotesi di conoscenza narrativa della realtà, partendo dai dati. L’analisi dei Big Data rappresenta un nuovo approccio di comprensione del mondo e di presa di decisione.
È una grande opportunità che contiene in sé anche molti rischi.
Nel nostro quotidiano siamo come Pollicino, il protagonista della celebre fiaba di Charles Perrault, lasciamo briciole al nostro passaggio (“briciole digitali”, il nuovo pane di cui ci nutriamo ogni giorno). Lasciamo tracce delle nostre domande nei motori di ricerca che interroghiamo; dei nostri desideri, dei nostri sentimenti, delle nostre opinioni, nei social network a cui partecipiamo; dei nostri acquisti nelle numerose tessere e carte di credito; delle traiettorie dei nostri movimenti nei nostri smartphone e nei sistemi di navigazione delle nostre auto; dei luoghi che visitiamo attraverso i selfie che scattiamo.
Ma queste tracce che lasciamo dietro di noi serviranno per profilare meglio i nostri comportamenti di consumo o potranno servire a noi per ritrovare la via della nostra vita e conoscere meglio il senso dei nostri comportamenti?
Lasciamo sassolini o briciole di pane che saranno mangiate dagli uccelli?
Credo che questo sia un tema di etica del dato fondamentale per il futuro che vogliamo costruire. Non si tratta di manipolare i dati, ma di “aprire” i dati e la conoscenza a vantaggio di tutti.
Tim Berners Lee, durante la sua recente visita in Italia, ha dichiarato che sta lavorando a “un progetto che permetta agli utenti di essere davvero proprietari dei loro dati e di decidere se, come e quando condividerli”. Il fenomeno degli open data non deve riguardare solo l’apertura dei dati delle amministrazioni pubbliche, ma deve coinvolgere anche le imprese che detengono i nostri dati digitali e che dovranno sempre più restituire conoscenza agli utenti, rendendo i dati disponibili, fruibili e riutilizzabili.
Come sottolinea Dino Pedreschi, i dati possono “aiutarci a prevedere le conseguenze delle nostre decisioni, a livello collettivo e individuale, e quindi a farci scegliere meglio, renderci più consapevoli, farci comprendere e magari gestire la complessità della società plurale e interconnessa che abitiamo”.
La cultura del dato va costruita con gli utenti e la privacy deve essere un requisito fondamentale nella progettazione delle tecnologie.
Il futuro sarà orientato dalle decisioni che prenderemo.