Big Data, una lettura critica
In questo articolo vorrei parlare del “nuovo petrolio”, ossia dei Big data, con uno sguardo critico.
Big data raccolta analisi dei dati e una lettura critica
I Big data sono tutti quei dati che vengono raccolti, principalmente tramite il web, sulle persone, su tutte le attività e i fenomeni che accadono.
Dati sono dunque il nostro nome, il cognome, il nostro numero di telefono, la password, ma anche la temperatura, una data, un valore di ph, il numero atomico, ecc.
In potenza qualsiasi cosa potrebbe essere considerato come dato. Per esempio se prendo un tavolo, il fatto che abbia quattro gambe, che sia in legno, che sia di una certa marca e molte altre cose simili possono essere presi tutti come dei dati.
Il dato è informazione ed è memoria.
Nel caso del computer sappiamo che tutto è sempre bit, sia che il tipo di dato sia una stringa, ossia un insieme di lettere e numeri, sia che si tratti di un numero o un booleano vero e proprio.
Potrebbe interessarti anche: Introduzione all’intelligenza artificiale (AI)
Raccolta analisi dei dati e database
I dati hanno un percorso nel quale prima sono generati, poi sono raccolti, poi sono classificati, infine sono salvati ed eventualmente riciclati.
In un modello classico in cui immaginiamo un utente con lo smarthphone e un server, l’utente immette degli input, per esempio compila un form o clicca su certe pagine, mandando dei dati al server e il database nel server si occupa di salvare quei dati.
I dati, dunque, sono prima prodotti come input, successivamente salvati e raccolti in database. Nel caso più banale, dove non ci sono database per i dati, abbiamo a che fare dei dataset che sono molto spesso dei file Excel in cui sono scritti e ordinati dei dati per righe e colonne.
Spesso i dataset sono usati in certi contesti come l’intelligenza artificiale e il training del deep learning.
Tuttavia normalmente i dati sono salvati in veri e propri database.
Un database è una collezione di tabelle composte di righe e colonne. Le colonne vanno a definire la categoria del dato. Le righe, invece, sono delle tuple che hanno ciascuna una chiave primaria che va ad identificare la tupla stessa.
Esistono principalmente due tipi di database:
i database relazionali e quelli non relazionali.
Tra i database relazionali troviamo Mysql, Oracle o Sql server.
Questi database sono detti relazionali perché sfruttano l’algebra relazionale e mettono in relazione le tabelle.
Nei database relazionali si usa come linguaggio di interrogazione del database Sql.
I database non relazionali, invece, sono basati su relazioni e usano come linguaggio NoSql.
Un famoso database non relazionale è MongoDB.
Tutti questi database potrebbero essere tranquillamente usati in locale sul proprio computer, ma il proprio computer non è certamente un server che si potrebbe tenere acceso sempre perché questo database comunichi costantemente con il web.
Normalmente si usano dei server appositi. Se si prende un host su internet, spesso viene concesso un database con uno spazio di memoria che è relativo al piano dell’host, ossia a quanto paghi.
Quando, tuttavia, i dati da elaborare sono moltissimi, si richiede l’uso di computer molto potenti definiti come super computer o mainframe, se non addirittura il computer quantistico.
Questi computer particolarmente potenti sono spesso usati per le reti neurali e l’intelligenza artificiale relativa al deep learning.
Questo è come funzionano i dati.
Oggi si dice la generazione dei dati è diventata enorme dal punto di vista quantitativo e che il problema sia trovare lo spazio sufficiente dove salvarli. Ci sono data center nel mondo che sembrano grossi come città nascosti nei luoghi più improbabili della terra che appartengono a grandi compagnie come Google.
Tutta questa grande molte di dati come intendiamo gestirla?
Al momento il data scientist è una delle figure professionali più ricercate nel mondo lavorativo. Oggi esso rappresenta una miniera d’oro per un’azienda qualsiasi.
In fondo il vero problema in questo caso è trovare qualcuno che abbia abbastanza intelligenza e capacità intuitiva per poter capire quali sono i dati veramente rilevanti.
Luciano Floridi, filosofo dell’informatica, nei suoi vari libri, mette spesso in luce il fatto che la grande quantità dei dati potrebbe non essere necessariamente un bene, perché molti dei dati potrebbero essere del tutto inventati.
Potrebbe interessarti anche Wesachannel: cosa significa fare filosofia
La vera competenza dell’analytics consiste nel saper analizzare i dati e capire quali sono quelli rilevanti. Inoltre va sempre ricordato che i dati come tali sono semplici informazioni, ma la reale conoscenza la troviamo nelle relazioni tra i dati.
Per esempio se vediamo che quando accade un evento x accade un evento y abbiamo una correlazione tra dati. La correlazione, tuttavia, non spiega le cose necessariamente. Infatti, dal fatto che l’evento x è correlato con l’evento y non possiamo inferire che x è causa di y.
Per questo un problema grosso del lavoro sui dati è la produzione di conoscenza vera, ossia andare al di là della semplice correlazione per cogliere la connessione reale degli eventi.
Possiamo, dunque, individuare due problemi:
a) Passare dalla quantità dei dati alla qualità dei dati.
b) Il semplice dato o la sua correlazione non sono vera conoscenza.
Il secondo punto è molto interessante e da approfondire.
Hegel nella prima parte della Fenomenologia dello spirito sosteneva che la sensibilità ci mostra molti particolari degli oggetti, ma è completamente povera dal punto di vista cognitivo.
Per esempio quando guardo un albero, a prescindere dai miei concetti, considerando la semplice percezione l’albero ci dice una sola cosa: “è così”.
La sensibilità ci offre, dunque, un sacco di dati, ma dal punto di vista cognitivo, non vi sarebbe alcuna conoscenza senza il concetto. O come, direbbe Kant:
le intuizioni senza concetti sono cieche.
Secondo Byung-Chul Han i big data soffrono dello stesso problema dell’”è così” hegeliano.
Potrebbe interessarti anche: La filosofia di Javascript
Big data i dati e le correlazioni
Non solo il semplice dato, preso per se stesso non è vera conoscenza, ma anche la correlazione se non trova una spiegazione razionale rimane semplicemente un è così.
Per esempio il fatto di sapere che le donne in gravidanza comprano un certo tipo di prodotto è certamente un dato, ma non spiega nulla sulla relazione tra le donne in gravidanza e il prodotto, dice semplicemente che le cose stanno così. Han, quindi, bolla la correlazione come qualcosa che non costituisce una reale forma di conoscenza.
Anche in questo caso non bisogna certamente pensare che con questo si vuole dire che non c’è conoscenza nell’analytics, ma semplicemente che i dati da soli non parlano e l’analista dei dati deve estrarre conoscenza dai dati.
In pratica la conoscenza è possibile attraverso il concetto e la filosofia ha sempre lavorato per la costruzione dei concetti. I concetti sono i nostri strumenti di analisi, solo con i concetti possiamo realmente comprendere.
A questo punto la conoscenza sta nell'applicazione di concetti ai dati.
Già l’intelligenza artificiale è in grado di classificare i dati e dunque compiere un primo passo verso il concetto che è quello dell’inclusione.
Tuttavia il concetto non può ridursi semplicemente ad una definizione per estensione, nella misura in cui la semplice classificazione di un’immagine da parte di una rete neurale nell'insieme dei gatti non definisce il gatto. Il gatto è già definito da un umano che ha classificato delle immagini come gatti e ha chiesto alla rete neurale di allenarsi su quelle immagini.
Io credo personalmente che se vogliamo avere un’analisi dei dati migliore non dobbiamo soltanto chiederci come questi dati devono essere mostrati da un software, ma anche come un soggetto pensa questi dati. Ossia dobbiamo lavorare sulla mente, avere strumenti concettuali che permettano ai dati di non essere ciechi.
La cosa più interessante di tutto questo lavoro è che ci fa prendere coscienza del fatto che abbiamo ancora molto bisogno del lavoro umano.
Possiamo pensare ad esempio in analogia con la sensibilità i dati della data science.
L’uomo percepisce la realtà attraverso cinque sensi. I sensi permettono di acquisire dei dati. Questi dati sono in ingresso e vengono successivamente schematizzati dall'intelletto umano.
Pesando la cosa in termini kantiani, ossia che i concetti non sono derivati per astrazione dalle intuizioni, ne consegue che i concetti si applicano ai dati sensibili come dei principi o strumenti dell’intelletto.
La differenza rispetto al computer è che in realtà il computer già elabora i dati da solo e per esempio ci restituisce grafici differenti come regressioni lineari o cluster.
Tuttavia questo processo non esclude l’uomo perché l’uomo comunque ha ancora un importante ruolo nella comprensione di quei grafici, sebbene non debba lui stesso fare i calcoli.
In verità non è detto che il computer debba essere una mente che escluda quella umana.
Esiste una teoria in filosofia che è definita “della mente estesa”.
Secondo alcuni filosofi la mente non è solo ciò che abbiamo in testa, ma un complesso che comprende la testa, il corpo e il mondo esterno. Questo lo vediamo, per esempio, quando facciamo matematica. Quando eseguiamo dei calcoli spesso ci serviamo di carta, penna, lavagna o altre cose simili.
Per questo motivo alcuni filosofi hanno pensato un concetto esteso della mente che includa questi supporti. E se la stessa cosa valesse per il computer? Se si potesse pensare una mente estesa con il computer? Se la ragione umana potesse assemblarsi con la mente della macchina?
È questo gioco di scambio e mutuo lavoro che lascia ancora un largo spazio aperto per un lavoro cognitivo umano.