Innovabiomed: David Vannozzi “Big Data e Intelligenza Artificiale dei dati sanitari”

“Big Data e Intelligenza Artificiale nella gestione dei dati sanitari” era questo il titolo dell’intervento tenuto da David Vannozzi, Direttore Generale CINECA Consorzio Interuniversitario a Innovabiomed il network place per l’innovazione biomedica che si è svolto a Verona lo scorso maggio.

Vannozzi durante il suo intervento ha spiegato cosa siano i Big Data riferiti agli ospedali:

Per poter parlare di grandi dati “Big Data” bisogna parlare di un’incredibile mole di dati, un numero talmente alto che non riusciremmo nemmeno a scriverlo per intero su una lavagna, pertanto sarebbe più opportuno parlare di Big Data Management, perchè la gestione dei dati non prevede solo l’immagazzinamento delle informazioni ma anche la capacità di mettere in relazione tra loro elementi, informazioni che vengono da mondi diversi, raccolti in modo non strutturato con significati che devono essere decodificati! Vi faccio un esempio per farvi comprendere meglio il concetto: la febbre in Italia viene definita in 20 modi differenti, quindi la difficoltà dello strumento che raccoglie dati è anche quello di comprendere tutti i differenti modi di definire, in questo esempio la febbre, e decodificarli, per poter poi permettere ai medici e ai ricercatori di lavorare su queste cartelle per ottenere dei dati!

Ma quindi come possiamo ottenere tutto questo?

Ci vengono in aiuto tre branche di questa nuova scienza: Intelligenza Artificiale, Machine Learning e Natural Language Process!

Machine Learning è il più diffuso negli ospedali, utilizziamo le informazioni di sintesi che le macchine hanno immagazzinato per metterle nella scheda del paziente, pensiamo al responso di una TAC o ad un’analisi del sangue! – continua Vannozzi – quando parliamo di Big Data pensiamo anche a tutti quei parametri che vengono raccolti durante specifici esami ma che non interessano nel momento dell’esame perchè non ritenute utili, ma magari dopo 5 o 10 anni quegli stessi parametri che sono ancora nel nostro computer possono tornarci utili per qualcosa di cui non sapevamo nemmeno l’esistenza 5 o 10 anni prima!

Natural Language Process sono strumenti che hanno il compito di ascoltare, comprendere e tradurre il nostro parlato in un’azione, potrebbe essere un sistema per aiutare nel settore medicina per esempio nel tradurre le parole del medico durante la visita al paziente, immagazzinarle per poterle poi utilizzare in un secondo momento.

Intelligenza Artificiale prevede lo sviluppo di algoritmi che mimano l’intelligenza umana, cercando di mettere in collegamento alcune delle informazioni che si raccolgono, vi riporto l’esempio di quanto accaduto con CINECA, partner della ricerca europea, durante l’emergenza covid-19: Abbiamo creato un gruppo di lavoro che si è occupato della creazione di una piattaforma tecnologica che da un lato andasse a immagazzinare le informazioni che nel corso del tempo si acquisivano sul virus (come era fatto, come si riproduceva, come si muoveva, etc…), come potete immaginare dal 2020 in poi tutti il laboratori del mondo si sono messi a studiare questo virus generando una mole di informazioni che arrivavano costantemente alla macchina, dall’altro lato abbiamo lavorato in collaborazione con alcune case farmaceutiche che hanno biblioteche di informazioni sulle molecole, parliamo di 500 miliardi di item inseriti nel computer, esperimenti effettuati che hanno stabilito che determinate molecole influivano sul comportamento del virus riportandone gli effetti.

A questo punto avevamo una mole mastodontica di informazioni da diverse fonti che hanno potuto interfacciarsi grazie alla macchina Marconi 100, super computer italiano ed europeo che ad oggi è al ventunesimo posto dei supercomputer più potenti al mondo, consente di poter compiere 32 milioni di miliardi di operazioni al secondo!

Grazie a Marconi100 quindi abbiamo potuto estrapolare dati, anche se le informazioni da confrontare erano tantissime, in un mese e mezzo invece che in 5 anni, come avrebbe richiesto l’utilizzo delle classiche metodologie di ricerca e sviluppo!!

Cosa abbiamo estrapolato in questo mese e mezzo?

Prima la macchina ha estrapolato 40 molecole che avevano effetti sul sistema di moltiplicazione del virus, queste 40 molecole sono state affinate con la ricerca in vitro a 10 che sono state poi avviate alla ricerca in vivo, per le quali poi nel mese di ottobre è stato individuato il farmaco, brevettato dalla comunità europea in quanto soggetto finanziatore di questa fase, per il Covid-19 negli stadi iniziali.

Cosa ci ha fatto comprendere questo esempio dell’emergenza Covid-19?

Con CINECA abbiamo aperto la strada della ricerca dentro i data center, dove sarà necessario avere macchine sempre più potenti che aiutino il ricercatore medico o anche di altri settori a poter sintetizzare migliaia di migliaia di scenari alternativi fino a trovare quello che ha più capacità di raggiungere il successo che ci siamo preventivati in tempi molto più brevi!