BiT Data Inail: biotecnologie e bioinformatica per la prevenzione
Circa un anno fa l’Istituto nazionale per l’Assicurazione contro gli infortuni sul lavoro (Inail) metteva a punto il primo step di un importante progetto, BiT Data.
Realizzato da un team di ricercatori del Dipartimento innovazioni tecnologiche e sicurezza degli impianti, prodotti e insediamenti antropici (Dit) dell’Istituto, BiT Data è il più grande database mai ideato per consentire all’intera comunità scientifica di portare avanti studi sulla prevenzione grazie all’interazione di biotecnologie e bioinformatica.
I dati raccolti in questo grande repository digitale sono diagnosi, patologie, esperimenti, informazioni molecolari, ecc. Che – messi a disposizione gratuitamente – consentiranno di effettuare studi innovativi.
Un lavoro in sinergia
Il progetto si forgia della collaborazione con la Direzione centrale organizzazione digitale (Dcod) dell’Inail, del dipartimento di Biotecnologie cellulari ed Ematologia di Sapienza Università di Roma e del Consorzio interuniversitario per il calcolo automatico (Cineca). Segnando così un passo importante per questo tipo di ricerche.
“È un lavoro in sinergia – spiega Elena Sturchio, ricercatrice Inail e responsabile scientifico del progetto – a cui ognuno, tra biologi, biotecnologi, biologi molecolari, bioinformatici, esperti di valutazione del rischio, ingegneri informatici ed esperti di intelligenza artificiale, contribuisce con la propria specifica competenza.”
“L’abbiamo chiamata BiTdata, in assonanza con ‘Big Data’– precisa Sturchio – perché si tratta di dati molecolari biotecnologici, che fungono quasi da ‘biglietto tecnologico’ dell’esposizione occupazionale a xenobiotici”. Termine che indica tutte le sostanze, sia naturali sia sintetizzate in laboratorio, che sono estranee alla normale nutrizione dell’organismo e al suo metabolismo.
Come funziona BiT Data
La banca dati è ospitata sul portale dell’Inail. E raccoglie i dati riportati nel nuovo elenco delle malattie professionali soggette all’obbligo di denuncia/segnalazione da parte dei medici.
Oggi, in questo secondo grande step del progetto, BiT Data è accessibile all’utenza esterna (previa registrazione), che grazie a un form potrà effettuare ricerche per parole chiave.
L’interrogazione dei repository digitali Sequence Read Archive (SRA), Gene Expression Omnibus (GEO), ArrayExpress e NCBI ha portato alla collezione di alcune centinaia di set di dati, che sono stati successivamente utilizzati per la costruzione del database.
Per ciascun esperimento, in particolare, è stata elaborata una breve descrizione in inglese. Consentendo in questo modo all’utilizzatore di comprendere rapidamente il disegno sperimentale e il tipo di dati. Tramite un apposito form è inoltre possibile richiamare tutti i set di dati che corrispondono alle parole chiave inserite, limitando la ricerca a singoli campi o estendendola a più campi.
Dai risultati ottenuti si può facilmente accedere, tramite collegamenti ipertestuali, alle pagine di accesso ai dati pubblici, dove è possibile effettuare il download dei dati originali.
Strumenti di prevenzione
Previsto anche il ricorso all’intelligenza artificiale per la catalogazione delle fonti.
“Lo sviluppo del progetto – aggiunge Sturchio – potrebbe portare all’identificazione di nuovi potenziali biomarcatori. E quindi a strumenti di screening precoce, utili nel monitoraggio di individui esposti a fattori di rischio significativi”.
L’attività di raccolta dei dati, inoltre, deve essere rinnovata con cadenza regolare, in modo da mantenere costantemente aggiornato il database.
“A tale scopo – spiega la ricercatrice – grazie alla collaborazione della Dcod, tra le evoluzioni del progetto è prevista l’applicazione di tecnologie di intelligenza artificiale a supporto delle attività di studio e catalogazione delle fonti. Un’applicazione utile ad automatizzare le attività di ricerca e l’aggiornamento del database. I risultati ipotizzati dall’impiego di queste tecnologie comprendono la riduzione delle attività manuali da parte dei ricercatori, la riduzione degli errori e la velocizzazione delle ricerche nei repository digitali”.
Il supercomputer Galileo
Parallelamente a BiT Data i ricercatori del Dit stanno partecipando, con un nuovo progetto bioinformatico, a una call di Elixir. Si tratta dell’infrastruttura di ricerca europea per i dati biologici, presente in 23 Paesi europei che ha tra i suoi obiettivi l’erogazione di risorse di calcolo ad alte prestazioni. Con l’obiettivo di portare la ricerca bioinformatica a un livello sempre più avanzato e integrato.
Il progetto presentato dall’Inail si intitola“Transcriptomes profiling after xenobiotics exposure to identify early biomarkers for differential diagnosis in lung and mesothelial cancer”. Un progetto che è ancora nella prima fase di attività e per il quale sono state stanziate 50mila ore di calcolo da utilizzare sull’infrastruttura di Galileo. Che, per chi non lo conoscesse, è il supercomputer dedicato al calcolo scientifico e ingegneristico ospitato presso il Cineca.