Computing
I paradigmi di gestione e analisi dei dati prodotti in fisica sperimentale delle alte energie (HEP) agli esperimenti del Large Hadron Collider (LHC) del CERN è in costante e rapida evoluzione per far fronte alle sfide future del calcolo scientifico.
La comunità del calcolo a LHC è stata pionere nel disegnare e realizzare un’efficiente griglia computazionale (GRID) a livello planetario, che si è rivelata determinante nella scoperta del bosone di Higgs. In vista dell’upgrade alla Fase 2 di LHC – denominata High-Luminosity LHC (HL-LHC) – ci si appresta ad affrontare sfide anche maggiori.
La nuova frontiera del calcolo scientifico a LHC viene spesso indicata come “Exascale Computing”, dato che la complessità degli esperimenti di nuova generazione produrrà una mole di dati al ritmo degli exabyte (10^18 Bytes) all’anno. Il volume dei dati raccolti è ormai confrontabile con quello prodotto dai principali social network o dall’archivio Internet di Google.
Oltre alle risorse ingenti necessarie per lo stoccaggio (storage) di tali dati, anche la potenza di calcolo necessaria per analizzarli sarà ingente. Le CPU (Central Processing Unit) di un calcolatore non sono infatti più costituite da un unico circuito integrato, ma contengono all’interno del proprio chip più unità di calcolo indipendenti tra loro, che vengono chiamate “core”: una moderna CPU può essere composta da qualche decina di “core”. Per HL-LHC si stima serviranno dell’ordine di 10 milioni di “core” di calcolo, ovvero circa 20 volte quelli attualmente disponibili per LHC.
Negli ultimi anni, oltre all’evoluzione del modello di calcolo dell’esperimento per adeguarsi all’upgrade di acceleratore e sottorivelatori dell’esperimento stesso, l’esperimento CMS si sta aprendo a tecniche e metodi tipici della “data science”, un settore tecnologico ad elevatissimo tasso di crescita. Questa evoluzione comprende sistemi di Big Data analytics, efficienti tecniche di memorizzazione e rilettura dei dati, tecniche statistiche sofisticate per effettuare analisi predittive e infine, in modo sempre più pervasivo, metodi di Intelligenza Artificiale – in questo contesto da intendersi specificamente come tecniche di Machine Learning e Deep Learning. La nuova frontiera della ricerca in questo settore consiste infatti nell’dentificare le parti dei workflow dell’esperimento CMS che risulteranno più intense dal punto di vista delle risorse di calcolo necessarie, al fine di esplorare metodi innovativi per affrontarle, con lo sviluppo di soluzioni massicciamente parallele e architetture fortemente scalabili e ad alte prestazioni.
Oltre alle risorse ingenti necessarie per lo stoccaggio (storage) di tali dati, anche la potenza di calcolo necessaria per analizzarli sarà ingente. Le CPU (Central Processing Unit) di un calcolatore non sono infatti più costituite da un unico circuito integrato, ma contengono all’interno del proprio chip più unità di calcolo indipendenti tra loro, che vengono chiamate “core”: una moderna CPU può essere composta da qualche decina di “core”. Per HL-LHC si stima serviranno dell’ordine di 10 milioni di “core” di calcolo, ovvero circa 20 volte quelli attualmente disponibili per LHC.
Negli ultimi anni, oltre all’evoluzione del modello di calcolo dell’esperimento per adeguarsi all’upgrade di acceleratore e sottorivelatori dell’esperimento stesso, l’esperimento CMS si sta aprendo a tecniche e metodi tipici della “data science”, un settore tecnologico ad elevatissimo tasso di crescita. Questa evoluzione comprende sistemi di Big Data analytics, efficienti tecniche di memorizzazione e rilettura dei dati, tecniche statistiche sofisticate per effettuare analisi predittive e infine, in modo sempre più pervasivo, metodi di Intelligenza Artificiale – in questo contesto da intendersi specificamente come tecniche di Machine Learning e Deep Learning. La nuova frontiera della ricerca in questo settore consiste infatti nell’dentificare le parti dei workflow dell’esperimento CMS che risulteranno più intense dal punto di vista delle risorse di calcolo necessarie, al fine di esplorare metodi innovativi per affrontarle, con lo sviluppo di soluzioni massicciamente parallele e architetture fortemente scalabili e ad alte prestazioni.
Lo stesso software dell’esperimento – chiamato CMSSW – viene costantemente evoluto per sfruttare al meglio il parallelismo offerto dalle nuove generazioni di processori (multi-core CPU, acceleratori, ecc). In vista di HL-LHC questo comporterà una re-ingegnerizzazione del codice esistente, ottimizzandolo e integrandolo con le tecniche di analisi menzionate in precedenza.
In questo contesto si inserisce, ad esempio, l’accordo strategico tra l’INFN e il consorzio interuniversitario per il supercalcolo CINECA, grazie a cui verrà finanziato “Leonardo”, una macchina di calcolo che verrà installata presso il Tecnopolo di Bologna, dove sarà trasferito anche il principale centro di calcolo dell’INFN, denominato CNAF. Cruciali in questa direzione sono anche le attività che puntano all’integrazione delle risorse Grid con quelle ottenibili da “cloud provider” commerciali, quali quelle offerte – tra gli altri - da Google (Google Cloud Platform, GCP) e Amazon (Amazon Web Services, AWS).
Uno sguardo è rivolto al futuro anche in termini di approcci quali Quantum Computing, Neuromorphic Computing, etc. In particolare, un computer quantistico – per quanto ancora a livello sperimentale - per la sua natura intrinsecamente parallela potrebbe avere un effetto dirompente su molte applicazioni di CMS e, in generale, per ogni esperimento a LHC.
Le attività di ricerca legate al Software e al Computing di CMS in vista di HL-LHC consentono dunque di aprirsi a tecnologie esistenti o in corso di sviluppo al di fuori della comunità HEP, offrendo a giovani brillanti e curiosi un valore inestimabile in termini di formazione scientifica e tecnica alla frontiera della tecnologia, e di stimolare un enorme potenziale in termini di trasferimento di conoscenza e di ricaduta verso il mondo dell’industria e della società nel suo insieme.
Alcune persone del gruppo hanno ricoperto o ricoprono tuttora ruoli importanti di coordinamento nella Collaborazione.
In questo contesto si inserisce, ad esempio, l’accordo strategico tra l’INFN e il consorzio interuniversitario per il supercalcolo CINECA, grazie a cui verrà finanziato “Leonardo”, una macchina di calcolo che verrà installata presso il Tecnopolo di Bologna, dove sarà trasferito anche il principale centro di calcolo dell’INFN, denominato CNAF. Cruciali in questa direzione sono anche le attività che puntano all’integrazione delle risorse Grid con quelle ottenibili da “cloud provider” commerciali, quali quelle offerte – tra gli altri - da Google (Google Cloud Platform, GCP) e Amazon (Amazon Web Services, AWS).
Uno sguardo è rivolto al futuro anche in termini di approcci quali Quantum Computing, Neuromorphic Computing, etc. In particolare, un computer quantistico – per quanto ancora a livello sperimentale - per la sua natura intrinsecamente parallela potrebbe avere un effetto dirompente su molte applicazioni di CMS e, in generale, per ogni esperimento a LHC.
Le attività di ricerca legate al Software e al Computing di CMS in vista di HL-LHC consentono dunque di aprirsi a tecnologie esistenti o in corso di sviluppo al di fuori della comunità HEP, offrendo a giovani brillanti e curiosi un valore inestimabile in termini di formazione scientifica e tecnica alla frontiera della tecnologia, e di stimolare un enorme potenziale in termini di trasferimento di conoscenza e di ricaduta verso il mondo dell’industria e della società nel suo insieme.
Alcune persone del gruppo hanno ricoperto o ricoprono tuttora ruoli importanti di coordinamento nella Collaborazione.