|
Il cluster CSN4 (vedi nota in fondo per dettagli tecnici o consulta il Wiki) e` gia` operativo per la sottomissione di jobs seriali. E` stato gia` inserito nella rete GRID. Rimane ancora in fase di test la procedura per la sottomissione dei jobs paralleli, e cioe` MPI-GRID. Siamo fiduciosi che presto sara` possibile sottomettere jobs paralleli.
Invitiamo comunque gli interessati a utilizzare questa risorsa di calcolo da subito con jobs seriali.
L'accesso e` regolato dalla GRID, ed in particolare dalla VO TheoPhys, usando il meccanismo "fairshare".
Al fine di organizzare l'accesso, e garantire uno sfruttamento equilibrato delle risorse, e` necessario strutturarsi in gruppi di utenti. Essi formeranno sottogruppi della VO TheoPhys, a cui saranno assegnate delle priorita` (fairshare) di utilizzo, che sarebbe, in pratica, la frazione MINIMA di CPUs garantita in tempi brevi su cui far atterrare i jobs. Questo meccanismo permette di sfruttare al meglio la risorsa, perche` nel caso di sottoutilizzo un gruppo di utenti puo` andare oltre la propria quota, e mantenere intatto il proprio fairshare (percentuale garantita) nel tempo.
Come avevamo scritto nella nostra lettera di luglio, abbiamo pensato di associare i gruppi di utenti alle iniziative specifiche.
Dopo aver ricevuto le vostre richieste, ci siamo riuniti il 24 settembre e organizzato la struttura dei gruppi di utenti che accederanno al cluster CSN4 tramite la struttura GRID.
Le IS che hanno presentato richieste sono 15:
MI11 (M.P.Lombardo), NA12 (C.Rubano), PI11 (A.Pelissetto), PI12 (M.D'Elia), BA21 (C.Coriano'), PR21 (P.Nason), AD31 (M.Guagnelli), CT31 (G.Lanza), RM31 (F.Becattini), GE41 (G.Cassinelli), MI41 (G.Mantica), FA51 (A.Marrone), OG51 (L.Gualtieri), TO61 (M.Nicodemi), TV62 (G.Boffetta)
i nomi accanto alle sigle delle IS sono quelli dei responsabili per il calcolo designati dalle varie IS.
Sulla base delle richieste e del numero di persone coinvolte le abbiamo suddivise in due gruppi:
gruppi che hanno bisogno di un utilizzo quantificabile in circa il 10% della potenza di calcolo del cluster all'anno:
MI11, PI11, PI12, PR21, AD31, OG51, TO61, TV62
e gruppi che hanno bisogno di un utilizzo quantificabile in circa l'1% (o meno) della potenza di calcolo:
NA12, BA21, CT31, RM31, GE41, MI41, FA51
Alle prime verra` assegnato un fairshare del 10%, alle seconde di 1%.
Ovviamente, tutto questo non sara` congelato, ma sono previste verifiche, per permettere a nuovi gruppi di utenti di accedere, e possibili variazioni di fairshare se sara` necessario.
Una prima verifica sara` effettuata fra circa 6 mesi, e una prima relazione sul funzionamento del cluster e` prevista per la prossima riunione dei coordinatori in primavera.
L'accesso al cluster da parte di un utente CSN4 richiede un certo numero di cose da fare:
(1) E` necessario che ciascun utente ottenga le credenziali INFN per l'accesso alla GRID. Ogni sezione dovrebbe avere qualcuno a cui chiedere per ottenerle, tipicamente tra il personale addetto al calcolo.
(2) Richiedere l'iscrizione alla VO TheoPhys al sito: https://voms.cnaf.infn.it:8443/voms/theophys/ seguendo le istruzioni sul sito
(3) Il responsabile del calcolo di ciascuna IS raccoglie i nominativi delle persone interessate al calcolo all'interno della IS e lo segnala al responsabile della VO TheoPhys G. Andronico (
Questo indirizzo e-mail è protetto dallo spam bot. Abilita Javascript per vederlo.
). Ovviamente, segnalera` la lista all'inizio, ma anche eventuali cambiamenti e nuove affiliazioni.
Fatte queste operazioni, nel piu` breve tempo possibile, sarete abilitati all'accesso.
I responsabili stanno preparando delle istruzioni dettagliate per la sottomissione dei jobs. Esse saranno disponibili sul Wiki nazionale INFN all'indirizzo http://wiki.infn.it/cn/csn4/calcolo/csn4cluster/home
Saranno anche organizzati corsi di formazione, soprattutto per l'utilizzo parallelo. Vi terremo informati.
L'integrazione nella GRID, nella quale la VO Theophys gia` opera, rende trasparente la gestione del nuovo cluster per gli amministratori del GRID Data Center. Sistemi di monitoring sono gia` disponibili ed in uso per il monitoraggio dei siti INFN-GRID, ex. Ganglia (http://farmsmon.pi.infn.it)
Pensiamo che sia opportuno avere dei consuntivi annuali sull'attivita` scientifica che utilizzera` queste risorse di calcolo. A questo scopo, e anche come riconoscimento del lavoro del personale altamente qualificato del Settore di Calcolo Scientifico che ha installato e gestira` il cluster, suggeriamo di menzionare l'uso del cluster CSN4 negli acknowledgements delle eventuali pubblicazioni. Un consuntivo annuale potrebbe essere agganciato ai consuntivi/preventivi di luglio delle IS. Le modalita` saranno definite piu` in la`.
Saluti,
Roberto Alfieri, Giuseppe Andronico, Luca Biferale,
Leonardo Cosmai, Oreste Nicrosini, Ettore Vicari
(Commissione per la gestione del cluster CSN4)
Questo indirizzo e-mail è protetto dallo spam bot. Abilita Javascript per vederlo.
,
Questo indirizzo e-mail è protetto dallo spam bot. Abilita Javascript per vederlo.
,
Questo indirizzo e-mail è protetto dallo spam bot. Abilita Javascript per vederlo.
,
Questo indirizzo e-mail è protetto dallo spam bot. Abilita Javascript per vederlo.
,
Questo indirizzo e-mail è protetto dallo spam bot. Abilita Javascript per vederlo.
,
Questo indirizzo e-mail è protetto dallo spam bot. Abilita Javascript per vederlo.
*Alcune note sul cluster CSN4 in fase di installazione a Pisa:
HARDWARE ========
- 256 processori AMD Opteron 2356 QUADCORE 2.3 GHz, per un totale di 1024 cores. 1 GB RAM per core
- Potenza di calcolo stimata: circa 10 Tflops di picco.
- Rete veloce INFINIBAND per l'utilizzo parallelo.
- Storage 10 TB
GESTIONE ========
L' installazione e configurazione viene effettuata dal personale del Settore di Calcolo Scientifico della Sezione di Pisa (responsabile A. Ciampa, + S. Arezzini, D. Fabiani, E. Mazzoni), che gestisce l'infrastruttura di GRID-Pisa.
ACCESSO =======
L'integrazione nella GRID, nella quale la VO Theophys gia' opera, consente di utilizzare stumenti di accesso gia noti agli utenti Grid. Le istruzione per registrasi e accedere si trovano qui: http://www.italiangrid.org/grid_operations/users
Inoltre e' prevista l'installazione a Pisa di una User Interface che, consentira' 2 ulteriori metodi di accesso:
- Accesso locale (via ssh e bsub) ma con modulo PAM per l'AAI dell'INFN che consentira' di utilizzare le stesse credenziali (username/password) della propria sede. Questo accesso e' da considerarsi transitorio nell'attesa di un pieno utilizzo dell'accesso via Grid anche per il calcolo parallelo.
- Portale web L-Grid (di F. Calzolari) attualmente in test presso SNS. Il portale consente di sottomettere job grid attraverso il proprio Web browser. Vedi dettagli: http://sourceforge.net/projects/l-grid/
Gli utenti registrati in Theophys potranno utilizzare una quota minima (da stabilire) delle risorse disponibili (calcolo e storage). La parte principale delle risorse verra' assegnata a sottogruppi di Theophys in base a criteri stabiliti dalla CSN4.
SOFTWARE ========
Sistema Operativo: SL5.x x86_64 Compilatori: Gnu C, C++, f77, f95 Librerie: MPI(inizialmente openMPI), openMP, HDF5, Blas, lapack, GSL, GMP, GLPK, Fftw3
CODE SEQUENZIALI E PARALLELE: =============================
A regime i WN verranno organizzati in 2 partizioni
- Partizione sequenziale: Coda theophys (gridce1 e gridce2), attualmente gia' operativa. Parametri attuali: 48 ore CPU time limit, 38 ore Wall clock time limit. I WN sono codivisi anche da altre VO, ma theophys ha priorita' elevata. La home e' locale sul disco del nodo
- Partizione parallela: Coda theompi e coda theofast (gridce3) I WN sono accessibili solo da Theophys. La coda theoMPI accetta solo job paralleli (role=parallel del VOMS) La home e' condivisa tra tutti i WN via GPFF (IP over IB) Attuale reservation time = 12 h: se arriva un job parallelo che chiede un numero di nodi superiore alla disponibilita', vengono bloccati i nodi disponibili per un tempo massimo pari alle Reservation Time. Gli slot che si liberano vengono accumulati fino al raggiungimento del numero richiesto. La coda theofast ha un CPU time limit di 6-8 ore. Questo assicura che termineranno in tempo per rilascire lo slot ad eventuali job MPI in attesa.
STORAGE =======
10 TB totali da frazionare in 2 parti: storage SRM + home condivisa Per entrambe le partizioni (sequenziale e parallela) l'utente salva i dati nello storage SRM che puo' anche essere acceduto via Posix dalla User Interface di Pisa. La home condivisa e' un'area di lavoro temporanea per la partizione parallela. (da definire le dimensioni delle 2 parti e le quote per sottogruppo)
DOCUMENTAZIONE ==============
Wiki (o strumento equivalente) con le info necessarie per accedere e utilizzare le risorse. Esempi semplici ma funzionanti di utilizzo; in particolare per l'accesso allo storage (posix/srm) e MPI.
|