NEWS del 16 giugno 2017


Problemi ENEL al Dipartimento

Il 15/6/2017 alle ore 11:25 circa è mancata la corrente elettrica ad una intera zona della città di Pisa.

Visto il prolungarsi della interruzione di corrente, man mano che gli UPS arrivavano vicini al loro limite, si è è costretti a procedere allo ordinato spegnimento di tutti i server delle sale macchine.

Ritornata l'energia elettrica si è poi proceduto a riaccendere ordinatamente tutte le macchine: alle 12:44 erano su tutti gli switch di rete e le macchine per il monitoraggio. Poco dopo si è terminato di rimettere in linea tutte le macchine.

In questa fase si è constatato che un paio di gruppi hanno avuto una performance degradata da batterie quasi esaurite e sono stati sostituiti.

Alle 13:12 ci sono state altre interruzioni: sapendo che rimaneva poca carica nei gruppi di continuità si è dovuto nuovamente spegnere parecchi server, ma fortunatamente questa nuova interruzione è durata solo 5 minuti.

Nel pomeriggio venivano segnalate delle anomalie nella navigazione in rete su alcune Workstation della aula 4.
Si scopriva che il nameserver cebiceff aveva impostata al reboot una data completamente sbagliata del 2012 (!) e di conseguenza la gestione della cache delle risoluzioni dei nomi ottenuti da altri nameserver era totalmente in errore - problema risolto riimpostando la data.

Purtroppo i problemi ENEL non sono finiti qui !

Alle 2:18 del 16/6/2017 c'e' stata una ulteriore interruzione della fornitura della energia elettrica, che è durata meno di un minuto, e che non ha provocato interruzioni ai server.

Purtroppo in occasione di questa breve interruzione sembra che l'ENEL abbia scambiato tra loro due fasi della trifase.

Questo ha causato il blocco dei motori trifase dei grossi gruppi refrigeratori del centro di calcolo (sala macchine e aula 4).

La temperatura in sala macchine ha iniziato a salire: dai 20 gradi usuali delle 2:30, a 23 alle 3:30, 25 alle 4:30, 27 alle 5:30, 28 alle 7:30, salendo pin pianino fino a 35 gradi successivamente.

Il sistema di allarme ci ha mandato sia mail che sms.
Abbiamo richiesto un intervento urgente all'Ufficio Tecnico dell'Università e il geometra Cozzolino ha prontamente mandato dei tecnici a controllare i gruppi frigo.
I tecnici (a ragione) non riuscivano a trovare un guasto nelle apparecchiature.

Con la temperature in sala macchine giunta a 35 gradi, si decideva di spegnere i server di calcolo più potenti.
Il prof Andrea Milani avvisava l' ESA della necessità di sospendere alcuni servizi di calcolo a causa di questo surriscaldamento.

Nel pomeriggio i tecnici, sollecitati dal geometra Cozzolino (che ringraziamo vivamente) ritornavano con ulteriori attrezzature e scoprivano che i gruppi frigo non avevano nessun guasto, ma che i loro circuiti di sicurezza avevano percepito l'ordine errato delle fasi e avevano bloccato le macchine.
Scambiati due fili in ciascun gruppo frigo, questi riprendevano tutti a funzionare regolarmente.

Non sono stati fatti ripartire subito i server di calcolo più grossi: attendiamo di sapere da ENEL se la situazione rimane stazionaria come ora o se è previsto un ulteriore scambio di fasi che richiederebbe un ulteriore intervento sui condizionatori...

Per martedi 20 giugno si prevede comunque di riavere in linea tutti i server.

(S.S.)

Valid XHTML 1.0 Strict