Hur klarar du ett “pull the plug”-test?

En säker driftsmiljö för till exempel en webbsajt byggs så att den ska fortsätta fungera utan störningar även om någonting går sönder*. Användarna ska inte märka något och i lugn och ro ska felet kunna åtgärdas.

Ett effektivt sätt att testa är ett klassiskt “pull the plug”-test: dra ut kablar som används. När allting är speglat, replikerat, dubblerat, raidat, master/slave:at och redundant ska ingenting hända oavsett vilken kabel som dras ut (el, nätverk, fibre channel etc.).

Det är svårare än det låter.

Testa på din egen dator: låtsas att hårddisken går sönder JUST NU!! Och allt som ligger på den är borta för alltid. Hur gick det?

– Hur lång tid tar det innan du kan arbeta vidare?
– Har någon information gått förlorad? (Kontakter? Epost? Inloggningar? Foton? etc.)
– Har du viktig information tillgänglig någon annanstans?
– När tog du senaste backupen? (Fungerar den? Har du testat att tillbaka något från den någon gång?)

Med tanke på vilket enormt värde man samlar på sig i digital form är det välinvesterad tid och pengar att hantera informationen ordentligt och emellanåt reflektera över riskerna.

* = Min erfarenhet är att det oftare är mjukvara än hårdvara som orsakar problem, men hårdvara kan orsaka långa stopp.