Alta disponibilitat

Quan parlem de seguretat informàtica, estem parlant en definitiva de fiabilitat, confidencialitat, integritat i disponibilitat. Només si aconseguim complir totes aquestes condicions podrem dir que el nostre sistema és segur.

  • Fiabilitat: funcionament correcte dels sistemes, realitzant les tasques tal com han estat previstes.
  • Confidencialitat: garantir que l’accés a les dades del sistema està restringit únicament a les persones autoritzades.
  • Integritat: assegurar que les dades del sistema no han estat manipulades per persones no autoritzades i que per tant no s’han vist alterades.
  • Disponibilitat: capacitat del sistema per ser accessible i operatiu el màxim de temps possible.

Tan important és garantir una bona seguretat dels sistemes informàtics tot evitant l’entrada de persones alienes i assegurant la qualitat de les dades que s’hi emmagatzemen com que el sistema estigui disponible el màxim de temps possible. No serveix de res tenir un sistema 100% infal·lible si finalment no pot realitzar les tasques per a les quals s’ha creat i no està disponible a l’usuari.

Per tal d’assegurar la qualitat i la disponibilitat de les dades, fa uns anys que ha sorgit un nou concepte a l’hora de dissenyar els sistemes informàtics.

Aplicacions de l'alta disponibilitat

En els sistemes informàtics no només és important conèixer l’índex de disponibilitat. També hi ha altres tipus de serveis en els quals és interessant conèixer els temps d’inactivitat. El Metro de Barcelona, per exemple, genera estadístiques mensuals sobre el temps de funcionament del seu servei.

Els sistemes d’alta disponibilitat són sistemes informàtics que han estat dissenyats seguint un conjunt de normes i tècniques per tal que el sistema pugui estar disponible sempre o, si més no, el màxim de temps possible.

Aconseguir que els sistemes informàtics estiguin disponibles sempre és gairebé utòpic, ja que són molts els riscos que s’han de tenir en compte. No obstant això, les empreses preparen els seus sistemes per tal que estiguin disponibles el màxim temps possible.

L'alta disponibilitat en els sistemes informàtics

Les empreses són cada cop més dependents dels seus sistemes informàtics i, per tant, una aturada en els servidors els pot suposar elevades pèrdues tant econòmiques com materials. Fins i tot en casos extrems podria suposar la pèrdua de vides humanes. És per aquest motiu que cal dissenyar adequadament els sistemes informàtics de manera que es trobin disponibles en qualsevol moment i que puguin oferir els seus serveis als usuaris de forma continuada.

Per tal que els sistemes informàtics tingui una elevada disponibilitat caldrà implantar solucions de programari i de maquinari. Cal tenir present que la majoria de solucions d’alta disponibilitat comporten uns costos força elevats.

En el procés de disseny cal determinar les necessitats d’alta disponibilitat que tindrà el nostre sistema i fins a quin nivell és necessari implantar aquest tipus de solucions, ja que a vegades per millorar la disponibilitat unes poques hores s’han de fer grans inversions econòmiques. Per exemple, no té associats els mateixos riscos l’aturada dels sistemes d’una torre de control, una entitat bancària o una botiga virtual que la del sistema comptable d’una perruqueria, un taller mecànic o una botiga de queviures.

En funció del tipus de negoci, no cal que els sistemes estiguin disponibles les vint-quatre hores del dia i, per tant, es poden programar aturades per realitzar tasques de manteniment. I en cas que es produeixi una aturada inesperada, sovint no impediran l’activitat econòmica que es desenvolupa.

Fa uns anys, l’alta disponibilitat estava únicament orientada a donar solució als sistemes informàtics de grans empreses. Tanmateix, en els últims anys s’han desenvolupat solucions menys costoses, fet que ha permès la implantació de solucions d’aquest tipus en empreses petites i mitjanes.

Determinades tasques de manteniment que realitzen els administradors (com actualitzacions, canvis de configuració o algunes còpies de seguretat) provoquen que el sistema deixin d’estar operatiu durant uns minuts. Aquest tipus d’aturades és el que s’anomenen aturades planificades, ja que els administradors les planifiquen per realitzar en moments que puguin tenir poc impacte en el funcionament de l’empresa. Estan controlades i es coneix per endavant la durada que tindran. Aquest tipus d’accions que generen un temps d’inactivitat s’acostumen a fer per les nits o en cap de setmana per tal d’afectar el mínim nombre d’usuaris, i sempre es notifiquen per endavant.

El temps d’inactivitat és el període de temps en què el nostre sistema no està operatiu i, per tant, no pot respondre a les peticions que realitzin els usuaris. En funció de les causes podem diferenciar dos tipus de temps d’inactivitat: planificat o no planificat.

D’altra banda, es troben els temps d’inactivitat no planificats, els quals poden ser causats per factors diversos. Per tal de poder identificar els possibles causants cal fer una avaluació de riscos. A continuació s’identifiquen alguns dels possibles riscos que caldrà tenir en compte:

  • Fallades de maquinari: el sistema deixarà d’estar operatiu si es produeix una aturada en algun dels dispositius bàsics del servidor com són la font d’alimentació, el disc dur o bé la memòria.
  • Talls i fluctuacions del subministrament elèctric: els sistemes informàtics són molt sensibles als canvis en el subministrament elèctric, que poden ser produïts per una fallada en les fonts d’alimentació locals, fluctuacions de tensió (tant pujades com caigudes de tensió) i per acabar, talls totals en el subministrament elèctric.
  • Pèrdua o bloqueig de la informació: la informació del sistema pot ser inaccessible ja sigui per un atac o bé per una mala gestió dels usuaris.
  • Fallada en la infraestructura de comunicacions: avui en dia la majoria de sistemes informàtics estan formats per la unió de diferents dispositius en una xarxa comuna. Un tall en la infraestructura de comunicacions suposarà la fallada del sistema complet, tant si es tracta de comunicacions locals com de comunicacions entre centres.
  • Saturació en els servidors de processament de dades: sovint, el bloqueig del servidor per un volum de dades superior al que és capaç de gestionar pot suposar una caiguda del sistema.

Un cop s’han identificat els possibles riscos, cal dissenyar i implantar solucions d’alta disponibilitat per tal que si algun d’aquests riscos s’acabés manifestant no representés una fallada del funcionament del sistema informàtic.

Per dur a terme un projecte d’implantació d’alta disponibilitat caldrà que seguim les fases de projecte següents:

  1. Coneixement del sistema i identificació de riscos: primer de tot cal conèixer en detall l’arquitectura del sistema on treballarem. Cal analitzar tots els components, per insignificants que puguin semblar, per poder identificar els dispositius més crítics i que, per tant, tindran un impacte més gran en cas de fallada.
  2. Establiment dels objectius a assolir: s’han de definir juntament amb l’usuari quins han de ser els nivells de servei a assolir.
  3. Disseny i planificació: un cop s’han establert els objectius, es buscaran les possibles solucions per donar resposta aquesta demanda. S’analitzaran una a una i s’escollirà la que més s’adeqüi a les nostres necessitats. Finalment, es realitzarà el disseny del nou sistema i es crearà la planificació del projecte.
  4. Implantació: a partir del disseny realitzat i en base a la planificació elaborada, es procedirà a la implantació de la solució acordada. Cal ser curosos a l’hora d’implantar un sistema d’aquest tipus, de manera que l’usuari no noti canvis en la qualitat del servei.
  5. Mesura: validar que la solució implantada assoleix els objectius establerts. En el cas que es produeixi alguna desviació es prendran les mesures correctives per tal de poder aconseguir la fita marcada.
  6. Control: monitorar i controlar el sistema implantat per tal d’assegurar-nos que està treballant dins dels paràmetres establerts. Al llarg dels anys els sistemes es van actualitzant i van afegint nous dispositius. Cal també controlar que aquestes variacions del disseny inicial no influeixen de manera negativa en el funcionament del sistema.

Com mesurar l'alta disponibilitat

Per tal de controlar els temps de disponibilitat dels sistemes informàtics s’ha creat una mètrica de càlcul. Aquesta mètrica es vàlida per a tots els sistemes informàtics. Primer de tot cal establir quina hauria de ser la disponibilitat del nostre sistema. És el que s’anomena SLA (Service Level Agreement) acord del nivell de servei, que en una empresa normal podria rondar entre 8×5 o un 10×5, depenent dels horaris dels treballadors, que garanteix que els sistemes estaran operatius els cinc dies laborables de la setmana dins de l’horari de treball. Hi ha altres tipus de sistemes, però, que necessiten d’una disponibilitat superior, com poden ser les entitats bancàries les quals han de tenir una acord de servei de 24×365, és a dir que es trobin operatius tots els dies de l’any les vint-i-quatre hores del dia. Aquests acords de servei d’alta disponibilitat també poden anomenar-se 24/7, com el seu nom indica els sistemes es trobaran operatius les vint-i-quatre hores del dia tots els dies de la setmana.

SLA

Els SLA (Service Level Agreement) o acords del nivell de servei s’acostumen a utilitzar per establir un contracte entre un proveïdor de servei i un client. En aquest contracte s’estableixen els nivells mínims de qualitat en base a diferents aspectes: temps de resposta, disponibilitat horària, personal assignat… Bàsicament, es realitzen contractes d’aquest tipus amb empreses de telecomunicacions i serveis externalitzats.

Un cop s’han determinat les hores de servei de cada sistema podem passar a calcular el total d’hores anuals que el sistema suposadament hauria d’estar operatiu. En el cas de sistemes d’alta disponibilitat, 24 x 365 = 8.760 hores/any. Si coneixem el total de temps d’inactivitat del sistema al llarg de l’any podem calcular el percentatge de disponibilitat aplicant la fórmula matemàticasegüent:

% disponibilitat = ((X – Y) / X) · 100

On X representa el nombre d’hores que el sistema hauria d’estar operatiu en referència a l’acord de nivell de servei de l’empresa i Y representa les hores d’inactivitat del sistema.

És interessant conèixer alguns dels càlculs més habituals d’índex de disponibilitat i temps d’inactivitat.

Exemple de càlcul de l'índex de disponibilitat

El cap d’informàtica d’un hospital ens ha demanat que calculem l’índex de disponibilitat del servidor on es troben emmagatzemats els expedients mèdics de tots els pacients. L’hospital disposa de servei d’urgències, que està obert les vint-i-quatre hores del dia tots els dies de l’any. Perquè els metges del servei puguin consultar els expedients mèdics s’han implantat algunes mesures d’alta disponibilitat, no obstant això, al llarg de l’any el servidor ha tingut un temps d’inactivitat acumulat de 53 minuts i 14 segons. El cap ens comenta que un índex de disponibilitat inferior a un 99,99% seria insuficient per al servidor de l’hospital.

Primer de tot hem d’identificar quin ha de ser el nombre d’hores que el servei hauria d’estar operatiu. En aquest cas hauríem d’aconseguir que el servidor estigués operatiu vint-i-quatre hores durant 365 dies de l’any per tant un total de 24 x 365 = 8.760 hores. Atès que el temps d’inactivitat està indicat en minuts i segons cal passar el temps d’inactivitat tot a hores per poder aplicar la fórmula. 53 min / 60 = 0,88 hores i 14 segons / 3.600 = 0,0038 hores. Per tant, els 53 minuts i 14 segons equivalen a 0,89 hores. Finalment, calculem l’índex de disponibilitat: ((8.760 – 0,89) / 8.760) · 100 = 99,98%. Podem determinar que les solucions d’alta disponibilitat implantades no són suficients, ja que l’índex de disponibilitat obtingut és inferior a l’esperat.

Exemple de càlcul del temps d'inactivitat

En una gestoria on els treballadors fan un horari laboral de nou del matí a sis de la tarda, el servidor on s’emmagatzemen les dades de comptabilitat té un índex de disponibilitat del 99%. Quin temps d’inactivitat màxim ha acumulat el servidor al llarg de l’any per arribar a aquest índex d’inactivitat?

En aquest tipus d’exercicis, primer de tot s’ha de determinar el nombre d’hores que hauria d’haver estat operatiu el servidor. Com que no es tracta d’un sistema d’alta disponibilitat, el servidor de comptabilitat només hauria d’haver estat operatiu els dies laborables entre les 9 i les 18 h. Atès que en un any hi ha 240 dies laborables i la jornada laboral de la gestoria és de nou hores diàries, al llarg d’un any el sistema hauria d’haver estat operatiu un total de 240 x 9 = 2.160 hores. En aquest cas, a partir de l’índex de disponibilitat s’ha d’esbrinar el temps d’inactivitat. 99% = ((2.160 – t. inactivitat)) / 2.160. S’aïlla de la fórmula el temps d’inactivitat i s’obté un temps de 21,6 hores.

Exemple de relació entre l'índex de disponibilitat i el temps d'inactivitat

En una empresa d’allotjament web disposen actualment d’un índex d’inactivitat del 99%. Han rebut una oferta força interessant econòmicament d’una agència de viatges que opera per Internet. No obstant això, per acabar utilitzant els seus serveis exigeixen un índex de disponibilitat no inferior al 99,99%. Com s’hauria de reduir el temps d’inactivitat per tal que l’agència de viatges accepti allotjar el seu web en el servidor d’aquesta empresa?

En aquest cas, en tractar-se d’una empresa d’allotjament web, els seus servidors han d’estar operatius 24 hores x 365 dies = 8.760 hores/any. Si l’índex de disponibilitat és del 99%, substituint a la fórmula 99% = ((8.760 – t. inactivitat)) / 8.760 s’obté que el màxim temps d’inactivitat actual és de 87,6 hores. Si es millorés l’índex d’inactivitat al 99,99% = ((8.760 – t. inactivitat)) / 8.760 s’obtindria un temps d’inactivitat màxim de 0,876 hores. Per tant, s’haurien d’implantar millores d’alta disponibilitat per reduir el temps d’inactivitat en 87,6 – 0,876 = 86,724 hores.

A la taula podeu veure un quadre resum de la relació entre l’índex de disponibilitat i el temps d’inactivitat per any, mes i dia d’un sistema d’alta disponibilitat.

Taula: Relació entre percentatge de disponibilitat i temps d’inactivitat per any, mes i dia d’un sistema 24×365
Disponibilitat Temps inactiu/any Temps inactiu/mes Temps inactiu/dia
90% 36,5 d 73 h 2,4 h
95% 18,3 d 36,5 h 1,2 h
98% 7,3 d 14,6 h 28,8 min
99% 3,65 d 7,3 h 14,6 min
99,9% 8,8 h 43,8 min 1,46 min
99,99% 52,6 min 4,4 min 8,8 s
99,999% 5,3 min 26,3 s 0,9 s
99,9999% 31,5 s 2,6 s 0,08 s

Com es pot apreciar en la taula, per cada increment de disponibilitat, el temps d’inactivitat es redueix de manera significativa. D’altra banda, cal analitzar els costos associats que comporta una millora d’aquest tipus, ja que passar d’una disponibilitat del 99% a una del 99,99% pot suposar duplicar el pressupost. Fins i tot se sol dir que per cada 9 que millorem en disponibilitat hauríem d’afegir un 0 en el pressupost.

Per aquest motiu és important establir una relació entre les millores econòmiques que ens suposarà augmentar la disponibilitat del nostre sistema i els costos que això comporta. A més, no totes les empreses necessiten tenir una disponibilitat del 99,999%. Només ho necessiten entitats bancàries, sistema de pagament amb targeta de crèdit de grans magatzems, botigues virtuals o torres de control, entre d’altres.

Tanmateix, és important que els administradors sàpiguen interpretar aquests resultats i que per analitzar la disponibilitat i fiabilitat dels seus sistemes no es basin únicament en aquests indicadors, ja que de vegades poden no ser del tot representatius. Per exemple ens podríem trobar amb un sistema amb una disponibilitat del 99,99%, que, tot i estar operatiu, presenta problemes de rendiment i no ofereix un bon servei als seus usuaris. Per tant, cal valorar també el tipus de servei que s’està oferint, no només els temps d’activitat dels dispositius. És per aquest motiu que cal també monitorar els serveis que ofereixen les nostres màquines.

Solucions d'alta disponibilitat

Un cop s’han identificat els possibles riscos als quals pot estar sotmès un sistema informàtic s’han d’implantar les solucions adients per evitar o mitigar el seu impacte. Les empreses que necessitin garantir una major disponibilitat dels seus serveis hauran d’incrementar les inversions en aquest àmbit per tal de cobrir totes les possibles circumstàncies.

Podem trobar solucions de tot tipus, des de redundància en els dispositius de maquinari a redundància en les comunicacions, passant per centres de processament de dades secundaris i plans de contingència.

Redundància en el maquinari

Un dels riscos que en cas de manifestar-se pot comportar uns majors temps d’inactivitat són les fallades en el maquinari. Si no han estat previstes, aquest tipus de fallades poden deixar el sistema totalment inoperatiu durant hores i fins i tot dies. Tots els elements del maquinari poden deixar de funcionar en un moment determinat, no obstant això, cal identificar quins són més crítics per a la continuïtat del funcionament del nostre sistema. Aquests són, bàsicament, les fonts d’alimentació, els discos durs i la memòria.

Per poder dimensionar adequadament la solució que més ens convé, cal conèixer les dades de fiabilitat dels diferents components que formen un servidor. Normalment, els fabricants d’equips electrònics aporten entre altres dades tècniques l’anomenat MTBF (de l’anglès mean time between failures), que és el temps mitjà entre fallades expressat en hores. Es tracta d’una dada estadística obtinguda a partir de proves de laboratori i dels resultats obtinguts de l’experiència amb els components electrònics més elementals, com poden ser els xips, els busos, les resistències… L’MTBF correspon exactament a la probabilitat inversa de fallada d’un sistema. Cal tenir present que varia segons els tipus de dispositius, el fabricants i les gammes de productes. A continuació s’indiquen alguns exemples d’MTBF:

  • Disc dur: 10.000-20.000 hores
  • Mòdem: 20.000-30.000 hores
  • Ordinador personal: 1.000-5.000 hores
  • Impressora: 2.000-4.000 hores

Normalment els valors de MTBF no són constants en el temps, sinó que es poden dividir en tres etapes ben diferenciades:

  1. Mortalitat infantil: es considera que el primer any de vida d’un dispositiu és el període en què poden aparèixer més fallades. El motiu és clar: si hi ha hagut errors en la fabricació, males condiciones en l’emmagatzematge, defectes en els materials emprats per al muntatge o un tractament deficient en les manipulacions, és a l’inici del seu ús on aquests es manifestaran i causaran un mal funcionament.
  2. Vida útil: passat un any sense fallades, es considera que un dispositiu entra en la seva vida útil i la probabilitat que falli passa a ser l’MTBF indicat pel fabricant, sempre i quan el dispositiu treballi en les condicions necessàries de temperatura, humitat, vibracions… recomanades pel fabricant.
  3. Final de la vida útil: finalment, passat uns anys es considera que els components s’han degradat degut a l’ús, a la temperatura… i la probabilitat que fallin augmenta considerablement.

En a la figura es mostra la fiabilitat d’un dispositiu en el temps, amb les tres etapes diferenciades.

Figura Evolució de la probabilitat de fallada en el temps

Així, a l’hora de dissenyar els plans per aconseguir una alta disponibilitat en els dispositius de maquinari cal analitzar degudament les dades que aporta el fabricant. En funció d’aquesta anàlisi es pot determinar quines parts del sistema és necessari redundar, que és la principal solució per assegurar l’alta disponibilitat, ja que permet reduir la probabilitat de fallada per dos o, el que és el mateix, duplicar el valor de l’MTBF.

Exemple de càlcul del MTBF

Tenim un servidor que segons el fabricant té una probabilitat de fallada de 1 x 10–4. Per tant, el seu MTBF és: 1 / Probabilitat de fallada = 10.000 hores de vida útil. Aquest valor indica que estadísticament el servidor fallarà cada 416 dies.

L’empresa considera que aquest valor és massa baix i que necessita una disponibilitat més elevada. Per això decideix redundar el dispositiu completament i que dos servidors treballin en paral·lel. D’aquesta manera, la fallada del sistema global només es produirà quan fallin els dos servidors a la vegada.

Per tant, P (sistema) = P (fallada servidor 1) · P (fallada servidor 2) = 10–8.

L’MTBF serà de 100.000.000 hores: la disponibilitat global del sistema ha augmentat de manera significativa.

Redundància de servidors

Atès que en un servidor hi ha diversos components que poden deixar de funcionar i, en conseqüència, impedir al sistema oferir un nivell de servei adequat, s’acostuma a duplicar el servidor sencer. D’aquesta manera, sigui quin sigui el component que ha deixat de funcionar podem garantir un nivell de servei semblant al que s’ofereix en el servidor principal.

Es pot classificar la redundància de servidors en funció de la capacitat de resposta en cas de fallada:

  • Redundància en calent: es tracta de dos servidors idèntics sincronitzats que treballen en paral·lel, però dels quals només un respon a les peticions del sistema. Disposen d’un programari de supervisió mútua. En cas que el servidor que està responent en aquell moment entri en fallada, el servidor en espera prendrà el relleu en un temps suficient perquè el servei no es vegi afectat, habitualment de l’ordre de pocs mil·lisegons.
  • Redundància intermèdia: es tracta de dos servidors, un de principal que respon a les peticions del sistema i un de secundari que no està sincronitzat en temps real. El servidor secundari s’actualitza cada cert període de temps prèviament establert, per exemple un cop al dia o un cop per setmana. En cas de fallada es produeix una aturada en el servei, perquè el servidor secundari s’ha d’actualitzar amb les dades del sistema principal. Aquest tipus d’aturades poden durant entre pocs minuts i algunes hores.
  • Redundància freda: es tracta de dos servidors, un de principal que respon a les peticions del sistema i un de secundari amb característiques semblants, però que no està operatiu. En cas de fallada s’hauria d’iniciar el servidor secundari, instal·lar el programari actualitzat i fer un bolcat de les dades. L’activació d’un sistema d’aquest tipus acostuma a requerir algunes hores i fins i tot algun dia.

Subministrament elèctric

Tan important és preveure arquitectures i solucions d’alta disponibilitat del maquinari com dels sistemes de subministrament elèctric. Sense una bona infraestructura que permeti l’alimentació ininterrompuda dels nostres sistemes és impossible assegurar una alta disponibilitat global.

Els talls en el subministrament elèctric poden produir-se per motius diversos. A continuació s’enumeren algunes de les fallades elèctriques que poden originar problemes en el funcionament d’un sistema informàtic:

  • Talls en el subministrament elèctric de la companyia proveïdora de servei.
  • Fallades elèctriques dins de la instal·lació de l’empresa a causa de curtcircuits, derivacions…
  • Avaria d’un dispositiu elèctric com el transformador, la font d’alimentació…

Per tenir un sistema robust i obtenir el nivell de protecció adequat contra aquestes amenaces es poden utilitzar les solucions següents:

  • Redundància en el subministrament: es recomana la contractació de dues línies de subministrament elèctric a dos proveïdors de serveis diferents. En el cas que això no sigui possible es recomana disposar de dues connexions provinents de dues estacions transformadores diferents, d’aquesta manera la caiguda d’una part de la xarxa elèctrica no afectarà el funcionament de la empresa.
  • Arquitectura elèctrica redundada: dins de l’arquitectura elèctrica de l’empresa es connectaran dues línies d’alimentació per a cada equip crític. Aquestes línies hauran de ser independents, amb protecció diferencial i magnetotèrmica independent. D’aquesta manera, si un dispositiu falla i fa disparar la protecció de capçalera, els altres dispositius no es veuran afectats. Per exemple, en dos servidors redundants s’hauria de disposar de dues línies independents per a cadascun d’ells.
  • Sistema d’alimentació ininterrompuda (SAI): aquest dispositiu serveix per estabilitzar la tensió d’entrada, evitar pics i microtalls. A més, aquests sistemes ofereixen protecció contra talls en els subministrament elèctric oferint a partir de bateries l’autonomia necessària per continuar amb l’activitat de l’empresa o per a l’apagament controlat dels sistemes. En casos en què es necessiti un nivell de disponibilitat molt elevat, es col·loquen dos SAI en paral·lel (no deixa de ser un dispositiu que també pot fallar).
  • Redundància de dispositius: per acabar, també es poden produir fallades en les fonts d’alimentació dels mateixos equips. És per aquest motiu que molts fabricants ja ofereixen servidors amb dues fonts d’alimentació. Tanmateix, redundar totes les fonts d’alimentació de tots els servidors crítics pot suposar un cost massa elevat per a segons quina empresa. Com a alternativa existeixen els clústers d’alimentació (n+1). Aquests clústers estan formats per n fonts d’alimentació connectades en paral·lel que disposen de la potència necessària per a tota la instal·lació més una font addicional per si alguna fallés.

Sistemes d'emmagatzematge redundant

Per garantir el bon funcionament d’un sistema informàtic és important que la informació estigui sempre disponible o bé que en cas de fallada es pugui recuperar quan es necessiti sense que els usuaris se n’assabentin.

Tot i que els discos tenen cada vegada una capacitat més gran i són més fiables, continuen sent un dels principals punts dèbils dels sistemes informàtics. La tecnologia RAID (Redundant Array of Independent Disks o conjunt redundant de discos independents) ens permet assolir alts graus de fiabilitat en l’emmagatzematge de la informació.

Un RAID és un sistema d’emmagatzematge d’informació que permet combinar dos o més discos d’igual capacitat perquè siguin tractats pel sistema com una única unitat lògica. La informació es divideix i es replica, de manera que s’ofereixen diferents nivells de tolerància a fallades.

Els esquemes RAID poden ser gestionats per:

  • Maquinari: en aquest cas es necessita una controladora RAID específica que permet alleugerir la càrrega del processador. Aplicant una solució de maquinari obtindrem una tolerància més alta a fallades i millorarem el rendiment de lectura i escriptura als discos. No obstant això, en afegir la controladora RAID també estem afegint un possible nou punt de fallada.
  • Programari: el mateix sistema operatiu és l’encarregat de gestionar els discos i, per tant, el rendiment del sistema es veu afectat, ja que part del processador ha d’estar dedicat a aquesta gestió.

Com s’ha indicat, les arquitectures RAID gestionades per maquinari ofereixen un millor rendiment. A més, aquest tipus de solucions acostumen a admetre substitucions en calent (hot swapping), és a dir, permeten que els discos puguin ser substituïts sense necessitat d’aturar el sistema.

A continuació es detallen els esquemes RAID més comuns.

RAID 0

El RAID 0, també anomenat stripping, distribueix equitativament la informació entre els diferents discos durs, de manera que la capacitat de la unitat lògica és la suma de les capacitats dels discos que la formen. De tots els esquemes RAID, aquest és l’únic que no proporciona tolerància a fallades: si un dels discos del RAID falla es perden totes les dades.

Com podem veure en la figura, les dades es divideixen en petits blocs que es van emmagatzemant de forma alternada entre els diferents discos que formen el RAID. Aquesta manera d’emmagatzemar la informació permet que les lectures i escriptures en el disc puguin ser simultànies, la qual cosa augmenta la velocitat de transferència.

Figura Distribució de la informació en un sistema RAID 0

Aquest esquema s’acostuma a utilitzar per millorar el rendiment en entorns on les dades no són crítiques, ja que una fallada en un dels disc suposaria la pèrdua total de la informació.

RAID 1

El RAID 1, també anomenat mirror, està format per la unió de dos o més disc durs. La capacitat de la unitat lògica correspon a la capacitat del disc més petit. En aquest esquema totes les dades es dupliquen en cadascun dels discos, d’aquesta manera si algun falla es poden recuperar totes les dades sempre que quedi un disc operatiu (figura).

El RAID 1 ens proporciona un bon nivell de tolerància a fallades, però empitjora l’eficiència pel que fa a l’emmagatzematge disponible, ja que es necessita el doble d’espai per emmagatzemar una informació determinada. La velocitat de lectura i escriptura és semblant a la que podem aconseguir en un sol disc.

Aquest tipus de solucions és recomanable per a empreses petites que volen aconseguir seguretat en l’emmagatzematge de dades sense fer una gran inversió.

Figura Distribució de la informació en un sistema RAID 1

RAID 5

El RAID 5, també conegut com a stripping amb paritat, necessita un mínim de tres discos per poder-se implantar. La capacitat d’emmagatzematge de la unitat lògica correspon a la suma de les capacitats de tots els seus discos menys un.

Codis de paritat

Serveixen per detectar i corregir errors en les transmissions de dades. S’incorpora un conjunt de bits calculats a partir d’un algorisme al final del missatge original per tal que el receptor pugui verificar que les dades són correctes.

Tal com s’observa en la figura, la informació es divideix en petits blocs que es van emmagatzemant alternativament entre els diferents discos. S’introdueixen codis de paritat distribuïts entre els diferents discos per tal de garantir la recuperació de les dades. En el cas de que un dels discos falli es podrà recuperar la informació a partir de les dades emmagatzemades en la resta de discos i els codis de paritat.

Figura Distribució de la informació en un sistema RAID 5

El RAID 5 ha aconseguit una gran popularitat, perquè ofereix redundància de dades a un cost baix.

RAID 1+0

Algunes targetes controladores RAID permeten niar diferents esquemes RAID, de manera que ens podem beneficiar dels avantatges que ofereix cadascun. El RAID 1+0 és una combinació d’aquest tipus. Consisteix, concretament, a unir discos amb un RAID 1 com si es tractessin de discos físics en un RAID 0. D’aquesta manera, aconseguim la velocitat en els accessos que ens ofereix el RAID 0 en permetre accessos simultanis i la redundància que ens ofereixen els esquemes RAID 1.

Aquesta combinació es podria també realitzar a la inversa creant un RAID 0+1, però no és recomanable fer-ho, ja que en cas de fallada s’haurien de recuperar més discos.

Com es pot observar en la figura, per implementar una solució d’aquest tipus són necessaris quatre discos com a mínim, fet que incrementa notablement el cost de la solució.

Figura Distribució de la informació en un sistema RAID 1+0

Centres de processament secundaris

Un centre de processament de dades (CPD) secundari està especialment dissenyat per entrar en funcionament quan per qualsevol contingència el centre principal deixa d’estar operatiu. Els costos d’adquisició i manteniment d’un CPD secundari són molt elevats. És per aquest motiu que només són recomanables per a empreses molt grans que requereixin d’una disponibilitat total.

Les característiques tècniques del CPD secundari han de ser les mateixes o molt semblants a les del CPD principal, ja que en cas que entri en funcionament haurà de poder oferir el mateix nivell de servei. A més, caldrà que compleixi amb les mateixes mesures de seguretat tant pel que fa a seguretat física com a la lògica per garantir la integritat de les dades. Es recomana ubicar el servidor secundari a uns 30 o 50 quilòmetres de distància del principal per evitar que els dos CPD es puguin veure compromesos en un mateix desastre natural. A l’hora de triar la ubicació, cal tenir present que quanta més distància hi hagi entre els dos CPD més retard hi haurà en les transmissions de dades i que, per tant, es pot produir un petit decalatge.

Les actualitzacions de dades entre els dos CPD poden ser de dos tipus:

  • Síncrones: el CPD secundari rep en temps real els canvis que es produeixen en el CPD principal i manté en tot moment una còpia exacta de les dades. En el cas que es produeixi una emergència i entri en funcionament, podrà fer-se càrrec del servei amb la garantia de disposar de totes les dades actualitzades.
  • Asíncrones: les actualitzacions no es fan en temps real sinó per lots. Per exemple, es poden fer còpies diàries per la nit al CPD principal i restaurar-les al CPD secundari el matí següent. En el cas que el centre secundari entri en funcionament s’ha de tenir present el possible decalatge temporal i actuar amb conseqüència.

En definitiva, sempre és més fiable un centre de processament de dades secundari amb actualitzacions síncrones que un amb actualitzacions asíncrones, perquè en cas de caiguda podrà disposar de tota la informació, mentre que en el que fa actualitzacions asíncrones podem tenir una pèrdua irrecuperable d’informació. D’altra banda, la implementació d’un sistema síncron és molt més cara que la d’un asíncron, ja que s’han d’establir canals de comunicació entre el centre principal i el secundari amb prou capacitat per enviar un gran volum de dades a temps real. A més, aquests costos es disparen com més gran sigui la distància entre els dos centres.

Els CPD secundaris amb actualitzacions asíncrones poden ser una bona solució per a empreses grans que no requereixin una disponibilitat total. Són més econòmics i no necessiten una infraestructura de telecomunicacions tan costosa.

Un altre aspecte a tenir en compte és com es realitzarà entre els dos centres la commutació de serveis. Aquest fet dependrà molt del tipus de servei que es vulgui traslladar. Pel que fa als sistemes síncrons, la commutació de serveis acostuma a ser senzilla i ràpida, semblant a commutar equips redundants dins d’un mateix CPD. Pel que fa als centres asíncrons, acostuma a ser més complicada i menys automatitzada. Sovint es necessita fer una posada a punt del CPD i realitzar una restauració de les dades, fet que pot provocar temps d’ineficiència en el sistema.

Xarxes i sistemes d'emmagatzematge en xarxa

Les empreses generen un volum de dades cada cop més gran i fer una gestió eficient d’aquesta informació és cada cop més complicat. A més, els usuaris necessiten que les dades es trobin disponibles en tot moment des de diferents plataformes i dispositius. Amb aquest objectiu s’han desenvolupat dues solucions d’emmagatzematge en xarxa: el NAS (sistema d’emmagatzematge en xarxa) i el SAN (xarxa d’emmagatzematge).

Sistema d'emmagatzematge en xarxa (NAS)

Els sistemes d’emmagatzematge en xarxa o NAS (en anglès Network-Attached Storage) estan compostos per dispositius d’emmagatzematge que es connecten directament a la xarxa corporativa i permeten compartir les dades amb tots els usuaris de l’empresa (figura).

Els servidors NAS disposen d’un maquinari específic per traduir els diferents sistemes de fitxers, des del qual els usuaris poden accedir als dispositius d’emmagatzematge. Internament, els dispositius d’emmagatzematge tenen implantats esquemes RAID, la qual cosa els proporciona un bon rendiment i una alta tolerància a fallades. Podem afirmar que les dades estan protegides, ja que estan centralitzades en el sistema NAS, que té una estructura d’alta disponibilitat.

Per accedir a la informació emmagatzemada en un sistema NAS, s’han de fer servir les funcions del sistema de fitxers del mateix sistema operatiu. Així, les lectures de dades es realitzen a nivell de fitxers i no a nivell de blocs, com es fa habitualment en un sistema d’emmagatzematge local. Això fa que les consultes en el sistema NAS siguin més lentes que en un sistema d’emmagatzematge natiu, fet que pot provocar retards en sistemes que treballin a temps real, tot i que pot ser una molt bona solució per a empreses que no requereixin un temps de resposta tan ràpid.

Els sistemes NAS són fàcils d’instal·lar i d’administrar. A més, en els últims anys han baixat molt de preu i avui en dia són assequibles per a qualsevol empresa i fins i tot per a usuaris particulars.

Els protocols que utilitzen aquests sistemes són el CIFS, l’NFS i l’SMB. Fins i tot podem trobar distribucions de programari lliure que ofereixen serveis NAS, com FreeNas, NASLite i Openfiler, entre d’altres.

Figura Arquitectura d’un sistema d’emmagatzematge en xarxa

Xarxa d'emmagatzematge (SAN)

En les xarxes d’emmagatzematge o SAN (en anglès, Storage Area Network), els dispositius d’emmagatzematge estan connectats directament a una xarxa d’alta velocitat i els usuaris els poden gestionar des del seu sistema operatiu com si hi estiguessin connectats de forma local (figura).

Els dispositius d’emmagatzematge i els servidors estan connectats a la xarxa mitjançant fibra òptica o iSCSI, que garanteixen rapidesa i fiabilitat en les seves connexions. La fibra òptica proporciona més velocitat. Això no obstant, les targetes i els commutadors de fibra òptica són molt cars. És per aquest motiu que avui en dia la majoria de xarxes SAN utilitzen el protocol iSCSI, ja que les peticions SCSI s’envien pel protocol TCP/IP, sense necessitat d’instal·lar fibra òptica. No són tan ràpides, però permeten reduir costos.

Figura Arquitectura d’una xarxa d’emmagatzematge

De tota manera, aquest tipus d’infraestructures són molt costoses i, per tant, només són assequibles per a empreses molt grans.

A diferència dels sistemes NAS, les xarxes SAN no estan orientades a fitxers, sinó a blocs, igual que els sistemes d’emmagatzematge local. D’aquesta manera, els accessos són molt més ràpids, la qual cosa en fa una bona solució per a sistemes a temps real.

Un dels avantatges de les xarxes SAN és que en tenir una connectivitat més alta, els servidors i els dispositius d’emmagatzematge poden estar-hi connectats més d’una vegada i, per tant, creen d’aquesta manera canals redundants, fet que n’augmenta la tolerància davant de fallades.

Solucions d'alta disponibilitat en bases de dades

Avui en dia les empreses treballen amb volums de dades molt grans i la tendència ens indica que en el futur encara s’emmagatzemaran més dades. Ara mateix, les empreses ja no mantenen únicament un llistat dels clients, sinó que acostumen a emmagatzemar altra informació rellevant com: els seus hàbits, aficions, llistat de compres realitzades… Amb tota aquesta informació es poden crear perfils de compres genèrics i individuals, d’aquesta manera l’empresa pot avançar-se a les tendències del mercat i realitzar campanyes publicitàries personalitzades.

Per facilitar les tasques de gestió i administració de les dades, aquesta informació es troba emmagatzemada en bases de dades que disposen de les eines necessàries per poder-ne fer una gestió eficient.

En els últims anys s’ha incrementat en el món empresarial l’ús del programari de gestió ERP (Enterprise Resource Planning), que ha fomentat la creació de grans bases de dades on se centralitza tota la informació de l’empresa. Aquest tipus de bases de dades acostuma a estar força exposat a fallades, ja que gestiona un volum de peticions molt elevat i això pot causar errors o caigudes del sistema. Per a moltes empreses, especialment les que tenen negocis molt dependents dels sistemes d’informació, com els bancs, una caiguda de la base de dades pot suposar pèrdues econòmiques importants. Per això les hem d’identificar com un dels punts més crítics del sistema.

La millor manera de reduir el nombre d’errors i fallades en una base de dades és disposar d’un bon disseny inicial que permeti una escalabilitat posterior. També cal que les aplicacions que treballen amb la base de dades realitzin només les peticions indispensables per obtenir la informació que necessiten.

En qualsevol cas, un bon disseny no garanteix que no tinguem cap tipus de fallada o caiguda del sistema. Per això cal que protegim les bases de dades amb sistemes d’alta disponibilitat. El sistema més habitual és disposar de la base de dades de producció, anomenada també principal o primària, i una base de dades secundària rèplica exacta de la primària. La base de dades replicada entrarà en funcionament quan es produeixi una fallada en la base de dades de producció o quan es realitzi alguna actualització. Per tal de millorar-ne la disponibilitat és recomanable que les dues bases de dades es trobin ubicades físicament en servidors diferents; així augmentarem la disponibilitat en cas d’una caiguda del servidor.

La còpia d’informació entre les dues bases de dades es pot fer de forma síncrona o asíncrona:

  • Síncrona: en cada transacció que suposa una modificació de la base de dades es copien de manera automàtica tots els canvis a la base de dades secundària i no es dóna la transacció per acabada fins que no s’ha realitzat la modificació en ambdues bases de dades. Aquest mètode empitjora lleugerament el rendiment de la base de dades, ja que les transaccions són més llargues.
  • Asíncrona: en aquest cas es potencia més el rendiment de la base de dades que la qualitat de les dades en cas de fallada. Es dóna per vàlida la transacció un cop s’han guardat els canvis a producció i es retarda lleugerament la còpia de dades al servidor secundari. Això pot generar petites diferències amb la base de dades original en el cas que s’hagi de restaurar.

Com que els sistemes síncrons tenen la informació actualitzada permeten fer una commutació automàtica de les bases de dades sense riscos. D’aquesta manera, si es produís una caiguda o errada en la base de dades principal, els sistemes de la empresa podrien funcionar amb normalitat amb la base de dades secundaria, sense que els seus usuaris se n’assabentessin.

D’altra banda, quan es produeix una fallada en la base de dades principal d’un sistema asíncron s’ha de forçar la commutació, fet que pot generar pèrdues de dades, ja que la base de dades secundària pot no trobar-se del tot actualitzada en el moment del canvi.

Els principals proveïdors de bases de dades ja ofereixen solucions asíncrones i de commutació automàtica de les dades. És el cas de Data Guard d’Oracle i l’AlwaysOn d’SQL Servers.

Redundància en les comunicacions

Les comunicacions no són menys importants que les bases de dades. No serveix de res tenir un servidor amb una disponibilitat del 100% si els clients no s’hi poden connectar. Per garantir aquesta connectivitat entre servidors i clients, la majoria de servidors disposen de dues targetes de xarxa. Així els serveis no es veuen afectats en cas de fallada. Tanmateix, el servidor pot treballar amb es dues targetes de xarxa com si fossin una de sola, sumant les seves capacitats i millorant el seu rendiment.

Tant si les comunicacions són internes com externes hi intervenen molts dispositius de xarxa (encaminadors, commutadors, concentradors…). La caiguda de qualsevol d’aquests dispositius pot suposar la caiguda del servei. És important redundar la majoria d’aquests dispositius en les xarxes internes de l’empresa perquè una caiguda no afecti a les comunicacions i, en definitiva, al servei ofert. A part dels dispositius de la xarxa també és important replicar els canals de connexió entre els principals dispositius per tal d’evitar que un tall en el canal provoqui la caiguda del sistema. Per això s’acostuma a construir les xarxes amb una arquitectura d’anell, de manera que la caiguda d’un canal entre dos nodes, per exemple per un tall accidental en una fibra òptica, no afecti a les comunicacions del sistema i tots els dispositius puguin seguir estant connectats entre sí i treballar amb total normalitat (figura).

Figura Estructura d’una connexió en anell

Una xarxa en anell, però, pot originar alguns problemes en la selecció de rutes per part dels protocols i crear situacions de bucles infinits dins de la xarxa, en els quals els paquets es vagin enviant entre els dispositius de xarxa sense arribar mai a la seva destinació. Per això cal utilitzar protocols que permetin la resolució d’aquests problemes, com fa el protocol Ethernet amb la seva funcionalitat Spanning Tree (STP). Aquesta funcionalitat detecta automàticament en una xarxa quan s’ha creat un anell de redundància entre els dispositius, desactiva un dels enllaços entre els nodes de comunicació de manera automàtica i evita així la formació de bucles. Davant d’una fallada en un enllaç, l’STP activa l’enllaç que havia desactivat virtualment per evitar l’aparició de bucles i desactiva l’enllaç que ha caigut realment.

La majoria d’empreses disposen avui d’una xarxa d’oficines connectades entre elles per compartir recursos i dades. Tot i disposar d’una xarxa de comunicacions interna d’alta disponibilitat, aquestes comunicacions entre centres requereixen l’ús de xarxes de telecomunicacions públiques, com per exemple Internet. Així, doncs, els proveïdors de serveis passen a ser un dels punts més crítics del sistema. Una caiguda del proveïdor de servei d’Internet suposa unes pèrdues econòmiques significatives per a la empresa. No només es perden les comunicacions entre les diferents seus, sinó que també deixen d’estar disponibles altres serveis imprescindibles per al bon funcionament de la companyia com el correu electrònic, el web, es perden comunicacions amb els clients… a més que es pot generar la desconfiança de clients potencials.

Per garantir un bon accés a Internet i evitar tots aquests problemes, les empreses opten per contractar dues línies de comunicacions amb diferents proveïdors. Encara es millorarà més la disponibilitat si es contracta l’accés a Internet a dos proveïdors que ofereixin una tecnologia diferent, per exemple fibra òptica i ADSL. Tanmateix, aquesta opció no sempre és viable.

Disposar de més d’un proveïdor d’accés a Internet ajuda a garantir la disponibilitat de les comunicacions en cas de caiguda del servei i, a més, permet realitzar un repartiment de càrrega entre les dues línies i millorar la seva capacitat.

Repartiment de càrrega

Tot i que el repartiment de càrrega no és una solució d’alta disponibilitat, serveix com a mesura preventiva, ja que permet gestionar el trànsit de la xarxa entre els diferents dispositius de manera que no es puguin saturar les interfícies i provocar una caiguda de les comunicacions. En el cas que una de les interfícies de xarxa caigués, es podrien mantenir les comunicacions a partir de les altres interfícies operatives. Per contra, el rendiment de la xarxa es veuria afectat.

Clúster de servidors

Un dels factors que més impacte pot tenir en el funcionament d’un sistema són les fallades del maquinari. Una caiguda del servidor principal pot tenir uns efectes devastadors i per això es recomana redundar aquest tipus de màquines. No obstant això, no s’ha d’oblidar que és una solució costosa i que no totes les empreses poden permetre-se-la.

Tanmateix, la redundància de servidors no és la única opció. Hi ha altres solucions més econòmiques i més ràpides per continuar amb l’activitat de negoci. Una de les solucions que més implanta a les empreses són els clústers de servidors d’alta disponibilitat.

Per facilitar la tasca de transferència de serveis i dades entre servidors en cas de fallada s’han desenvolupat noves arquitectures de servidors, els clústers.

Un clúster és un conjunt d’unitats funcionals amb característiques similars interconnectades per mitjà d’una xarxa d’alta velocitat i configurades perquè actuïn coordinadament, com una sola unitat.

Els clústers es poden classificar segons la seva finalitat en:

  • Clústers d’alt rendiment
  • Clústers d’alta disponibilitat

Un clúster d’alt rendiment es basa en el processament en paral·lel, que consisteix a unir els diferents nodes en una xarxa i que parts d’un mateix programa s’executin de forma paral·lela en els diferents processadors connectats. D’aquesta manera s’aconsegueixen sumar les capacitats de càlcul dels nodes que el componen. Sovint, aquestes formacions poden disposar d’un gran nombre d’ordinadors connectats per a la creació de supercomputadors. Aquest tipus d’arquitectura s’acostuma a utilitzar per a la resolució de problemes científics que requereixin processar un gran volum de dades. És el cas dels estudis sobre el genoma humà o el canvi climàtic.

Encara que la finalitat dels clústers d’alt rendiment no és l’alta disponibilitat, també acostumen a incorporar solucions d’aquest tipus, ja que no es podrà assolir un alt rendiment si no s’assegura una alta disponibilitat del sistema. Per això un clúster d’alt rendiment sempre oferirà millors prestacions que un únic ordinador amb igual capacitat de càlcul. A Catalunya, el supercomputador MareNostrum funciona amb aquesta tecnologia.

Supercomputador MareNostrum

A Catalunya tenim el supercomputador MareNostrum, basat en una tecnologia de clúster d’alt rendiment. Va ser creat l’any 2004 i encara avui és un dels superordinadors més potents de tot Europa. Està format per la unió de 10.280 processadors de 64 bits, una memòria de 20 terabytes, 280 terabytes de disc, que li proporcionen una capacitat de procés de 62 teraflops. El Barcelona Supercomputing Center (BSC) és l’organisme encarregat de la seva gestió i de seleccionar els projectes científics que en poden fer ús. S’hi desenvolupen tot tipus de projectes, com per exemple investigacions sobre el genoma humà o l’estructura de les proteïnes. Està ubicat en una antiga capella a les instal·lacions del campus de la UPC a Barcelona.

En un clúster d’alta disponibilitat, els diferents nodes que componen el clúster es troben monitorats en tot moment, de manera que si es produeix una fallada en el maquinari o programari d’algun dels nodes, es podran restaurar de forma automàtica els serveis caiguts en un altre servidor. Quan el node caigut torna a estar operatiu es restauren els seus serveis inicials i tot continua funcionant com ho feia abans de la caiguda. D’aquesta manera, la caiguda d’un dels servidors no afecta al funcionament global del sistema.

Els clústers d’alta disponibilitat no només són útils davant d’aturades no planificades, sinó que també són una bona solució per realitzar tasques de manteniment sense deixar d’oferir servei. A diferència dels clústers d’alt rendiment, no acostumen a disposar d’un gran nombre de nodes connectats; sovint es tracta únicament de la unió de dos nodes.

Existeixen diferents configuracions de clústers d’alta disponibilitat, tot i que les més comunes són l’actiu-actiu i l’actiu-passiu.

  • Configuració actiu-actiu: tots els nodes estan operatius i poden executar els mateixos recursos de forma simultània. En el cas que es produís una fallada en un dels nodes, la resta de nodes del clúster podrien oferir els mateixos serveis, però augmentaria la càrrega dels altres nodes i la qualitat del servei es podria veure afectada. Aquesta configuració permet aprofitar molt millor els recursos del clúster, ja que tots els nodes poden treballar de forma simultània. La implantació d’un solució d’aquest tipus és bastant més complexe que una configuració actiu-passiu.
  • Configuració actiu-passiu: el node actiu està operatiu i és l’encarregat d’oferir el servei als usuaris, mentre que el node passiu està aturat i només entra en funcionament quan el node actiu pateix una fallada. Aquest tipus de configuració és menys eficient que l’actiu-actiu, ja que en un moment determinat només s’aprofiten els recursos d’un dels dos nodes.

Plans de contingència

Siguin quines siguin les mesures que s’hagin aplicat per garantir l’alta disponibilitat en un sistema, sempre es poden produir fallades que no estiguessin contemplades o que no hagin pogut ser resoltes per les solucions implantades. En aquests casos només ens quedarà posar en funcionament el pla de contingència.

El pla de contingència recull el conjunt de procediments alternatius que permetrien a l’empresa continuar treballant de manera normal en el cas que alguna de les seves funcionalitats es veiés afectada per un accident intern o extern.

A l’hora d’elaborar un pla de contingències, primer de tot cal realitzar una anàlisi de riscos. Aquesta anàlisi consisteix a identificar les causes i conseqüències de les amenaces que pot patir el nostre sistema. Per facilitar la feina, habitualment es dibuixen unes taules en les quals s’identifica per a cada una de les possibles amenaces la probabilitat que es produeixi i l’impacte que tindria en la continuïtat del negoci.

Un cop identificades totes les possibles amenaces es començaran a definir les solucions o processos per evitar que es produeixin o per mitigar-ne l’impacte. Es comença descrivint els processos d’aquelles amenaces que tenen una probabilitat i impacte alt, i s’acaba per les que són molt poc probables i tindrien un impacte molt baix.

Per a cadascuna de les amenaces identificades es descriuen diferents solucions. Algunes seran preventives, d’altres d’actuació i d’altres de recuperació.

  • Solucions preventives: descriuen les accions que s’han de realitzar per evitar que es materialitzi aquesta amenaça.
  • Solucions d’actuació: consisteixen en la descripció de les accions que s’han de realitzar un cop s’ha manifestat l’amenaça per tal de mitigar-ne l’impacte.
  • Solucions de recuperació: són les accions que s’han de realitzar per recuperar el funcionament del sistema.

En un pla de contingència hi trobarem les solucions d’actuació per a tots els riscos identificats. En canvi, no sempre trobarem solucions preventives i de recuperació. Els procediments d’actuació han de contenir la informació següent: les accions a realitzar, la metodologia i el protocol a seguir, els materials necessaris, les persones implicades, les seves funcions i la persona responsable.

Els plans de contingència han ser revisats periòdicament, perquè no quedin obsolets i representin en tot moment la realitat de l’empresa. A part d’aquestes revisions periòdiques, cada cop que es posa en funcionament el pla se’n fa una valoració posterior per identificar possibles millores.

Pla de recuperació en cas de desastre

Un pla de recuperació en cas de desastre (en anglès, Disaster Recovery Plan) és un pla de contingència basat en els sistemes d’informació d’una empresa. En aquest pla s’identifiquen les amenaces que poden afectar al programari o maquinari del sistema, que poden causar una pèrdua de dades, en definitiva. Les empreses són cada cop més dependents de les tecnologies de la informació i per això si assegurem aquesta part de la companyia s’evitaran molts problemes derivats.

Aquest pla protegiria els sistemes d’informació contra desastres naturals com incendis i inundacions, actes vandàlics, talls en el subministrament elèctric, aturades del sistema i baixes de personal, entre altres situacions.

Es calcula que un 50% de les grans empreses estan protegides amb plans d’aquest tipus, mentre que en les petites i mitjanes empreses encara és una assignatura pendent, ja que només al voltant d’un 20% tenen plans de recuperació en cas de desastre. Algunes empreses destinen grans quantitats de diners a mantenir aquest tipus de plans. Tot i que poden tenir costos molt elevats, és preferible fer aquest tipus d’inversions que no que es produeixi una pèrdua de dades. Això suposaria pèrdues econòmiques importants per a la empresa i podria causar danys d’imatge irreparables.

Pla de continuïtat del negoci

Els plans de continuïtat de negoci (en anglès, Business Continuity Plan) són els plans de contingència que vetllen per la continuïtat de les funcions crítiques del negoci en cas de que es produeixi una interrupció no programada. En aquests tipus de plans, a part de disposar d’un pla de recuperació dels sistemes d’informació en cas de desastre, es detallen els procediments necessaris per poder continuar l’activitat. Per tant, es tracta de plans molt més complexos i que requereixen la implicació de tota la organització.

Perquè aquests plans siguin efectius cal generar una cultura de continuïtat de negoci i campanyes de sensibilització als treballadors, ja que és important que tot el personal participi en la elaboració del pla i sàpiga on trobar-lo quan faci falta.

En el seu procés d’elaboració és important que s’identifiquin les funcions crítiques del negoci i que s’elaborin plans preventius, d’actuació i recuperació per a cadascuna d’aquestes funcions, per tal de poder garantir un servei mínim en cas de contingència. Sovint no és fàcil identificar els processos més crítics o que poden tenir un major impacte de cara els clients. Per poder visualitzar tots aquests aspectes i poder prioritzar els diferents processos s’acostuma a realitzar una anàlisi d’impacte (en anglès, Business Impact Analysis). En aquestes anàlisis s’identifica per a cada funció l’impacte econòmic i d’imatge, temps de recuperació i els recursos requerits per continuar amb el seu funcionament. En base a aquestes anàlisis es prioritzen els processos i s’elaboren els procediments d’actuació.

Anar a la pàgina anterior:
Referències
Anar a la pàgina següent:
Activitats