Disaster Recovery Problematiek en denkpistes voor oplossingen Cevi Usernamiddag 8 december 2009 9 december 2009 Cevi bedrijfspresentatie
High Availability & Disaster Recovery Een theoretische benadering Cevi Usernamiddag 8 december 2009 9 december 2009 Cevi bedrijfspresentatie
High Availability & Disaster Recovery Terminologie Doelstellingen Methodologie Strategieën 9 december 2009 Cevi bedrijfspresentatie
Enkele definities Business Continuity (BC) IT service continuity High Availability (HA) Disaster Recovery (DR) Major outage Minor outage Dienstverlening Proces Ondersteunend IT proces IT infrastructuur DR HA major outage minor outage 9 december 2009 Cevi bedrijfspresentatie
Waarom Business Continuity? Een onderbreking van dienstverlening kost geld Verloren werkuren bij uitval Verlies aan inkomsten, reputatie, en dus ook IT service continuity. (i.e. High Availability & Disaster Recovery) 9 december 2009 Cevi bedrijfspresentatie
Fundamentele vragen Welke uitvallen moeten transparant blijven? Hoe lang mag onderbreking bij minor outage Hoe lang mag onderbreking bij major outage? Waar ligt de grens tussen minor en major outage? Hoe groot mag het dataverlies bij major outage? Welke disaster scenario s worden niet gecoverd? 9 december 2009 Cevi bedrijfspresentatie
High Availability (HA) protectie tegen en/of herstel van minor outage in een relatief korte tijd (downtime) en (liefst) automatisch availability <> reliability Fault Protection (FP) Fault Tolerancy Service Level Agreement (SLA)
Minor outage => downtime en SLA dagen uren min sec sec min uren dagen downtime SLA
Disaster Recovery (DR) mogelijkheid tot herstel van major outage desnoods met gereduceerde capaciteit/performantie (liefst) via manuele acties Recovery Time Objective (RTO) Recovery Point Objective (RPO)
Major outage => RPO/RTO
System stack IT infrastructuur User environment Application Dienstverlening Middleware Proces Ondersteunend IT proces Operating System IT infrastructuur Hardware Physical environment
Doel Business Continuity en dus IT service continuity en dus een systeem bestand tegen minor outages (HA) major outages (DR) met realistische parameters downtime (HA) RPO,RTO ( DR)
Methodiek in kaart brengen van mogelijke defecten en uitvallen analyseren en rangschikken van bestaande systemen kiezen van strategieën uittekenen van HA/DR systemen Basisprincipes robuustheid en eenvoud redundantie consolidatie virtualisatie
Outage categorie (generiek) Failure scenario Probability Damage Requirement brand low high DR elektriciteitspanne high low HA
System categorie Categorie Max. minor outage Max. major outage Downtime RTO RPO Kritisch 10 min 8 uur 4 uur Belangrijk 4 uur 3 dagen 8 uur Basis 8 uur 1 week 8 uur
System outages ( specieke system stack) System component Failure scenario Requirement Solution User environment Application Middleware Operating System Hardware Physical environment brand DR elektriciteitspanne HA
Methodiek in kaart brengen van mogelijke defecten en uitvallen analyseren en rangschikken van bestaande systemen kiezen van strategieën, oplossingen uittekenen van HA/DR systemen Basisprincipes robuustheid en eenvoud redundantie consolidatie virtualisatie
Redundantie redundancy = repetition + management management = replication + fault handling redundancy <> simplicity
Virtualisatie abstractie van de onderliggende componenten op elk niveau van de system stack hardware (server, storage, router) virtualisatie applicatie virtualisatie desktop virtualisatie methode voor redundantie, consolidatie
Server hardware Server hardware component Failure scenario Req Solution Cost CPU chip failure HA memory chip failure HA system bus errors failure HA network card failure HA redundancy power supply failure HA consolidation(blades)
System System component User environment Failure scenario Req Solution Cost Applications failure HA redundancy Middleware failure HA redundancy Operating Systems failure HA redundancy Hardware failure HA redundancy Physical environment virtualisatie clustering
Virtualisatie en consolidatie : servers abstractie van de hardware methode voor consolidatie van servers op basis van virtualisatiesoftware scenario s voor HA,DR snapshotting streaming replicatie
Clustering additionele hardware + monitoring + automatische migratie van diensten naar additionele hardware failover cluster <> load balancing
Data Data component Failure scenario Req Solution Cost data deletion HA backup corruption HA copy OS corruption HA image storage cabinet server virtualisatie
Virtualisatie en consolidatie : storage Storage Virtualization Hardware resources Storage cabinet
Storage Storage component Failure scenario Req Solution Cost disks failure HA RAID controller error HA redundancy cabinet failure HA redundancy storage cabinet
Infrastructure Infrastructure component Failure scenario Req Solution Cost Network failure HA redundancy SAN failure HA replication Basic services failure HA redundancy Backup / restore failure - Monitoring failure -
Netwerk Interne connectiviteit Spanning Tree Protocol (STP) Redundant network segment Externe connectiviteit Virtual Router Redundancy Protocol
Disaster Recovery System component Failure scenario Req Solution Cost Application inconsistent data DR Middleware cluster failure DR Operating System driver errors DR Hardware firmware error DR Infrastructure brand DR DR-site
Disaster Recovery site Primary <> DR site eigen partner, outsourcing Design shared cold/hot standby HA extensies mirrorring -> remote replicatie virtualisatie -> site recovery clustering -> metro cluster
Enkele referenties