[ditedi]ha in azienda

78
Michele Della Marina - Dario Tion [email protected] HA in azienda HA in azienda

Upload: dario-tion

Post on 05-Jul-2015

147 views

Category:

Technology


0 download

DESCRIPTION

seminario svoltosi presso Knowledge Center DiTeDi in data 19 ottobre 2013, con Michele Della Marina, Dario Tion e Michele Codutti. Affrontati temi teorici e pratici dell'introduzione dell'alta disponibilità (HA) in azienda

TRANSCRIPT

Page 1: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

HA in azienda

Page 2: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Programma di oggi

● Un po' di teoria● Introduzione all'HA● The Availabilty index

● Un po' di caffè

● Un po' di pratica (con Michele Codutti)● Ovvero quando l'HA complica la vita

anziché semplificarla

Page 3: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Le fonti

Page 4: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Definizione di HA

Col termine "availability" (disponibilità) in ICT viene generalmente inteso come il periodo di tempo in cui un servizio è accessibile

"Highly Available" (altamente disponibile) è un sistema progettato per evitare la perdita di servizio, riducendo e possibilmente gestendo i guasti hardware ed i blocchi software, e minimizzando razionalmente le interruzioni pianificate.

BUZZWORD

Page 5: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Perchè parliamo di HA?

Page 6: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Come misuriamo l'HA?

% di disponibilità = (tempo totale - somma dei downtimes) / tempo totale

Ogni latenza di servizio, pianificata oppure no, viene detta "outage".

Con "downtime" si intende invece la durata di un outage in unità di tempo.

99% => 88 ore/anno - 99,5% => 44 ore/anno – 99,95 => 5 ore/anno

99,99999% "seven nines" => 3,15 s/anno

Page 7: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Il costo dell'HA

● Costi di progettazione / implementazione / gestione

VS

● Costi di interruzione del servizio● Tangibili (arresto della produzione)● Intangibili (immagine aziendale, fiducia)

L'obiettivo non è avere un sistema sempre disponibile (costo infinito), ma:

Costi implementativi < Costi di interruzione

E' necessaria una attenta valutazione preventiva

Page 8: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Le insidie dell'HA

● E' un sistema con retro-azione (instabile)

● Non è facile testarlo

● Va tenuto monitorato nel tempo

● Casistiche non valutate in fase di progettazione

● Variabili di ambiente (es. virtualizzazione)

=>>> Falsi positivi o falsi negativi (es. split brain)

Page 9: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Le politiche di HA

● Definisci gli obiettivi● Convinci i tuoi capi (parlando la loro “lingua”), ragionando sul ritorno economico● Documentazione / corsi soprattutto su casi reali, aziendali – (non solo teoria)● Analisi degli aspetti legali ● Valutazione del rischio● Definizione linee guida● Implementazione (roadmap) ● Testing

Page 10: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Le politiche di HA

VALUTAZIONE DEL RISCHIO

Page 11: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

Prevedere l'imprevedibile

Page 12: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI - The availability index

Page 13: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Good System Administration Practices

Page 14: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #20: Don’t Be Cheap

Page 15: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #19: Assume Nothing

Page 16: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #18: Remove Single Points of Failure

Page 17: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #17: Enforce Security

Page 18: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #16: Consolidate Your Servers

Page 19: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #15: Watch Your Speed

Page 20: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #14: Enforce Change Control

Page 21: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #13: Document Everything

Page 22: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #12: Employ Service Level Agreements

Page 23: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #11: Plan Ahead

Page 24: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #10: Test Everything

Page 25: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #9: Separate Your Environments

Page 26: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #8: Learn from History

Page 27: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #7: Design for Growth

Page 28: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #6: Choose Mature Software

Page 29: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #5: Choose Mature, Reliable Hardware

Page 30: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #4: Reuse Configurations

Page 31: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #3: Exploit External Resources

Page 32: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #2: One Problem, One Solution

Page 33: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

TOP 20 - #1: K.I.S.S. (Keep It Simple . . .)

Page 34: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Reliable Backups

Page 35: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Reliable Backupscosa non è backup?

ATTENZIONE

IL MIRRORING NON è un backup

→ corruzione→ cancellazione non voluta

Page 36: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Reliable Backupsstrategie

● Di cosa fare il backup?● Attenzione: è un costo (tempo, dispositivi, controlli)● Attenzione: tanti dati sono difficili da gestire● E il backup del backup?

● Dove collocare il backup?● Attenzione alla separazione ambienti● Attenzione ai tempi di ripristino● Cifratura del dato / privacy● Chi accede al backup?

Page 37: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Reliable Backupsche soluzioni utilizzare?

● Al solito, abbiamo diverse opzioni:● Software commerciali● Software open-source● Soluzioni “fatte in casa” => ma perchè ????

● Attenzione alle piattaforme da supportare (client/storage)● Attenzione che un prodotto commerciale non è scevro da

problematiche di funzionamento● Valutare esigenze di hot-backup

Page 38: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Reliable Backupsperformance e bottleneck

TEMPI DI SALVATAGGIO/SFORAMENTIAbbiamo solo 24 ore in un giorno

FALLIMENTO DI UN BACKUP..Cosa comporta?

VELOCITA' STORAGE / CANALE

TRAFFICO / CARICO

Page 39: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Reliable Backupstest & monitoring

Page 40: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Disk and Volume Management

Page 41: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Disk and Volume Management

● RAID● Strumenti (SAN – NAS – Disk Array – Virtual Storage)

● I/O performance (reali)● Affidabilità/disponibilità● Scalabilità● Costo/capacità● Strumenti di gestione● Funzionalità evolute (provisioning – integration – storage virtualization - replica)● Licenze

● Block or Filesystem● Protocols

● Fibre Channel, iSCSI, SAS, FCoE● NFS, CIFS

Page 42: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Disk and Volume ManagementSAN o NAS?

Cos'è meglio ? => DIPENDE

● SAN:

– Grandi moli di dati– Alte richieste di banda– Applicazioni parallele/distribuite– Scalabilità

● NAS:

– Gestione centralizzata storage– Pochi dati– Piccola crescita dell'ambiente operativo– Semplice ed economica

Page 43: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Disk and Volume ManagementBackup e Replica

● Backup (es. “snapshot” LUN - flash copy)

=> Attenzione alla mole di dati e ai costi (tempo, spazio disco)

=> tecnologie “nuove” (ZFS)

● Replicazione ● Sincrona● Asincrona

Attenzione :– disponibilità di banda (garantita!)

del canale – latenza del canale

Page 44: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Disk and Volume ManagementSnapshot

● Snapshot (VM)

NON E' UN BACKUP

Page 45: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Networking

Page 46: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Networkingtipologie di failure

Problematiche di rete sono spesso difficili da diagnosticare (multilayer).. ● Interfacce LAN● Cablaggi● Dispositivi di interconnessione (switch, bridge)● Dispositivi di routing/firewalling● Politiche di routing/firewalling● Servizi chiave ● Latenza

=> dobbiamo agire su ogni layer per valutare la disponibilità

Page 47: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Networkingspunti di discussione

Alcuni spunti:● Porre attenzione alla complessità delle soluzioni ridondate e relativo difficile

debug● Attenzione alle funzionalità di failover automatico● Attenzione alle compatibilità dei dispositivi● Separazione funzioni vs concentrazione● Protezione della rete (802.1x, network policy, ...)● Attenzione a soluzioni software (driver!)● Scegliere protocolli efficienti (attenzione a compatibilità fra costruttori, anche

se dichiarate)● Usare protocollo di Spanning Tree (rapid?)● Mappe (geografiche)/visione d'insieme

=> risoluzione rapida dei guasti● NO ALLE SOLUZIONI FATTE IN CASA/ACCROCCHI

Page 48: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Local Environment

Page 49: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Local Environmentproblemi trascurati?

L'ambiente può inficiare totalmente sistemi progettati per l'HA, spesso in maniera subdola/nascosta● Energia elettrica / UPS

(stabilità, ridondanza, share, interruzioni breve e lungo termine, carburante per generatori)

● Connettività (ridondanza/mezzi diversi/fornitori diversi)● Raffreddamento (temperature/flussi/ridondanza)● Cablaggi (labels?) / Ciabatte elettriche● Sicurezza di accesso fisico ai locali (pro e contro)● Protezione da fenomeni esterni (acqua, fuoco, esplosioni)

Page 50: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Local Environmentproblemi trascurati?

Page 51: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Local Environmentproblemi trascurati?

Page 52: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Local Environment...e le persone?...

● sono parte dell'ambiente(fornitori, clienti, dipendenti, collaboratori)

● Importanza del lavoro in team e del rispetto verso gli altri

● Importanza dell'educazione/formazione dei team

● Condivisione di problemi e obiettivi

● Creazione di sinergie coi fornitori e cura dei rapporti umani

● Creazione di sinergie con i clienti

=> COSTI ALTI, ma...

Page 53: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Local Environmentprocedure e piani...

● Sono sempre necessari piani e procedure di intervento

● Sotto stress si commettono errori:● Bisogna prevedere le situazioni più probabili e gestirle preventivamente● Se possibile, simulare problemi● Lavorare/essere sempre in team● Gestire correttamente le escalation● Incident Response Team● Gestire i carichi di lavoro

● IMPARARE DAGLI ERRORI

Page 54: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Client Management

Page 55: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Client Managementproblematica...

● La gestione degli end-point in azienda raramente viene considerata in base a logiche di HA (a meno di casi specifici – es. CNC)

● Il mancato funzionamento dei sistemi client comunque può determinare impossibilità di fruire del servizio

● Una non corretta gestione degli end-point può determinare:● Perdita dei dati (errata gestione)● Rischi di sicurezza (accessi indesiderati alla rete e ai dati

aziendali / virus / violazioni di credenziali / DoS)

Page 56: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Client Management...strategie

● Utilizzo di strumenti di gestione / protezione dei client (es. agenti antivirus - data leak protection)

● Mount di rete / mantenimento documenti su server (es. share NFS) / VPN / Webclient

● VDI (virtual desktop infrastructure) / Thin client ● Secure Portable Devices

=> INDIPENDENTE

DA END-POINT

Page 57: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Client Management...strategie

Page 58: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Services and Applications

Page 59: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Services and Applications

● Le applicazioni devono essere progettate per tollerare malfunzionamenti della infrastruttura ospitante (es. gestione assenza connettività)

● Utilizzare checkpoint e/o replicazione● Formazione e responsabilità degli sviluppatori● Test “estesi” per le

applicazioni (possibilmente con coinvolgimento di altre figure tecniche non di sviluppo)

Page 60: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Failovers

Page 61: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Failoverscaratteristiche

Failover: migrazione dei servizi da un dispositivo/gruppo di dispositivi ad un altro.● Trasparente● Veloce● Automatico

(minimo manuale)● Garanzia di accesso ai dati

=> cluster con almeno 2 nodi

Page 62: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Failoverstipologie di cluster

Page 63: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Failoverstipologie di cluster

Page 64: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Failoverstipologie di cluster

Page 65: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Failoversesempio di cluster

CLUSTER CON 2 NODI ??? ma....

Page 66: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Failoverssplit brain

Problema dello split brain ==> quorum disk

Page 67: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Failoversheartbeat failure

● Lo split brain avviene solitamente a seguito di failure dell'heartbeat● Interruzione del collegamento HB => cavo dedicato,

contrassegnato, protetto● SPOF sulla rete di HB => multipath● guasto di scheda di rete => multischeda (non 1

scheda con due interfacce)● Problemi/bachi software (vecchie versioni di HB)

Page 68: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Failoversfailover inatteso

● Ping-pong: rimbalzo del serviziofra i nodi, con rischio di corruzione dei dati

=> intervento umano di ripristino● Run-away: spostamento

indesideratodel servizio causa failback

FAILBACK? Da attivare o meno?

FENCING? => cluster down?

Page 69: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Replication

Page 70: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Replicationdefinizione

● Copia dati da un sistema ad altro sistema completamente indipendente dal primo

● NON è disk mirroring (nel mirroring i dischi sono visti come unica entità)

Page 71: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Replicationcategorie di replicazione

● In base alla latenza● Sincrona● Asincrona● Semi-sincrona● Periodica (batch style)

● In base alla entità che la gestisce● Hardware● Software● Filesystem● Application

Page 72: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Replicationproblemi di replicazione

● Perdita di coerenza● Replicazione bidirezionale● Problemi del canale di sincronizzazione

● Latenze● Banda

● Ritardi negli ACK● Corruzione della replica (a seguito corruzione

master)● Strumenti/Licenze (!)

Page 73: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Disaster Recovery

Page 74: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: Disaster Recoverycriteri

● Documentazione e priorità (solo cose essenziali in sito DR)

● Selezione del sito di DR (attenzione!) ● Modalità di interconnessione con sede master● Modalità di switching su DR (es. BGP)● Team dedicato e formato per recovery● Test ed esercizi per il piano di DR● Controllo continuo e costante del piano di DR

Page 75: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

E il cloud?

Livelli di disponibilità altissimi, ma● La connettività● La dipendenza dal

fornitore– Migrazioni?– Problemi?

● E la bolletta?– Costi misurabili?– Ricordarsi di pagarla...

Page 76: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

E il cloud?

Cloud● Private● Public● Hybrid

Page 77: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

AI: A pratical case

Page 78: [Ditedi]ha in azienda

Michele Della Marina - Dario Tion [email protected]

HA in azienda

HA in azienda

CREDITSTutti i loghi e le immagini qui utilizzate sono

dei legittimi proprietari; a tal proposito si ringraziano:

Evan Marcus – Hal Stern

Wiley ed.

Google :)

The Simpson family

All the O.S.developers communities

All the O.S. fans communities

All the Penguins & All the Beastie