apresentação do powerpoint - deljoe.com.brdeljoe.com.br/professor/ha/aula_02.pdfcombinados de...
TRANSCRIPT
Evandro [email protected]://www.linkedin.com/in/evandrodeliberal
Alta Disponibilidade
Planejamento (Regra)• Geral
– 9 Aulas (Trimestre)– 19h às 20h40 - 20h55 às 22h35 – Tolerância de 15 Minutos– ED
• Entrega: 31/05/2016 / Formato: Digital, PDF (50% da nota)• Grupo (no máximo 4 pessoas)• Tema (Pesquisa)
– Aplicações e exemplo de arquiteturas tolerantes a falhas– Projetando um sistemas de alta disponibilidade
• Estrutura: Introdução, Objetivo, Desenvolvimento e conclusão• Apresentação (50% Nota)
• U1 (24/05/2016) – Segunda parte da aula• U2 (28/06/2016) 19:45• Bons modos é fundamental• Respeito
Regras para apresentação• Organização
– Emilio = 4– Rogério = 5– Luciane = 6– Leandro = 5– Marcos = 6– Gutierrez = 4– Alexandre = 4– Diego = 4– Wagner = 5
• 9 Minutos Apresentação
• 1 Minuto de Transição
• Inicio: 19:30 - 1°Parte da Aula
• Apresentação:
– Pode ser todos ou apenas 1
– Lembrando que este representará o grupo
Revisão• Conceitos e teminologia
– Segurança– Serviços– Cluster– Redundância– Tipos de falhas– Tolerância a Falhas– Disater Recovery– Disponibilidade– Alta disponibilidade– Disponibilidade Continua
Planejamento1. Conceitos e terminologia de segurança quanto a disponibilidade 2. Avaliação de Segurança3. Mecanismos de Controle de falhas4. Aplicações e exemplo de arquiteturas tolerantes a falhas5. Projetando um sistemas de alta disponibilidade6. Clusters de alta disponibilidade7. Grids computacionais8. Virtualização9. Tolerância a falhas em rede de computadores
Avaliação de Segurança
AgendaI) Introdução
II) Normas e Metodologia
III) Calculo
• Confiabiliade
• Disponibilidade
IV) Analise experimental de
depêndencia
Introdução
• Governança em TI
• Normas
• Regras
• O que Avaliar?
• Como Avaliar?
• Quem avaliar?
• Quais Métricas?
Governança• Governança = Ato ou efeito de governar
• Governança Corporativa = Conjunto de regras, costumes, leis, normas, processos, politicas que são aplicadas na condução da empresa.
• Envolvidos = TODOS (Porteiro, Presidente, Faxineiro, Diretor, Gerente, Cliente, todos) -Stakeholders
Norma e Lei• Norma
– Critério
– Regra
Regra que fixa o tipo de um .objeto fabricado, as condições técnicas de produção
• Lei– Preceito ou regra estabelecida por direiro
– Norma ou regra
Contexto
• Governança em TI
• Normas
• Regras
• O que Avaliar?
• Como Avaliar?
• Quem avaliar?
• Quais Métricas?
Governança Corporativa• Inicio em meados de 1980
– Na Inglaterra (problemas no mercado financeiro)– Expandiu nos EUA (GM + Escandalos do mercado financeiro)
• No Brasil– Veio junto com as Multinacionais– 1995 IBCA – Instituto Brasileiro de Conselheiros de Administração
IBGC – Instituto Brasileiro de Governança CorporativaCVM – Comissão de Valores Mobiliários
“A boa governança assegura aos sócios, equidade, transparência, responsabilidade pelos resultados e obediência às leis do pais” (Lodi, p.24, 2000).
Governança Corporativa
Governança Ti• Como aplicar
1. Seguir a diretriz do documento principal2. Aplicar a metodologia conforme a área e incorpora-la no
documento principal• ISO (27000 e 20000)• ITIL• Cobit• CMMI, RUP, UML (Desenv Software)• SOA • SCRUM, PMBOK – PMI, PRINCE2
3. Auditoria (Monitoramento e Controle)
· Transparência· Melhor Controle Interno· Diminuição de perda por desvios· Diminuição de retrabalho· Processos decisórios de melhor qualidade· Melhor captação de recursos externos.
Leis e Normas• Leis
– Bacen• Banco Central (Brasil)• Lei• Especifica• 1962
– SOX• Sarbanes-Oxley• Origem: EUA – 2002
• Normas– ISO
• International Organization for Standardization, ou Organização Internacional para Padronização• Origem: Suiça, 1947
– ABNT
Avaliação de Riscos• EVENTO: Revelação, interrupção, modificação, roubo,
destruição, uso indevido, etc.
• TIPO DE AMEAÇA: Maliciosa, acidental, erro, falha, natural, requerimento externo, etc.
• RECURSO/ ATIVO: Pessoas, empresa, processos, infraestrutura, informação, aplicações, equipamentos, etc.
• VIABILIDADE DO ATAQUE: Custo menor que ganho, motivação pelo desafio (vaidade), capacidade de ser bem sucedido, sensação impunidade.
• ATOR: Internos (colaboradores, terceiros, eventuais). Externos (visitantes, concorrentes, parceiros, reguladores, governo, clientes, etc).
• CAPACIDADE DE CONTROLE: Qualidade dos controles, alinhados com negócio, padronizados, conhecidos, documentados, monitorados, melhorados.
Curva da Banheira
Confiabilidade• TEMPO MÉDIO PARA FALHAR (Mean Time to Failure – MTTF)
• TEMPO MÉDIO ENTRE FALHAS (Mean Time Between Failure – MTBF) = é obtido pela dos tempos de operação de todas as unidades, incluindo as que não falharam e dividido pela somatória de falhas das unidades. O tempo de operação é a somatória de horas que as unidades estavam em uso, ou seja, não estavam desligadas.
• Quanto maior (MTTF e MTBF), menor a probabilidade da unidade falhar para uma dada missão de tempo e maior a confiabilidade. Um decréscimo na taxa de falha resulta em um aumento da MTTF e MTBF e consequentemente, um aumento da confiabilidade
ConfiabilidadeMTBF = (Tempo Total de operação / (Numero de Falhas + 1))
Confiabilidade
• MTTF = (Dt1 + Dt2 + Dt3)/nº defeitos• MTTF = 46,5/3 = 15,5 h• Taxa de defeitos () = 1/MTTF = 0,064 def/h
Confiabilidade• MTTR – Mean time to repair (Tempo médio de
reparação) = Tempo médio da parada do processo a até a recuperaçã como um todo
• MTBI – Mean time Between Interruption (Tempo médio de Interrupção) = Tempo médio entre interrupções
• OEE - Overall Equipament Effectivences (Eficiência Geral de Equipamento)
Disponibilidade• Disponibilidade é a probabilidade que uma unidade estará pronta
para uso num instante de tempo determinado, ou sobre um período de tempo determinado, baseados em aspectos combinados de confiabilidade e mantenabilidade. Em outras palavras, a disponibilidade é uma função de sua taxa de falha (confiabilidade) e o tempo requerido para restaurar a unidade após uma falha (mantenabilidade).
( )MTTRMTBF
MTBFDisponibilidade =
+
Disponibilidade e Confiabilidade
Disponibilidade e Confiabilidade são os atributos mais conhecidos e usados, muitas vezes aparecem como sinônimos de
Dependabilidade (Dependability)
Calculo• Equipamento
– Trabalhou 8640 Horas Durante um ano– Falho 17 Vezes– Tempo médio de reparo foi de 2 Horas (MTTR)
Confiabilidade = 8640 / (17 + 1) =
(MTBF + MTTR)
MTBFDisponibilidade = =
Calculo• Equipamento
– Trabalhou 8640 Horas Durante um ano– Falho 17 Vezes– Tempo médio de reparo foi de 2 Horas (MTTR)
Confiabilidade = 8640 / (17 + 1) = 480 (MTBF)
(MTBF + MTTR)
MTBFDisponibilidade = =(480 + 2)
480 =0,9958
ou
99,58%
Exercicio• Equipamento– Trabalhou 14 Horas por dia Durante 360 dias
– Falho 2 Vezes
– Tempo médio de reparo foi de 1,5 Horas (MTTR)
Exercicio• Equipamento
– Trabalhou 14 Horas por dia Durante 360 dias– Falho 2 Vezes– Tempo médio de reparo foi de 1,5 Horas (MTTR)
Confiabilidade = 5040/ (2 + 1) =
(MTBF + MTTR)
MTBFDisponibilidade = =
Exercicio• Equipamento
– Trabalhou 14 Horas por dia Durante 360 dias– Falho 2 Vezes– Tempo médio de reparo foi de 1,5 Horas (MTTR)
Confiabilidade = 5040/ (2 + 1) = 1680 (MTBF)
(MTBF + MTTR)
MTBFDisponibilidade = =(1680 + 1,5)
1680 =0,9991
ou
99,91%
Alta disponibilidade
Duvidas?
Mecanismos de Controle a Falhas
Agenda
I) Redundância para detecção
e mascaramento
II) Confinamento e avaliação
de danos
III) Recuperação de erros
IV) Tratamento de falhas
Causas usuais de Defeito
Redundância para detecção e mascaramento
• Revisão
– Redundância – Superar falhas
– Detecção – Ação de revelar
– Mascaramento – imperceptível
Redundância para detecção e mascaramento
• Mascaramento de falhas– Redundância de Hardware (replicação de componente)– Codificação: ECC (codificação de correção de erros)– Diversidade (versões)– Blocos de recuperação
• Redundância– Hardware– Software– Informação– Tempo
Redundância para detecção e mascaramento
• Redundância– Detecção
• Encontro de uma falha durante uma operação.• Comparação• Ex.: Dois processadores trabalhando simultaneamente para o
mesmo propósito em um cluster, porém identificou-se que um deles esta trabalhando em um frequencia diferente. Logo identificou-se uma falha.
– Mascaramento• Numero maiores de componente que o Detecção• Continuidade da operação sem maiores problemas
Redundância para detecção e mascaramento
Confinamento e avaliação de danos
• Latência de falha (Ocorrência de falha até o erro –detectado)– Pode provocar espalhamento de dados inválidos
• Confinamento– Estabelece limites para a propagação do dano
• Confinamento e avaliação dependem de decisões de projeto
• Facilitam detecção e recuperação
Confinamento e avaliação de danos
• confinamento: – Isolamento da área / Definir limites de corrupção– restrições ao fluxo de informações
• evitar fluxos acidentes • estabelecer interfaces de verificação para detecção de erros
• Avaliação dos danos: – Origem– Momento– estática: projeto inicial, hardware– dinâmica: fluxo da informação (execução e software)
Recuperação de Erros• troca do estado atual incorreto para um estado livre
de falhas
– ocorre após detecção
– pode ser um estado anterior, livre de falhas, do sistema
– pode ser um novo estado
– em último caso, pode ser o estado inicial
Recuperação de Erros• Dois grupos
– Retorno – Rollback
• Estado anterior
– Avanço
• Novo estado
Recuperação de Erros• Avanço (forward error recovery)
– Condução a novo estado consistente
• ainda não ocorrido desde a última manifestação de erro
– Eficiente, mas específica a cada sistema
• Danos devem ser previstos acuradamente
Mais usadas em sistemas de tempo real, onde o retorno para um estado anterior (no tempo) seja inviável
Recuperação de Erros• Retorno (backward error recovery)
– Condução a estado anterior consistente
• Alto custo mas de aplicação genérica
– Exemplo de técnica de recuperação por retorno
• Pontos de verificação (checkpoints) – Mais simples
– Salvamento de todo o estado do sistema periodicamente
Recuperação de Erros• Simples em um único processo
• Complexa em processamento distribuído – Usualmente retroativa (de retorno)
– pode provocar efeito dominó • Retorno ao início do processamento
• Problema com mensagens órfãs e perdidas
– Solução • Restrições a comunicação entre processos
Tratamento de falhas• Localizar a origem do erro (falha)
– Localizar a falha de forma precisa
– Reparar a falha
– Recuperar o restante do sistema
• Hipótese de falha – Uma única falha de cada vez
Importante: falhas permanente é diferente de temporárias
Tratamento de falhas• Localização
– Objetiva (deve ser rápida – módulo, subsistema, etc)
– Detalhada (reparos de menor custo)
• Diagnósticos
– Manual
– Automático (componentes livre de falhas são responsáveis pela execução do teste)
Duvidas?
Revisão
• Causas Usuais de Defeito
• Redundancia
• Mascaramento
• Detecção
• Confinamento e Avaliação
• Recuperação de erros
• Tratamento de Falhas
Duvidas?
Referência Bibliografica• Johnson, Barry. An introduction to the design na analysis of the
faulttolerante systems, cap 1. Fault-Tolerant System Design. Prentice Hall, New Jersey, 1996
• Avizenis. The four-universe information system model for the study of faulttolerance, FTCS 1982
• Laprie, Jean-Claude. Dependable Computing: Concepts, Limits, Challenges. FTCS, 1995
• Jean-Claude Laprie - Dependability of Computer Systems: from Concepts to Limits. DCIA 98, http://www.cs.wits.ac.za/research/workshop/ifip98.html
• Birman, K. Building secure and reliable network applications. Manning Publications Co, Geenwich, 1996