apresentação do powerpoint - deljoe.com.brdeljoe.com.br/professor/ha/aula_02.pdfcombinados de...

Evandro [email protected]://www.linkedin.com/in/evandrodeliberal

Alta Disponibilidade

Planejamento (Regra)• Geral

– 9 Aulas (Trimestre)– 19h às 20h40 - 20h55 às 22h35 – Tolerância de 15 Minutos– ED

• Entrega: 31/05/2016 / Formato: Digital, PDF (50% da nota)• Grupo (no máximo 4 pessoas)• Tema (Pesquisa)

– Aplicações e exemplo de arquiteturas tolerantes a falhas– Projetando um sistemas de alta disponibilidade

• Estrutura: Introdução, Objetivo, Desenvolvimento e conclusão• Apresentação (50% Nota)

• U1 (24/05/2016) – Segunda parte da aula• U2 (28/06/2016) 19:45• Bons modos é fundamental• Respeito

Regras para apresentação• Organização

– Emilio = 4– Rogério = 5– Luciane = 6– Leandro = 5– Marcos = 6– Gutierrez = 4– Alexandre = 4– Diego = 4– Wagner = 5

• 9 Minutos Apresentação

• 1 Minuto de Transição

• Inicio: 19:30 - 1°Parte da Aula

• Apresentação:

– Pode ser todos ou apenas 1

– Lembrando que este representará o grupo

Revisão• Conceitos e teminologia

– Segurança– Serviços– Cluster– Redundância– Tipos de falhas– Tolerância a Falhas– Disater Recovery– Disponibilidade– Alta disponibilidade– Disponibilidade Continua

Planejamento1. Conceitos e terminologia de segurança quanto a disponibilidade 2. Avaliação de Segurança3. Mecanismos de Controle de falhas4. Aplicações e exemplo de arquiteturas tolerantes a falhas5. Projetando um sistemas de alta disponibilidade6. Clusters de alta disponibilidade7. Grids computacionais8. Virtualização9. Tolerância a falhas em rede de computadores

Avaliação de Segurança

AgendaI) Introdução

II) Normas e Metodologia

III) Calculo

• Confiabiliade

• Disponibilidade

IV) Analise experimental de

depêndencia

Introdução

• Governança em TI

• Normas

• Regras

• O que Avaliar?

• Como Avaliar?

• Quem avaliar?

• Quais Métricas?

Governança• Governança = Ato ou efeito de governar

• Governança Corporativa = Conjunto de regras, costumes, leis, normas, processos, politicas que são aplicadas na condução da empresa.

• Envolvidos = TODOS (Porteiro, Presidente, Faxineiro, Diretor, Gerente, Cliente, todos) -Stakeholders

Norma e Lei• Norma

– Critério

– Regra

Regra que fixa o tipo de um .objeto fabricado, as condições técnicas de produção

• Lei– Preceito ou regra estabelecida por direiro

– Norma ou regra

Contexto

• Governança em TI

• Normas

• Regras

• O que Avaliar?

• Como Avaliar?

• Quem avaliar?

• Quais Métricas?

Governança Corporativa• Inicio em meados de 1980

– Na Inglaterra (problemas no mercado financeiro)– Expandiu nos EUA (GM + Escandalos do mercado financeiro)

• No Brasil– Veio junto com as Multinacionais– 1995 IBCA – Instituto Brasileiro de Conselheiros de Administração

IBGC – Instituto Brasileiro de Governança CorporativaCVM – Comissão de Valores Mobiliários

“A boa governança assegura aos sócios, equidade, transparência, responsabilidade pelos resultados e obediência às leis do pais” (Lodi, p.24, 2000).

Governança Corporativa

Governança Ti• Como aplicar

1. Seguir a diretriz do documento principal2. Aplicar a metodologia conforme a área e incorpora-la no

documento principal• ISO (27000 e 20000)• ITIL• Cobit• CMMI, RUP, UML (Desenv Software)• SOA • SCRUM, PMBOK – PMI, PRINCE2

3. Auditoria (Monitoramento e Controle)

· Transparência· Melhor Controle Interno· Diminuição de perda por desvios· Diminuição de retrabalho· Processos decisórios de melhor qualidade· Melhor captação de recursos externos.

Leis e Normas• Leis

– Bacen• Banco Central (Brasil)• Lei• Especifica• 1962

– SOX• Sarbanes-Oxley• Origem: EUA – 2002

• Normas– ISO

• International Organization for Standardization, ou Organização Internacional para Padronização• Origem: Suiça, 1947

– ABNT

Avaliação de Riscos• EVENTO: Revelação, interrupção, modificação, roubo,

destruição, uso indevido, etc.

• TIPO DE AMEAÇA: Maliciosa, acidental, erro, falha, natural, requerimento externo, etc.

• RECURSO/ ATIVO: Pessoas, empresa, processos, infraestrutura, informação, aplicações, equipamentos, etc.

• VIABILIDADE DO ATAQUE: Custo menor que ganho, motivação pelo desafio (vaidade), capacidade de ser bem sucedido, sensação impunidade.

• ATOR: Internos (colaboradores, terceiros, eventuais). Externos (visitantes, concorrentes, parceiros, reguladores, governo, clientes, etc).

• CAPACIDADE DE CONTROLE: Qualidade dos controles, alinhados com negócio, padronizados, conhecidos, documentados, monitorados, melhorados.

Curva da Banheira

Confiabilidade• TEMPO MÉDIO PARA FALHAR (Mean Time to Failure – MTTF)

• TEMPO MÉDIO ENTRE FALHAS (Mean Time Between Failure – MTBF) = é obtido pela dos tempos de operação de todas as unidades, incluindo as que não falharam e dividido pela somatória de falhas das unidades. O tempo de operação é a somatória de horas que as unidades estavam em uso, ou seja, não estavam desligadas.

• Quanto maior (MTTF e MTBF), menor a probabilidade da unidade falhar para uma dada missão de tempo e maior a confiabilidade. Um decréscimo na taxa de falha resulta em um aumento da MTTF e MTBF e consequentemente, um aumento da confiabilidade

ConfiabilidadeMTBF = (Tempo Total de operação / (Numero de Falhas + 1))

Confiabilidade

• MTTF = (Dt1 + Dt2 + Dt3)/nº defeitos• MTTF = 46,5/3 = 15,5 h• Taxa de defeitos () = 1/MTTF = 0,064 def/h

Confiabilidade• MTTR – Mean time to repair (Tempo médio de

reparação) = Tempo médio da parada do processo a até a recuperaçã como um todo

• MTBI – Mean time Between Interruption (Tempo médio de Interrupção) = Tempo médio entre interrupções

• OEE - Overall Equipament Effectivences (Eficiência Geral de Equipamento)

Disponibilidade• Disponibilidade é a probabilidade que uma unidade estará pronta

para uso num instante de tempo determinado, ou sobre um período de tempo determinado, baseados em aspectos combinados de confiabilidade e mantenabilidade. Em outras palavras, a disponibilidade é uma função de sua taxa de falha (confiabilidade) e o tempo requerido para restaurar a unidade após uma falha (mantenabilidade).

( )MTTRMTBF

MTBFDisponibilidade =

+

Disponibilidade e Confiabilidade

Disponibilidade e Confiabilidade são os atributos mais conhecidos e usados, muitas vezes aparecem como sinônimos de

Dependabilidade (Dependability)

Calculo• Equipamento

– Trabalhou 8640 Horas Durante um ano– Falho 17 Vezes– Tempo médio de reparo foi de 2 Horas (MTTR)

Confiabilidade = 8640 / (17 + 1) =

(MTBF + MTTR)

MTBFDisponibilidade = =

Calculo• Equipamento

– Trabalhou 8640 Horas Durante um ano– Falho 17 Vezes– Tempo médio de reparo foi de 2 Horas (MTTR)

Confiabilidade = 8640 / (17 + 1) = 480 (MTBF)

(MTBF + MTTR)

MTBFDisponibilidade = =(480 + 2)

480 =0,9958

ou

99,58%

Exercicio• Equipamento– Trabalhou 14 Horas por dia Durante 360 dias

– Falho 2 Vezes

– Tempo médio de reparo foi de 1,5 Horas (MTTR)

Exercicio• Equipamento

– Trabalhou 14 Horas por dia Durante 360 dias– Falho 2 Vezes– Tempo médio de reparo foi de 1,5 Horas (MTTR)

Confiabilidade = 5040/ (2 + 1) =

(MTBF + MTTR)

MTBFDisponibilidade = =

Exercicio• Equipamento

– Trabalhou 14 Horas por dia Durante 360 dias– Falho 2 Vezes– Tempo médio de reparo foi de 1,5 Horas (MTTR)

Confiabilidade = 5040/ (2 + 1) = 1680 (MTBF)

(MTBF + MTTR)

MTBFDisponibilidade = =(1680 + 1,5)

1680 =0,9991

ou

99,91%

Alta disponibilidade

Duvidas?

Obrigado

Evandro Deliberal

[email protected]

Mecanismos de Controle a Falhas

Agenda

I) Redundância para detecção

e mascaramento

II) Confinamento e avaliação

de danos

III) Recuperação de erros

IV) Tratamento de falhas

Causas usuais de Defeito

Redundância para detecção e mascaramento

• Revisão

– Redundância – Superar falhas

– Detecção – Ação de revelar

– Mascaramento – imperceptível


• Mascaramento de falhas– Redundância de Hardware (replicação de componente)– Codificação: ECC (codificação de correção de erros)– Diversidade (versões)– Blocos de recuperação

• Redundância– Hardware– Software– Informação– Tempo


• Redundância– Detecção

• Encontro de uma falha durante uma operação.• Comparação• Ex.: Dois processadores trabalhando simultaneamente para o

mesmo propósito em um cluster, porém identificou-se que um deles esta trabalhando em um frequencia diferente. Logo identificou-se uma falha.

– Mascaramento• Numero maiores de componente que o Detecção• Continuidade da operação sem maiores problemas

Confinamento e avaliação de danos

• Latência de falha (Ocorrência de falha até o erro –detectado)– Pode provocar espalhamento de dados inválidos

• Confinamento– Estabelece limites para a propagação do dano

• Confinamento e avaliação dependem de decisões de projeto

• Facilitam detecção e recuperação

Confinamento e avaliação de danos

• confinamento: – Isolamento da área / Definir limites de corrupção– restrições ao fluxo de informações

• evitar fluxos acidentes • estabelecer interfaces de verificação para detecção de erros

• Avaliação dos danos: – Origem– Momento– estática: projeto inicial, hardware– dinâmica: fluxo da informação (execução e software)

Recuperação de Erros• troca do estado atual incorreto para um estado livre

de falhas

– ocorre após detecção

– pode ser um estado anterior, livre de falhas, do sistema

– pode ser um novo estado

– em último caso, pode ser o estado inicial

Recuperação de Erros• Dois grupos

– Retorno – Rollback

• Estado anterior

– Avanço

• Novo estado

Recuperação de Erros• Avanço (forward error recovery)

– Condução a novo estado consistente

• ainda não ocorrido desde a última manifestação de erro

– Eficiente, mas específica a cada sistema

• Danos devem ser previstos acuradamente

Mais usadas em sistemas de tempo real, onde o retorno para um estado anterior (no tempo) seja inviável

Recuperação de Erros• Retorno (backward error recovery)

– Condução a estado anterior consistente

• Alto custo mas de aplicação genérica

– Exemplo de técnica de recuperação por retorno

• Pontos de verificação (checkpoints) – Mais simples

– Salvamento de todo o estado do sistema periodicamente

Recuperação de Erros• Simples em um único processo

• Complexa em processamento distribuído – Usualmente retroativa (de retorno)

– pode provocar efeito dominó • Retorno ao início do processamento

• Problema com mensagens órfãs e perdidas

– Solução • Restrições a comunicação entre processos

Tratamento de falhas• Localizar a origem do erro (falha)

– Localizar a falha de forma precisa

– Reparar a falha

– Recuperar o restante do sistema

• Hipótese de falha – Uma única falha de cada vez

Importante: falhas permanente é diferente de temporárias

Tratamento de falhas• Localização

– Objetiva (deve ser rápida – módulo, subsistema, etc)

– Detalhada (reparos de menor custo)

• Diagnósticos

– Manual

– Automático (componentes livre de falhas são responsáveis pela execução do teste)

Duvidas?

Revisão

• Causas Usuais de Defeito

• Redundancia

• Mascaramento

• Detecção

• Confinamento e Avaliação

• Recuperação de erros

• Tratamento de Falhas

Duvidas?

Referência Bibliografica• Johnson, Barry. An introduction to the design na analysis of the

faulttolerante systems, cap 1. Fault-Tolerant System Design. Prentice Hall, New Jersey, 1996

• Avizenis. The four-universe information system model for the study of faulttolerance, FTCS 1982

• Laprie, Jean-Claude. Dependable Computing: Concepts, Limits, Challenges. FTCS, 1995

• Jean-Claude Laprie - Dependability of Computer Systems: from Concepts to Limits. DCIA 98, http://www.cs.wits.ac.za/research/workshop/ifip98.html

• Birman, K. Building secure and reliable network applications. Manning Publications Co, Geenwich, 1996

Obrigado

Evandro Deliberal

[email protected]

apresentação do powerpoint - deljoe.com.brdeljoe.com.br/professor/ha/aula_02.pdfcombinados de...

Documents