20101011 roadshow-2010-server-ausfallsicher-betreiben

Download 20101011 roadshow-2010-server-ausfallsicher-betreiben

Post on 05-Dec-2014

636 views

Category:

Documents

1 download

Embed Size (px)

DESCRIPTION

 

TRANSCRIPT

  • ServerausfallsicherbetreibenWerner Fischer, Technology Specialist Thomas-Krenn.AG

    Thomas Krenn Roadshow 2010

    11.10. Berlin12.10. Hamburg14.10. Kln19.10. Frankfurt20.10. Stuttgart21.10. Zrich05.11. Wien

  • Folie 2/28

    Agenda

    1) Serverzweck bestimmen

    2) Serverauswahl

    3) Inbetriebnahme

    4) Betrieb

    5) Reaktion auf Fehler

    6) Erweiterung und Umbau

    7) Auerbetriebnahme und Entsorgung

  • Folie 3/28

    Agenda

    1) Serverzweck bestimmen Anforderungen aus der Betriebsumgebung Anforderungen aus dem Einsatzzweck

    2) Serverauswahl

    3) Inbetriebnahme

    4) Betrieb

    5) ...

  • Folie 4/28

    1) Serverzweck bestimmen

    Anforderung aus der Betriebsumgebung

    rechtliche Anforderungen bentigte Servicelevel zur Einhaltung von SLAs Sensoren fr die sptere berwachung (z.B. IPMI) USV / Klimatisierung Serverrack

  • Folie 5/28

    1) Serverzweck bestimmen

    Anforderung aus dem Einsatzzweck

    bentigte Leistung speziell zertifizierte Hardware Schnittstellen zur Einbindung in bestehende Netze

    (LAN, SAN, ...)

  • Folie 6/28

    Agenda

    2) Serverauswahl Entscheidungskriterien Komponentenauswahl

    3) Inbetriebnahme

    4) Betrieb

    5) Reaktion auf Fehler

    6) Erweiterung und Umbau

    7) Auerbetriebnahme und Entsorgung

  • Folie 7/28

    2) Serverauswahl

    Entscheidungskriterien

    standardisierte Server-Landschaft Hersteller-Support

    Komponentenauswahl

    Netzteile und Stromversorgung CPU Arbeitsspeicher Speicherarchitektur (DAS, SAN, NAS)

    RAID-Controller, Festplatten, RAID-Level SAN Schnittstellen (iSCSI, FC)

  • Folie 8/28

    Agenda

    2) ...

    3) Inbetriebnahme Prfung Vollstndigkeit der Komponenten Testen der Komponenten auf Fehler

    4) Betrieb

    5) Reaktion auf Fehler

    6) Erweiterung und Umbau

    7) Auerbetriebnahme und Entsorgung

  • Folie 9/28

    3) Inbetriebnahme

    Prfung Vollstndigkeit der Komponenten

    Sichtprfung Technische Prfungen (BIOS-Anzeigen, etc.)

    Testen der Komponenten auf Fehler

    CPU-Stresstest Arbeitsspeicher-Test Festplatten-Test

  • Folie 10/28

    3) Inbetriebnahme

    Einrichtung und Konfiguration

    Firmware Updates BIOS Einstellungen RAID Konfiguration OS-unabhngige Remote-berwachung (IPMI/Nagios) Installation Betriebssystem, ggf. mit weiteren Tests

  • Folie 11/28

    Agenda

    3) ...

    4) Betrieb Auswahl der berwachungsmechanismen Einrichtung der berwachung der einzelnen

    Komponenten Backup-Strategie Detailbeispiel IPMI-berwachung Detailbeispiel RAID-berwachung

    5) Reaktion auf Fehler

    6) ...

  • Folie 12/28

    4) Betrieb

    Auswahl der berwachungsmechanismen

    Integrierte Fehlermeldemechanismen E-Mail Benachrichtigungen Logs akustische Signale

    Softwaretools Herstellertools weitere (Open Source) Softwaretools

    Nagios/Icinga Zenoss Schinken ...

  • Folie 13/28

    4) Betrieb

    Einrichtung der berwachung der einzelnen Komponenten

    Hardware berwachen IPMI deckt weite Bereiche ab RAID berwachen

    auch BBU bercksichtigen Akku regelmig erneuern

    Software berwachen zahlreiche vorgefertigte berwachungstools (Plugins fr

    Nagios/Icinga)

    (Logs berwachen)

  • Folie 14/28

    4) Betrieb

    Backup-Strategie

    Einbindung in vorhandene Backup-Infrastruktur Neuauslegung der Backup-Infrastruktur Testen von

    Backup Restore (regelmige Wiederherstellungs-Tests)

  • Folie 15/28

    4) Betrieb

    Detailbeispiel IPMI-berwachung (1/5): Aufbau

    Chassis board

    Motherboard

    Processorboard

    Memoryboard

    BaseboardManagement

    Controller(BMC)

    System bus

    NVS StorageSDRSELFRU

    Chassismgmt.

    (SatelliteController)

    Sensors & ControlsFan sensor

    Temp. sensorPower controlReset control

    FRU

    Temp. s.

    FRU

    private mgmt. busses

    IPMB

    M/BSerial

    Controller

    SerialPort

    Sharing

    BMCSerial

    Controller

    Serial/Modeminterface

    LANinterface

    SerialConnector

    LANConnector

    PCI mgmt. bus

    Network(LAN)

    Controller

    Remote Mmgt. Card(KVM over IP, ...)

    AuxillaryIPMB Connector

    ICMB

    ICMBbridge

    System interface

    Redundant Powerboard

    FRU Temp.sensor

    FRU

  • Folie 16/28

    4) Betrieb

    Detailbeispiel IPMI-berwachung (2/5): sensor classesDiscrete Thresholdmultiple states possible: up to 15 states each state is reflected by a bit multiple state bits can active at a time

    changes event status on analog reading comparison to threshold values

    can provide: generic states (Table 42-2) or sensor-specific states (Table 42-3)

    provides: analog reading of the sensor and discr. threshold comparison status bit (generic state, Table 42-2)

    other classes similar to discrete: Digital: term often used for discrete sensors with two possible states

    OEM: discrete sensor where the meaning of the states (offsets) are OEM defined

  • Folie 17/28

    4) Betrieb

    Detailbeispiel IPMI-berwachung (3/5): sensor classesDiscrete Threshold

    [root@test~]#ipmitoolsdrget"PS2Status"SensorID:PS2Status(0x71)EntityID:10.2(PowerSupply)SensorType(Discrete):PowerSupplyStatesAsserted:PowerSupply[Presencedetected][PowerSupplyAClost]AssertionEvents:PowerSupply[Presencedetected][PowerSupplyAClost]AssertionsEnabled:PowerSupply[Presencedetected][Failuredetected][Predictivefailure][PowerSupplyAClost][...]DeassertionsEnabled:PowerSupply[...]

    [root@test~]#ipmitoolsdrget"PS2Status"SensorID:PS2Status(0x71)EntityID:10.2(PowerSupply)SensorType(Discrete):PowerSupplyStatesAsserted:PowerSupply[Presencedetected][PowerSupplyAClost]AssertionEvents:PowerSupply[Presencedetected][PowerSupplyAClost]AssertionsEnabled:PowerSupply[Presencedetected][Failuredetected][Predictivefailure][PowerSupplyAClost][...]DeassertionsEnabled:PowerSupply[...]

    [root@test~]#ipmitoolsdrget"Fan1"SensorID:Fan1(0x50)EntityID:29.1(FanDevice)SensorType(Analog):FanSensorReading:5719(+/0)RPMStatus:okNominalReading:6708.000NormalMinimum:2451.000NormalMaximum:10965.000Lowercritical:1720.000Lowernoncritical:1978.000PositiveHysteresis:86.000NegativeHysteresis:86.000Minimumsensorrange:UnspecifiedMaximumsensorrange:UnspecifiedEventMessageControl:PerthresholdReadableThresholds:lcrlncSettableThresholds:lcrlncThresholdReadMask:lcrlncAssertionEvents:AssertionsEnabled:lnclcrDeassertionsEnabled:lnclcr

    [root@test~]#ipmitoolsdrget"Fan1"SensorID:Fan1(0x50)EntityID:29.1(FanDevice)SensorType(Analog):FanSensorReading:5719(+/0)RPMStatus:okNominalReading:6708.000NormalMinimum:2451.000NormalMaximum:10965.000Lowercritical:1720.000Lowernoncritical:1978.000PositiveHysteresis:86.000NegativeHysteresis:86.000Minimumsensorrange:UnspecifiedMaximumsensorrange:UnspecifiedEventMessageControl:PerthresholdReadableThresholds:lcrlncSettableThresholds:lcrlncThresholdReadMask:lcrlncAssertionEvents:AssertionsEnabled:lnclcrDeassertionsEnabled:lnclcr

  • Folie 18/28

    4) Betrieb

    Detailbeispiel IPMI-berwachung (4/5): freeipmitestserver:~$cat/etc/ipmi_monitoring_sensors.conf#[...]#Thepossiblevaluesforallstates/thresholdsbeloware:#NominalSignalNominalreadingifstate/thresholdtripped#WarningSignalWarningreadingifstate/tresholdtripped#CriticalSignalCriticalreadingifstate/thresholdtripped##Ifyouconfiguredifferentvalues,remembertouncommenttheline:)#################################################################################################[...]#IPMI_Power_Supply##IPMI_Power_Supply_Presence_DetectedNominal#IPMI_Power_Supply_Power_Supply_Failure_DetectedCritical#IPMI_Power_Supply_Predictive_FailureCritical#IPMI_Power_Supply_Power_Supply_Input_Lost_AC_DCCritical#[...]################################################################################################[...]#IPMI_Memory##IPMI_Memory_Correctable_ECC_Memory_ErrorWarning#IPMI_Memory_Uncorrectable_ECC_Memory_ErrorCritical#[...]###############################################################################################

    testserver:~$cat/etc/ipmi_monitoring_sensors.conf#[...]#Thepossiblevaluesforallstates/thresholdsbeloware:#NominalSignalNominalreadingifstate/thresholdtripped#WarningSignalWarningreadingifstate/tresholdtripped#CriticalSignalCriticalreadingifstate/thresholdtripped##Ifyouconfiguredifferentvalues,remembertouncommenttheline:)#################################################################################################[...]#IPMI_Power_Supply##IPMI_Power_Supply_Presence_DetectedNominal#IPMI_Power_Supply_Power_Supply_Failure_DetectedCritical#IPMI_Power_Supply_Predictive_FailureCritical#IPMI_Power_Supply_Power_Supply_Input_Lost_AC_DCCritical#[...]################################################################################################[...]#IPMI_Memory##IPMI_Memory_Correctable_ECC_Memory_ErrorWarning#IPMI_Memory_Uncorrectable_ECC_Memory_ErrorCritical#[...]###############################################################################################

  • Folie 19/28

    4) Betrieb

    Detailbeispiel IPMI-berwachung (5/5)

    neue Version des IPMI Pluginsfr Nagios/Icinga geplant

    nutzt freeipmi statt ipmitool Discrete Sensors knnen

    damit richtig berwachtwerden

    Alles ber IPMI aufwww.linuxtechnicalreview.de

  • Folie 20/28

    4) Betrieb

    Detailbeispiel RAID-berwachung

    RAID Volume Status Consistency Checks

    regelmig per BackgroundConsistency Check

    Temperaturen Akku bei BBUs SMART Status der

    einzelnen Festplattenund SSDs

    Whitepaper von Adaptec:http://download.adaptec.com/pdfs/miscella

Recommended

View more >