budapesti műszaki s gazdasgtudomnyi egyetem mrstechnika s informcis rendszerek tanszk hibatűrő...
DESCRIPTION
Ismétlés: FacadeTRANSCRIPT
![Page 1: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/1.jpg)
Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék
Hibatűrő rendszerek tervezési mintái
Segédfóliák az Autonóm és hibatűrő inf. rsz. tárgyhozKocsis Imre ([email protected])
2010.09.20.
![Page 2: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/2.jpg)
Ismétlés: singleton
![Page 3: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/3.jpg)
Ismétlés: Facade
![Page 4: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/4.jpg)
Ismétlés: Observer
![Page 5: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/5.jpg)
Architekturális mintanyelvUnits of Mitigation(Kezelési egységek)
Correcting Audits(Javító auditok)
Redundancy(Redundancia)
Recovery Block(Javító blokk)
Escalation(Eszkalálás)
Someone in Charge(Felelős)
Minimize Human Intervention(Emberi beavatkozás minimalizálása)
Maximize Human Participation(Emberi részvétel maximalizálása)
Fault Observer(Hibamegfigyelő)
Software Update(Szoftverfrissítés)
Maintenance Interface(Karbantartási felület)
![Page 6: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/6.jpg)
Units of Mitigation How can you keep the whole system from being
unavailable when an error occurs?
„Design the system into parts that will contain both any errors and the error recovery. Choose the divisions that make sense for your system. Design the rest of the system around these parts that represent the basic units of error mitigation.”
![Page 7: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/7.jpg)
Correcting Audits Faulty data causes errors.
„Detect and correct data errors as soon as possible. Check related data for errors, correct and record the occurence of the error.”
![Page 8: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/8.jpg)
Redundancy How can we reduce the amount of time between
error detection and the resumption of normal operation after error recovery?
„Provide redundant capabilities that support quick activation to enable error processing to continue in parallel with normal execution.”
![Page 9: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/9.jpg)
Minimize Human Intervention How can we prevent people from doing the wrong
things and causing errors?
„Design the system in a way that it is able to process and resolve errors automatically, before they become failures. This speeds error recovery and reduces the risk of procedural errors.”
![Page 10: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/10.jpg)
Maximize Human Participation Should the system ignore people totally? That will
reduce procedural errors.
„Know the user and their availability. Design the system to enable knowledgeable operating personnel to participate. […] Provide appropriate Maintenance Interfaces and Fault Observer capabilities […]”
![Page 11: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/11.jpg)
Maintenance Interface Should maintenance and application requests be
intermingled on the application input and output channels?
„Provide a separate interface to the system for the (almost) exclusive use of maintenance interactions.”
![Page 12: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/12.jpg)
Someone in Charge Anything can go wrong, even during error
processing. When this happens the system might stop doing the error processing in addition to not doing the normal processing.
„All fault tolerance related activities have some component of the system that is clearly in charge and has the ability to determine correct completion and the responsibility to take action if it does not complete correctly.”
![Page 13: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/13.jpg)
Escalation What does the system do when its attempt to
process an error in a component is not acheiving the correct effect?
„When recovery or mitigation is failing, escalate the action to the next more drastic action.”
![Page 14: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/14.jpg)
Detektálási mintákFault Correlation(Hibakorreláció)
Error Containtment Barrier(Hibabehatárolási korlát)
Complete Parameter Checking(Teljes paraméterellenőrzés)
Routine Audits(Rutinszerű auditok)
Voting(Szavazás)
System Monitor(Rendszermonitor)
Checksum(Ellenőrző összeg)
Riding Over Transients(Tranziensek kivárása)
Routine Maintenance(Rutinszerű karbantartás)
Routine Exercises(Rutinszerű gyakorlatok)Leaky Bucket Counter
Existing metrics(Létező metrikák)
Acknowledgement(Nyugtázás)
Heartbeat
Watchdog
Realistic treshold(Valószerű határértékek)
![Page 15: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/15.jpg)
Fault Correlation What fault is activating?
„Look at the unique signature of the error to sort it into the fault category for which error processing steps are known.”
![Page 16: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/16.jpg)
Error Containment Barrier What is the first thing that the system must do
when it detects an error?
„Isolate the error to a unit of mitigation. Stop the error flow with a barrier, quarantine and initiate either error recovery or error mitigation.”
![Page 17: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/17.jpg)
System Monitor How does one part of a system keep track that
another part is alive and functioning?
„Create a Monitor to study system behavior, or the behavior of specific parts of the system to make sure that they continue operating correctly. When the watched components stop, the monitor should report the occurence to the Fault Observer and initiate corrective actions.”
![Page 18: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/18.jpg)
Detektálási mintákFault Correlation(Hibakorreláció)
Error Containtment Barrier(Hibabehatárolási korlát)
Complete Parameter Checking(Teljes paraméterellenőrzés)
Routine Audits(Rutinszerű auditok)
Voting(Szavazás)
System Monitor(Rendszermonitor)
Checksum(Ellenőrző összeg)
Riding Over Transients(Tranziensek kivárása)
Routine Maintenance(Rutinszerű karbantartás)
Routine Exercises(Rutinszerű gyakorlatok)Leaky Bucket Counter
Existing metrics(Létező metrikák)
Acknowledgement(Nyugtázás)
Heartbeat
Watchdog
Realistic treshold(Valószerű határértékek)
![Page 19: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/19.jpg)
Existing Metrics How to measure the severity of an overload
without contributing to the overload?
„Use pre-existing indicators already tied to the resource as an indicator of the system’s overload condition.”
Megjegyzés: nem csak a teljesítményre igaz!
![Page 20: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/20.jpg)
Detektálási mintákFault Correlation(Hibakorreláció)
Error Containtment Barrier(Hibabehatárolási korlát)
Complete Parameter Checking(Teljes paraméterellenőrzés)
Routine Audits(Rutinszerű auditok)
Voting(Szavazás)
System Monitor(Rendszermonitor)
Checksum(Ellenőrző összeg)
Riding Over Transients(Tranziensek kivárása)
Routine Maintenance(Rutinszerű karbantartás)
Routine Exercises(Rutinszerű gyakorlatok)Leaky Bucket Counter
Existing metrics(Létező metrikák)
Acknowledgement(Nyugtázás)
Heartbeat
Watchdog
Realistic treshold(Valószerű határértékek)
![Page 21: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/21.jpg)
Routine Maintenance How can we keep preventable errors from
occuring?
„Perform routine, preventive maintenance on the system.”
![Page 22: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/22.jpg)
Detektálási mintákFault Correlation(Hibakorreláció)
Error Containtment Barrier(Hibabehatárolási korlát)
Complete Parameter Checking(Teljes paraméterellenőrzés)
Routine Audits(Rutinszerű auditok)
Voting(Szavazás)
System Monitor(Rendszermonitor)
Checksum(Ellenőrző összeg)
Riding Over Transients(Tranziensek kivárása)
Routine Maintenance(Rutinszerű karbantartás)
Routine Exercises(Rutinszerű gyakorlatok)Leaky Bucket Counter
Existing metrics(Létező metrikák)
Acknowledgement(Nyugtázás)
Heartbeat
Watchdog
Realistic treshold(Valószerű határértékek)
![Page 23: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/23.jpg)
Routine Exercises How do you know that Redundant elements that
will be called into service by a Failover in case of an error or failure will actually work?
„Routinely exercise, or execute the system components that will be required in an error situation. This will identify latent faults.”
![Page 24: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/24.jpg)
Detektálási mintákFault Correlation(Hibakorreláció)
Error Containtment Barrier(Hibabehatárolási korlát)
Complete Parameter Checking(Teljes paraméterellenőrzés)
Routine Audits(Rutinszerű auditok)
Voting(Szavazás)
System Monitor(Rendszermonitor)
Checksum(Ellenőrző összeg)
Riding Over Transients(Tranziensek kivárása)
Routine Maintenance(Rutinszerű karbantartás)
Routine Exercises(Rutinszerű gyakorlatok)Leaky Bucket Counter
Existing metrics(Létező metrikák)
Acknowledgement(Nyugtázás)
Heartbeat
Watchdog
Realistic treshold(Valószerű határértékek)
![Page 25: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/25.jpg)
Helyreállítási minták
Quarantine(karantén/hibabehatárolási tartomány)
Failover(átkapcsolás)
Concentrated Recovery(koncentrált helyreállítás)
Restart Return to Reference Point
Rollback
Roll-forward
Checkpoint
Data Reset
Error Handler(hibakezelő)
Limit Retries(újrapróbálkozások limitálása)
What to Save?(Mit mentsünk)
Remote Storage(távoli tár)
Individuals Decide Timing(Időzítés egyéni döntés alapján)
![Page 26: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/26.jpg)
Quarantine How can the system prevent errors from
spreading?
„Establish a barrier around the element that prevents it from both contributing to the useful work and also prevents it from propagating its error into other parts of the system.”
![Page 27: Budapesti Műszaki s Gazdasgtudomnyi Egyetem Mrstechnika s Informcis Rendszerek Tanszk Hibatűrő rendszerek tervezsi minti Segdflik az Autonm](https://reader035.vdocuments.site/reader035/viewer/2022062504/5a4d1b7d7f8b9ab0599b9db7/html5/thumbnails/27.jpg)
Helyreállítási minták
Quarantine(karantén/hibabehatárolási tartomány)
Failover(átkapcsolás)
Concentrated Recovery(koncentrált helyreállítás)
Restart Return to Reference Point
Rollback
Roll-forward
Checkpoint
Data Reset
Error Handler(hibakezelő)
Limit Retries(újrapróbálkozások limitálása)
What to Save?(Mit mentsünk)
Remote Storage(távoli tár)
Individuals Decide Timing(Időzítés egyéni döntés alapján)