phd thesis: the algorithms for protection of operating systems with special emphasis on the neutron...
DESCRIPTION
Presentation shown at my public PhD defense.TRANSCRIPT
The Algorithms for Protection of Operating Systemswith Special Emphasis on the Neutron Radiation
Algorytmy ochrony systemów operacyjnych ze
szczególnym uwzględnieniem wpływu promieniowania
neutronowego
Bartłomiej Świercz
promotor: prof. dr hab. inż. Andrzej Napieralski
Katedra Mikroelektroniki i Technik InformatycznychPolitechnika Łódzka
Łódź, 27.10.2008
Plan prezentacji
Projekt CARE i współpraca z ośrodkiem DESY
Wpływ promieniowania neutronowego na systemy komputerowe
Cel, założenia i tezy pracy doktorskiej
Wykonane badania i opracowane oprogramowanie
Algorytm ochrony systemów operacyjnych przed błędamipojedynczymi
Podsumowanie wykonanych prac i wnioski
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 2 / 34
Projekt CARE
X–FEL
FLASH
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 3 / 34
Akcelerator X-FEL i FLASH
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 4 / 34
Tunel akceleratora X-FEL i FLASH
Promieniowanie neutronowe
Promieniowanie gamma
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 5 / 34
Wpływ promieniowania neutronowego na tranzystor MOS
Neutron jest obojętnyelektrycznie
Reakcja jądrowa (n, α)
Cząstka α (He++) o dużejenergii LET
Oddziaływanie poprzez jonizację
Błędy pojedyncze = Single Event Upsets (SEU)
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 6 / 34
Błędy SEU w pamięci SRAM
VDD
BL
WL
VDD
WL
BL
M1M2
M3 M4
M5M6
"off
SEU strike Rejestry procesora
Pamięć podręczna (cache)
Bufory
Vnode [V]
Time [s]
Initial
value
Error occurs
SEU strike0
SEU
V1 V2
V1 V2
Regeneration
Feedback
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 7 / 34
Błędy SEU w pamięci DRAM
Column
Row
Sensitive node
T
C
Pamięć główna komputera
Bufory dużej wielkości
Vnode [V]
Time [s]
Initial
value
Noise margin
Error occurs
SEU strike0
N+
P substrate
C
SEU
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 8 / 34
Propagacja błędów SEU w układach
cout
cin
x
y s
SEU
Propagacja błędów = Single Event Transient
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 9 / 34
Ochrona przed błędami pojedynczymi
Ochrona sprzętowa
Elementy i układy półprzewodnikowe projektowane w technologiirad-hard (dedykowany proces technologiczny)
Redundancja sprzętowa
Izolacja systemów elektronicznych od źródła promieniowania zapomocą przegród betonowych lub ołowianych
Ochrona programowa
Projektowanie oprogramowania z uwzględnieniem błędówsprzętowych:algorytmy SIHFT (Software Implemented Hardware Fault Tolerance)kody detekcji i korekcji błędów EDAC (Error Detection and Correction)wykrywanie błędów poprzez zmianę obliczeń algorytmicznych(Algorithm Based Fault Tolerance)
Dedykowane kompilatory i biblioteki automatyzujące proces
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 10 / 34
Izolacja źródła promieniowania
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 11 / 34
Cel i założenia przeprowadzonych badań
Opracowanie programowych metod ochrony systemówkomputerowych przed błędami pojedynczymi
Zastosowanie systemów komputerowych zbudowanych zestandardowych i powszechnie dostępnych elementów (COTS)
Przeźroczyste dla aplikacji algorytmy ochrony
Algorytmy ochrony przed błędami realizowane na poziome systemuoperacyjnego
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 12 / 34
Tezy pracy (1/2)
Teza I w języku angielskim:
The implementation of the memory error detection algorithms at theoperating systems kernel level allows to protect commonly used computersystems against Single Event Upsets generated by the neutron radiation
Teza I w języku polskim:
Implementacja algorytmów wykrywających błędy w pamięci na poziomiejądra systemu operacyjnego pozwala na ochronę powszechnie stosowanychsystemów komputerowych przed błędami pojedynczymi powstającymi naskutek oddziaływania promieniowania neutronowego
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 13 / 34
Tezy pracy (2/2)
Teza II w języku angielskim:
The exploitation of interrupts generated by the computer system’s memorymanagement unit allows for a transparent protection of applicationsagainst Single Event Upsets
Teza II w języku polskim:
Wykorzystanie przerwań generowanych przez jednostkę zarządzaniapamięcią w systemach komputerowych pozwala na przeźroczystą ochronęaplikacji przed błędami pojedynczymi
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 14 / 34
System operacyjny sCore
Architektura wzorowana namikrojądrze
Zastosowanie języka C++ imechanizmów generycznych
Wielozadaniowość zwywłaszczaniem
Planista typu Round–Robin
Dwie wersje: pamięć płaska ipamięć wirtualna
Wsparcie dla architektury IA–32
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 15 / 34
Algorytm EDAC Task
Asynchroniczny wąteksystemowy
Ochrona danych tylko doodczytu
Zaimplementowany w jądrzesystemu sCore
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 16 / 34
Eksperyment z izotopem 241AmBe
AmBe
Moderator
sCore
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 17 / 34
Wyniki eksperymentu
Eksperyment trwał 18godzin
9 wykrytych iskorygowanych błędówSEU
1 błąd nie wykryty
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 18 / 34
Eksperyment w tunelu Linac II
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 19 / 34
Komputer w tunelu Linac II
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 20 / 34
Wyniki eksperymentu
Eksperyment trwał 23godziny
4 wykrytych iskorygowanych błędówSEU
42 błędy nie wykryte
116585 nie obsłużonychprzerwań
5 restartów systemu (3wykonane przezwatchdog)
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 21 / 34
Algorytmy skanujące aktywnie pamięć — podsumowanie
Zalety
Prosta zasada działania
Łatwa implementacja w systemie
Wady
Niska skuteczność
Ochrona danych tylko do odczytu
Asynchroniczny tryb pracy
Mała skalowalność
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 22 / 34
Algorytm IDI
Schemat blokowy algorytmu IDI (Interrupt Driven Immunity)wykorzystującego jednostkę zarządzania pamięcią MMU (Memory
Management Unit)
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 23 / 34
Komputer przemysłowy typu PC–104
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 24 / 34
Komputer przemysłowy w tunelu Linac II
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 25 / 34
Wyniki eksperymentu
Eksperyment trwał 14dni i 8 godzin
12186 wykrytych iskorygowanych błędówSEU
0 błędów nie wykrytych
0 nie obsłużonychprzerwań
0 restartów systemu
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 26 / 34
Wydajność algorytmu IDI
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 27 / 34
Algorytm IDI — podsumowanie
Zalety
Przejrzysta zasada działania
Ochrona danych do odczytu i do zapisu
Synchroniczny tryb działania względem odwołań do pamięci
Wysoka skuteczność
Duża wydajność
Elastyczność i skalowalność
Wady
Skomplikowana implementacja w jądrze systemu operacyjnego
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 28 / 34
Wnioski wynikające z przeprowadzonych badań
Możliwa jest skuteczna ochrona przed błędami pojedynczymi powszechniedostępnych systemów komputerowych za pomocą programowychalgorytmów ochrony pamięci — dowód tezy I
Niestandardowa konfiguracja i wykorzystanie jednostki zarządzaniapamięcią (MMU) pozwoliło na przeźroczystą ochronę aplikacji przedbłędami pojedynczymi — dowód tezy II
Unikalne właściwości opracowanego algorytmu IDI pozwalają na jegozastosowanie w urządzeniach narażonych na występowanie błędówpojedynczych w pamięci (eksperymenty fizyczne, urządzenia lotnicze imedyczne)
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 29 / 34
Możliwe zastosowania opracowanego algorytmu
Satelity i stacje kosmiczne
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 30 / 34
Możliwe zastosowania opracowanego algorytmu
Samoloty pasażerskie
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 31 / 34
Możliwe zastosowania opracowanego algorytmu
W 2000 roku magazyn Forbes pisze:
It’s ridiculous. I’ve got a $300,000
server that doesn’t work. The thing
should be bullet-proof.
A firma Cisco twierdzi, że:
All future designs that require
highest availability must counter
unavoidable SEUs.
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 32 / 34
Podsumowanie przeprowadzonych prac
Opracowanie jądra systemu operacyjnego sCore
Napisanie autorskiego symulatora IARadSim
Implementacja w jądrze sCore algorytmu EDAC Task
Opracowanie i implementacja w jądrze sCore autorskiego algorytmuInterrupt Driven Immunity (IDI)
Przeprowadzenie szeregu symulacji i badań z wykorzystaniemIARadSim, izotopu 241AmBe oraz wewnątrz tunelu akceleratoraLinac II, wykonanie stanowiska badawczego
Autor lub współautor 18 artykułów z prezentowanej tematykiBest Paper Award — Mixdes 2006Distinguished Paper Award — OWD 2007
Przyznany został grant promotorski nr N515 011 31/0369
Bartłomiej Świercz (DMCS, PŁ) Publiczna obrona doktoratu Łódź, 27.10.2008 33 / 34
Dziękuję za uwagę