ursula winkler günther berthold usermeeting 17. jänner 2008
TRANSCRIPT
![Page 1: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/1.jpg)
Ursula Winkler
Günther BertholdUsermeeting 17. Jänner 2008
![Page 2: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/2.jpg)
Agenda
Uni-Infrastruktur IV Betriebskonzept
User Support Sauron Systeme Accounting SGE Konfiguration
User Präsentationen Binäre Datenkompression (Truhetz)
Allfälliges
![Page 3: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/3.jpg)
UniInfrastruktur IV
Der neu anzuschaffende Rechner soll den Bedarf an Hochleistungsrechenkapazitäten an der Naturwissen-schaftlichen Fakultät der Universität Graz decken. Insbesondere steht er für die Arbeitsgruppen zur Verfügung die den Cluster im Rahmen des Programmes Forschungs-infrastruktur IV beantragt haben. Daneben soll es auch möglich sein, etwaigen an der Universität Graz neu gegründeten Gruppen Rechenzeit zur Verfügung zu stellen.
Der neue Rechner wird den zur Zeit laufenden Computer-cluster als Hochleistungsrechner für die Forschung schrittweise abhängig von den infrastrukturellen Gegebenheiten ablösen (Strom, Kühlung, Stellfläche).
Die erst im Sommersemester 2007 in Betrieb genommene Partition “Erwin” sowie die Partition “Kepler” sollen mindestens bis Ende 2010 laufen.
![Page 4: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/4.jpg)
Betriebskonzept (ITIL)
![Page 5: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/5.jpg)
Betriebskonzept (Uni Graz) I
Im Betriebskonzept werden die Details der Inbetriebnahme, des Betriebes und der Evaluation für den Hochleistungs- Rechencluster festgelegt, der im Rahmen des Programms Forschungsinfrastruktur IV angeschafft werden soll (7. Nov. 2007).
Die Verantwortung für den Betrieb des Rechners liegt beim ZID. Zur Koordinierung wird ein Beirat eingerichtet, in dem die Teilprojekte aus dem Infrastrukturantrag repräsentativ vertreten sind.
Es ist geplant in regelmäßigen Abständen (z.B. zwei Mal im Semester) Benutzertreffen abzuhalten.
Die Erteilung von Rechenaccounts für die User der Arbeits-gruppen die am Rechenbetrieb teilnehmen geschieht auf Antrag der Teilprojektleiter. Die Verwaltung der liegt beim ZID.
![Page 6: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/6.jpg)
Betriebskonzept (Uni Graz) II
Der neue Rechencluster soll in zwei Partitionen eingeteilt werden, die die unterschiedliche Ausstattung mit Hardware (lokaler Speicher, Netzwerk) abbilden.
Es ist geplant den Auslastungsgrad des neuen Rechenclusters automatisiert mitzuprotokollieren und geeignet zu dokumentieren.
Die unter Verwendung von Rechenzeit des neuen Clusters erzielten Ergebnisse sollen nach außen hin geeignet dokumentiert werden. Es ist geplant Jahresberichte zu erstellen die kurz den Status der einzelnen Projekte darstellen und die Publikationen des letzten Jahres auflisten.
![Page 7: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/7.jpg)
Agenda
Uni-Infrastruktur IV Betriebskonzept
User Support Sauron Systeme Accounting SGE Konfiguration
User Präsentationen Binäre Datenkompression (Truhetz) Multiple zombieartige Prozesse (Schwinzerl)
Allfälliges
![Page 8: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/8.jpg)
User Support - Systeme
Clustersysteme Type CPU Memory /tmp Jahr
Narya, Vilya HP ES45 4x Alpha 1250 MHz 32,16 350 12/2004
Sauron (8 Nodes)
HP ES 45 4x Alpha 1250 MHz4x8 4x16
140 12/2002
Celeborn (43 Nodes)
Intel Xeon 2x Intel Xeon 3 40 7/2003
Boltzmann (80 Nodes)
Sun Fire V20z 2x AMD Opteron 248 2,2GHz 4 100 7/2005
Kepler (17 Nodes)
Sun Fire V20z 2x AMD Opteron 248 2,2GHz 4 100 7/2005
Pregl (48 Nodes)
Sun Fire V20z 2x AMD Opteron 248 2,2GHz 4 100 7/2005
Erwin (16 Nodes)
Sun X2200 M 2 2x AMD Opteron DC 2.6 GHz 8 190 2/2007
![Page 9: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/9.jpg)
Installationen
Sauron Auflösung des HP-Clusters Einzelsysteme Installation Tru64 V5.1B Entfernung SAN Devices Cluster-tmp: Neues Storage
IP-Namen: sauron1 – sauron8
Zugang: via ssh (uni-intern)
Änderungen: - /tmp: 136 GB (bisher 140)- /clu_tmp: 300 GB (bisher 200)
![Page 10: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/10.jpg)
Accounting
Zugangsvoraussetzungen: - gültiger UGO-Account- HPC Projektteilnehmer (Institutsangestellte, Dissertanten,
Diplomanden
Probleme:
uni-fremde Projektteilnehmer
Account-Mehrfachnutzung
Geplant: Password-Setzung über UGO
![Page 11: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/11.jpg)
Rechenzeiten
SGE Scheduling:- Hosts/CPU-Zuteilung- Zeit (Rechendauer)
Momentane Konfiguration: - 2 Queues (MPI, Default) mit jeweils allen Hosts + CPUs - keine Zeitlimits - keine Limits der Jobanzahl - keine Prioritäten Schwierigkeit: - MPI Jobs sind, wenn Wartezeiten auftreten, im Queuing umso mehr benachteiligt, je mehr Ressourcen (# CPUs) sie benötigen
![Page 12: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/12.jpg)
Rechenzeiten
- Testruns mit vielen CPUs können damit unmöglich werden
Mögliche Abhilfe:
- MPI-Queue mit höherer Priorität ausstatten
- Prioritätensetzung in Abhängigkeit von der Laufzeit
- generelle Laufzeitlimits für Jobs (z.B. 2 d)
- Queue f. Single-Prozessor Jobs (Default-Queue) auf eine
bestimmte Anzahl von Knoten beschränken, z.B. b01 – b40
- Beschränkung der Jobanzahl/User
- „Advance Reservation“ v. MPI-Jobs i. d. Warteschlange
![Page 13: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/13.jpg)
Im Meeting folgende Übereinkunft getroffen (17.1.2008):
Kepler Pregl Erwin Boltzmann
Priority-Queue Nein Nein Nein Ja (mpi)
# Nodes
pro QueueAlle Alle Alle
default: 31 mpi…: 48
Einführung Testqueue
Nein Nein Nein Ja
Laufzeitlimits (pro Queue)
Nein Nein Nein
default: 7 Tage
mpi: 3 Tage
Fastmpi: 30 Min
![Page 14: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/14.jpg)
Agenda
Uni-Infrastruktur IV Betriebskonzept
User Support Sauron Systeme Accounting Rechenzeiten
User Präsentationen Binäre Datenkompression (Truhetz)Allfälliges
![Page 15: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/15.jpg)
Userpräsentationen
Binäre Datenkompression (Truhetz)
< Userbeitrag >
![Page 16: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/16.jpg)
Allfälliges
Erwin: SGE Upgrade auf 6.1
Ausgeschiedene Altsysteme: - SGI Origin 200 (Peregrin): Memory-Defekt- HP rx4640 Itanium Systeme (Beren, Dior, Elros, Elwe,
Grimli): Mietvertrag ausgelaufen
![Page 17: Ursula Winkler Günther Berthold Usermeeting 17. Jänner 2008](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d8249795902118d6937/html5/thumbnails/17.jpg)
Agenda
Uni-Infrastruktur IV Betriebskonzept
User Support Sauron Systeme Accounting SGE-Konfiguration
User Präsentationen Binäre Datenkompression (Truhetz)
Allfälliges