doc. dr. vadimas starikovičius vs@vgtuvs/skaidres/bi.pdf · • modulio kodas - fmchb11404 •...

Bioduomenų gavimas (kompleksinis projektas)

Doc. dr. Vadimas Starikovičius

[email protected]

http://www.techmat.vgtu.lt/~vs

VGTU Lygiagrečiųjų skaičiavimų laboratorija

VGTU Matematinio modeliavimo katedra

mailto:[email protected]








http://lsl.vgtu.lt/

http://www.mmk.fm.vgtu.lt/

• Modulio kodas - FMCHB11404

• Modulio apimtis - 5,0 kr. (5 ECTS kr.)

• Paskaitos – 24 val. per semestrą

• Laboratoriniai darbai – 24 val. per semestrą

• Antroji kurso dalis: 4 paskaitos ir laboratoriniai darbai (+ savarankiškų studijų savaitė):

2015.04.02, 2015.04.09, 2015.04.16, 2015.04.23 (sav.), 2015.04.30 (atsiskaitymas.).

• Vertinimas = 0,7 x (1-os dalies pažymys) +

+ 0,3 x (2-os dalies pažymys)

https://medeine.vgtu.lt/programos/modulis.jsp?modulis=FMCHB11404&sid=F

Bioinformatika • Bioinformatika tai informacinių technologijų taikymas

biologinės informacijos saugojimui, apdorojimui, analizei ir

modeliavimui.

• Biologinė informacija tai DNR ir RNR nukleotidų sekos

(cDNR, genai, sekvenuoti genomai, molekuliniai žymenys),

genolapiai, koduojamų baltymų charakteristikos, mokslinių

tyrimų rezultatai.

• Informacinės technologijos tai kompiuterinė įranga

(kompiuteriai, duomenų saugyklos, kompiuteriniai tinklai) ir

kompiuterinės programos (duomenų bazės, programiniai

paketai).

• Biologinės informacijos duomenų masyvai yra labai dideli.

Jų saugojimas, apdorojimas, analizė ir modeliavimas

reikalauja atitinkamų kompiuterinių resursų ir efektyvios

programinės įrangos.

Antrosios kurso dalies tikslai

• Susipažinti su pagrindinėmis didelio našumo skaičiavimų koncepcijomis.

angl. High Performance Computing (HPC)

• Gauti bendrą supratimą apie skirtingas lygiagrečiųjų kompiuterių architektūras ir jų stipriąsias/silpnąsias puses.

• Susipažinti su lygiagrečiųjų algoritmų sudarymo koncepcijomis ir jų taikymų bioinformatikoje.

http://en.wikipedia.org/wiki/Supercomputer

Literatūra • Albert Y. Zomaya. Parallel Computing for

Bioinformatics and Computational Biology. 2006.

• Raimondas Čiegis. Lygiagretieji algoritmai ir tinklinės technologijos. Technika. 2005 m. (arba 2001 m.)

• Ananth Grama, Anshul Gupta, George Karypis, Vipin Kumar. Introduction to Parallel Computing. 2nd Edition, Addison-Wesley/Pearson Education Limited, 2003.

• Ian Foster. Designing and Building parallel programs. Addison-Wesley Publishing Company, 1995.

• Internetas (Wikipedia).

http://en.wikipedia.org/wiki/Main_Page

Kas yra lygiagretieji skaičiavimai (parallel computing)?

Nuoseklieji skaičiavimai (serial computing):

• Vykdomi viename kompiuteryje su vienu procesoriumi/vykdomuoju

įrenginiu.

• Problemą sprendžiantis programinis kodas yra sukompiliuojamas į

diskrečią instrukcijų seką.

• Instrukcijos yra vykdomos viena po kitos (nuosekliai).

• Bet kuriuo laiko momentu gali būti vykdoma tik viena instrukcija.

Lygiagretieji skaičiavimai (parallel computing):

• Vykdomi naudojant keletą procesorių (branduolių, skaičiavimo

įrenginių) vienu metu.

• Sprendžiama problema programuotojo arba kompiliatoriaus yra

išskaidoma į atskiras dalis, kuriuos gali būti sprendžiamos lygiagrečiai.

• Kiekviena atskira dalis kompiliavimo metu yra užkoduojama kaip

instrukcijų seka.

• Skirtingų dalių instrukcijos yra vykdomos skirtinguose CPU tuo pačiu

metu, taikant įvairius koordinacijos, sinchronizacijos mechanizmus.

t.y. keletas procesorių (branduolių, įrenginių) kartu tuo pačiu metu

sprendžia vieną problemą.

Kam reikalingi lygiagretieji skaičiavimai?

• Įgauti didesnius kompiuterinius pajėgumus tam, kad

greičiau išspręsti vis didesnius uždavinius.

• Lygiagrečios kompiuterinės technologijos yra natūralus

kelias didinti kompiuterių skaičiavimų greitį ir atminties

resursus.

• Paskutiniųjų dešimtmečių patirtis rodo, kad šis

kompiuterinių technologijų vystymosi kelias yra

ekonomiškai naudingiausias.

• Todėl šiuo metu ne tik patys galingiausi pasaulyje bet ir

personaliniai kompiuteriai yra lygiagretieji kompiuteriai

(daugiabranduoliniai, angl. multi-core procesoriai).

http://en.wikipedia.org/wiki/Multi-core_processor



Tradiciniai uždaviniai - "Grand Challenge Problems"

• Branduolinės reakcijos (branduoliniai ginklai,

branduolinės energijos gavyba).

• Orų prognozė ir klimato pokyčiai, ekologija.

• Žmogaus genomas, genų inžinerija.

• Geologija, seismologija (žemės drebėjimai).

• Raketų, lėktuvų, automobilių projektavimas.

• Kosmologija.

• ...

Istoriškai kompiuteriai atsirado ir buvo vystomi norint

išspręsti didžiųjų iššūkių uždavinius.

Tradicinis modeliavimo būdas moksle ir inžinerijoje:

1. Sukurti teoriją/modelį

2. Patikrinti ją/jį stebėjimuose arba eksperimentuose

Problemos:

• per ilgai (laukti klimato pakeitimų)

• per pavojinga (branduoliniai bandymai)

• per brangu (daryti eksperimentinius lėktuvus/automobilius)

• per sudėtinga (dideli vėjo tuneliai)

Sprendimas – kompiuterinė simuliacija (virtualus eksperimentas)

Tradiciniai uždaviniai - "Grand Challenge Problems"

"Grand Challenge Problems“: orai / klimatas

• Matematinis modelis, aprašantis oro temperatūrą, slėgį ir judėjimo greičius,- netiesinių diferencialinių lygčių sistema sprendžiama baigtinių tūrių metodu.

• Atmosfera yra dengiama diskrečiuoju tinklu - 1 km x 1 km x 1 km (1 km3) tūriais. Jei modeliuojamas 16 km aukštis, tai turime apytiksliai 8 x109 tūrių (V = 4/3 x π x r3; žemės spindulys - 6370 km).

• Tarkime, kad reikia atlikti vidutiniškai 200 aritmetinių operacijų kiekvienam tūriui. Tada kiekvienam laiko žingsniui apskaičiuoti reikia atlikti 200 x 8 x 109 = 1,6 x 1012 operacijų.

• Simuliuojant 10 dienų orus su 10 minučių laiko žingsnių, reikia atlikti 10 x 24 x 6 x 1,6 x 1012 = 2,3 x 1015 operacijų.

• Kompiuteriu, atliekančiu 1 Gflops (Gflops = 109 Floating Point Operations per Second) operacijų per sekundę, atsakymą gausime tik per 2,3 x 1015 Ops / 109 Ops/s = 2,3 x 106 sekundžių arba per 26 dienas.

"Grand Challenge Problems“: orai / klimatas

Kosmologija: Astronominių kūnų judėjimas erdvėje

Žvaigždžių skaičius galaktikoje – 1011. Operacijų skaičius – 1022.

Saugumo testai (crash simulation)

Didžiosios automobilių gamintojų kompanijos sutaupo

milijardus dolerių per metus.

Skaitmeninis vėjo tunelis

(Numerical wind tunnel)

• Lygiagrečios duomenų bazės (data mining).

• Web search engines, web based business

services.

• Naftos ir dujų išžvalgymas, gavyba.

• Kompiuterinė diagnostika medicinoje

(tomografija).

• Vaistų dizainas.

• Finansinis ir ekonominis modeliavimas.

• Kompiuterinė grafika (rendering, virtual reality).

Kam reikalingi lygiagretieji skaičiavimai?

Komerciniai taikymai:

Vaizdų generavimas (rendering)

The Incredibles (Pixar Studios)

http://en.wikipedia.org/wiki/Rendering_(computer_graphics)

http://www.pixar.com/

Lygiagretiems skaičiavimams reikalingi

lygiagretieji kompiuteriai

Pagrindiniai didelių tarnybinių stočių gamintojai (IBM, CRAY, SGI,...)

parduoda lygiagrečias sistemas jau keletą dešimtmečių.

Tačiau tai superkompiuteriai ne tik pagal galią, bet ir pagal kainą.

Parallel computing = High End computing (not mainstream)?

Greičiausių pasaulyje superkompiuterių sąrašas

pagal Linpack testą: www.top500.org

http://www.top500.org/

TOP 500 (www.top500.org)

http://www.top500.org/

RoadRunner

http://en.wikipedia.org/wiki/IBM_Roadrunner

VGTU lygiagrečiųjų skaičiavimo resursai

vilkas.vgtu.lt (http, ssh)

Lygiagretieji skaičiavimai tik “turtingiems”?

Jau nebe:

• Asmeninių kompiuterių bumas atpigino kompiuterines technologijas ir padarė lygiagrečias technologijas žymiai prieinamesnėmis.

• Rinkoje atsirado 2-4 SMP procesorių tarnybinės darbo stotys.

• Po 1994 m. masiškai paplito kompiuterių klasteriai, ypač sudaryti iš personalinių kompiuterių (žr. Beowulf cluster).

• Nuo 2003 m. mes neturime procesorių greičių (pagal taktinį dažnį) augimo.

• Nors iki tol apie 30 metų kas 18 mėnesių jis maždaug dvigubėjo (G. Muro (G. Moore) dėsnis).

• Priežastis – šilumos išskyrimas (dar ne šviesos greičio riba!)

http://en.wikipedia.org/wiki/Symmetric_multiprocessing

http://en.wikipedia.org/wiki/Computer_cluster

http://en.wikipedia.org/wiki/Beowulf_cluster

http://en.wikipedia.org/wiki/Beowulf_cluster

http://en.wikipedia.org/wiki/Moore's_law



• Procesorių gamintoju (Intel, AMD, IBM, SUN) sprendimas: daugia-branduoliniai procesoriai (multi-core), t.y. “lygiagrečiai” yra ne tik greičiau bet ir pigiau!

• Nuoseklios programos (pvz. žaidimai, multimedia) “savaime” nebegreitės! (The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software)

• Atitinkamai auga poreikis programinėje įrangoje (ypač komerciniams taikymams), kuri galėtų efektyviai išnaudoti procesorių, branduolių lygiagretumą.

http://en.wikipedia.org/wiki/Multicore



http://gotw.ca/publications/concurrency-ddj.htm



Ar bet kokios problemos sprendimą

galima išlygiagretinti?

• Žmogaus vaiko problema (Human Baby Problem).

• Fibonačio skaičių seka – sveikųjų skaičių seka {Fn}, nusakoma taip:

F0 = 0, F1 = 1, Fn+1 = Fn + Fn-1.

• Sugalvokite savo pavyzdžius.

Vienas klausimas: Bet...

Kompiuterių architektūra

• Nuosekliųjų kompiuterių architektūra

• Instrukcijų lygio lygiagretumas (konvejeriai,

vektoriniai procesoriai, ... )

• Lygiagrečiųjų kompiuterių architektūra

(klasifikacija)

Nuosekliųjų kompiuterių architektūra

• Pirmieji kompiuteriai turėjo fiksuotą programą (ENIAC).

http://en.wikipedia.org/wiki/ENIAC

Nuosekliųjų kompiuterių architektūra

• Kompiuteryje yra atskiriami vykdantis įrenginys ir atminties blokas, kuriame yra saugomi ir programa (instrukcijų rinkinys) ir jai reikalingi duomenys.

• Programos instrukcijos yra užkoduoti duomenys, kurie pasako vykdančiam įrenginiui, ką reikia atlikti.

• Šie duomenys yra saugomi kompiuterio atmintyje lygiai taip pat kaip ir duomenys, kurie turi būti apdoroti.

• Vykdantis įrenginys – procesorius (central processing unit (CPU)) gauna (fetch) instrukcijas ir/arba duomenys iš atminties, dekoduoja instrukcijas ir nuosekliai jas vykdo.

Von Neumann’o architektūra – “stored-program computer”:

http://en.wikipedia.org/wiki/Von_Neumann_computer





Von Neumann’o kompiuteris

(žvilgsnis iš arčiau)

• Taigi kompiuterį sudaro procesorius, atmintis ir juos jungianti magistralė (bus, datapath).

• Kiekviena iš šitų komponenčių (priklausomai nuo uždavinio) gali tapti kompiuterio silpnąja vieta (performance bottleneck). Klasikinis pavyzdys - von Neumann bottleneck.

• Kadangi turime vis daugiau tranzistorių procesoriuose (Muro dėsnis), tai kaip geriausiai juos panaudoti?

• Šiuolaikiniai procesoriai naudoja šiuos resursus keliuose funkcinėse įrenginiuose siekiant atlikti kuo daugiau instrukcijų per vieną taktą!

• Vienas iš būdų “instrukcijų lygio lygiagretumas”, kuriuo “pasirūpina” procesorius ir kompiliatorius, kuris pagamina programą (atitinkamą instrukcijų seką).

• Konkretūs būdai yra labai įvairūs: pipelining, superscalar architektūra, VLIW, multithreading ir prefetching, ... . Naudojami jau ir asmeninių kompiuterių procesoriuose...

http://en.wikipedia.org/w/index.php?title=Von_Neumann_bottleneck&redirect=no



http://en.wikipedia.org/wiki/Moore_Law

http://en.wikipedia.org/wiki/Compiler

http://en.wikipedia.org/wiki/Pipelining

http://en.wikipedia.org/wiki/Superscalar

http://en.wikipedia.org/wiki/Very_long_instruction_word

http://en.wikipedia.org/wiki/Simultaneous_multithreading

http://en.wikipedia.org/wiki/Instruction_prefetch

Konvejeris (pipelining). Bendras principas.

Konvejeris – darbo

organizavimo principas

(pvz. automobilių gamyklos)

• Užduotis yra padalinama į m použdavinių (subtasks) T1, ..., Tm.

• Kiekvienas iš jų gali būti vykdomas nepriklausomai.

• Tarkime (paprastumui), kad kiekvienas použdavinys įvykdomas per tą

patį laiką – τ.

• N uždavinių atlikimo laikas nuosekliuoju būdu –

TS(N) = N m τ.

• N uždavinių atlikimo laikas konvejerio būdu –

TP(N) = (m + N - 1)τ.

• Konvejerio spartinimo koeficientas -

.

1/)1(

1

1)1()(

)()( m

Nmm

Nm

Nm

Nm

mN

NT

NTNS N

P

s

• T.y. kuo ilgesnis konvejeris, tuo didesnį pagreitėjimą mes gauname, jei

galime laikyti jį užpildytų uždavinių srautu.

Instrukcijų konvejeris • Konvejerio principas taikomas procesoriuose vykdant instrukcijas.

• Konvejeris nesumažina vienos atskiros instrukcijos atlikimo laiką, o padidina jų pralaidumą (angl. throughput), tuo pačiu padidindamas procesoriaus našumą.

• Pvz., IBM “Reduced Instruction Set Computer” (RISC) konvejeris naudoja rinkinį iš paprastesnių instrukcijų (m=5): – Instruction fetch

– Instruction decode

– Instruction execute

– Memory access

– Register write back

• Pavyzdžiui, Pentium 4 turi 35 instrukcijų konvejerį.

• Tam, kad konvejeris butų efektyvus jis turi būti užpildytas.

• Problema: kokį instrukcijų srautą vykdyti, kai programoje yra išsiša-kojimas (angl. branch) dėl tam tikros sąlygos tikrinimo (if ... else ...)? Stabdyti konvejerį ir laukti, kol bus iki galo įvykdyta sąlygos patikri-nimo instrukcija? Tokiu būdu prarandame procesoriaus ciklus–laiką!

• Sprendimas – „branch predicting“ įrenginys procesoriuje, kuris bando atspėti teisingą instrukcijų srauto šaką ir spekuliatyviai pradeda jos vykdymą konvejeryje. Jei jis atspėja neteisingai, konvejerio turinys turi būti išvalytas (angl. pipeline’s flush)...

• Kompiliatorių optimizavimas (instruction reordering, loop unrolling, etc.) irgi stengiasi padidinti procesoriaus konvejerių apkrovimą.

http://en.wikipedia.org/wiki/Instruction_pipeline

http://en.wikipedia.org/wiki/Branch_predictor

http://en.wikipedia.org/wiki/File:Fivestagespipeline.png

Aritmetinis konvejeris. Vektoriniai procesoriai.

• Konvejerio principas puikiai tinka aritmetiniams veiksmams, ypač veiksmams su vektoriais (kadangi veiksmus su atskiromis koordinatėmis galima atlikti nepriklausomai).

Pvz. ci = ai + bi, i=1,2,…,N.

• Atitinkami “vektoriniai procesoriai” realizuoja ne tik instrukcijų bet ir duomenų konvejerį. Specialios instrukcijos nusako procesoriui atlikti reikalingą veiksmą iškarto su tam tikrais atminties segmentai - vektoriais (vietoj N instrukcijų su atskirai gaunamais skaičiais).

• Sutaupomas laikas: adresų dekodavimas ir tik viena instrukcija! Nepamirškime: instrukcijos irgi saugomos atmintyje!

• Problemos: sudėtingas CPU dizainas ir sudėtingos instrukcijos (jų dekoderiai) sulėtina atskirų paprastų instrukcijų atlikimą (a+b). Efektyvumui reikia didelių N !

• Vektoriniai procesoriai dominavo superkompiuteriuose nuo 70-ų iki 90-ų metų. Dauguma šiuolaikinių procesorių turi vek-torinių operacijų įrenginius: VIS, MMX, SSE, AltiVec ir AVX.

http://en.wikipedia.org/wiki/Vector_processor

http://en.wikipedia.org/wiki/Visual_Instruction_Set

http://en.wikipedia.org/wiki/MMX_(instruction_set)

http://en.wikipedia.org/wiki/Streaming_SIMD_Extensions

http://en.wikipedia.org/wiki/AltiVec

http://en.wikipedia.org/wiki/Advanced_Vector_Extensions

Duomenų persiuntimo į/iš CPU problema

• Labai dažnai ne CPU, o atmintis ir jos jungtys su procesoriumi

yra kompiuterio silpnoji vieta (von Neumann bottleneck).

• Istoriškai šita problema tik aštrėja, nes CPU greičiai auga

žymiai greičiau negu atminties skaitymo/rašymo greičiai.

Kompiuterio atminties darbo charakteristikos

• Pagrindinės atminties sistemos darbo charakteristikos yra uždelsimas (latency) ir pralaidumas (bandwidth).

• Uždelsimas (latency) – tai laikas nuo atminties užklausos iki laiko momento, kai pirmas duomuo pasieks procesorių.

• Pralaidumas (bandwidth) – tai greitis (pvz. baitai per sekundę), kuriuo duomenys iš atminties pasiekia procesorių.

• Gaminti greitą ir didelę pagal dydį atmintį yra sudėtinga ir brangu.

• Pralaidumą padidinti yra lengviau negu uždelsimą, didinant duomenų judėjimo kanalų skaičių.

• Šios problemos sprendimui šiuolaikiniuose kompiuteriuose naudojamos hierarchinės atminties “cache” sistemos.

• “Cache” – (buferinė / spartinančioji atmintinė) yra greitesnė atmintis, kurioje išsaugomos persiunčiamų duomenų iš pagrindinės atminties (RAM) kopijos, greitam jų pasiekimui pakartotinio panaudojimo atveju.

• Šiuolaikiniai procesoriai turi keletą hierarchinių „cache“ lygių pagal jų greitį ir dydį: L1, L2, L3.

http://en.wikipedia.org/wiki/CPU_cache

Hierarchinė atminties sistema (CPU caches)

• Hierarchinės “cache” sistemos efektyvumas priklauso nuo duomenų erdvinio ir

laikinio lokališkumo (anlg. spatial and temporal locality). Programinis kodas turi siekti

kuo ilgiau naudoti tuos pačius duomenis, kitaip tariant kuo dažniau pataikyti į “cache”

(angl. “high cache hit ratio”).

• Nepataikymas į “cache”, t.y. kai reikalingų duomenų jame nėra (angl. “cache

misses”) netgi sulėtina programos vykdymą! (nes kompiuteris turi pakeisti visą

puslapį – “cache line/block”).

• Instrukcijų “prefetching” ir multithreading naudojami bandant sumažinti

procesoriaus “laukimo” laiką.

atminties lygių greičiai ir dydžiai

http://en.wikipedia.org/wiki/CPU_cache

http://en.wikipedia.org/wiki/Instruction_prefetch



Lygiagrečiųjų kompiuterių klasifikacija

• Pagal kompiuterio architektūroje naudojamus

“instrukcijų ir duomenų srautų kiekius ir jų

sąveika” - Flyno (M. Flynn) klasifikacija.

• Pagal “kompiuterio atminties pasiekiamumą”

(angl. memory access) – kompiuteriai su

bendrąja atmintimi (angl. shared memory) ir

kompiuteriai su paskirstytąja atmintimi (angl.

distributed memory).

MISD

SISD

MIMD

SIMD

Single Multiple

Sin

gle

M

ult

iple

Data Streams

Inst

ruct

ion

Str

eam

s Flyno (M. Flynn) klasifikacija (1966)

http://en.wikipedia.org/wiki/Flynn's_taxonomy

Single Instruction, Single Data (SISD):

• Nuoseklus (nelygiagretus) architektūros tipas, naudojantis klasikinį von Neumann’o modelį.

• Single Instruction: procesoriuje yra apdorojimas vienas instrukcijų srautas (nuosekliai: viena po kitos).

• Single data: apdorojimų duomenų srautas yra irgi vienas.

• Pavyzdžiai: skaliarinės architektūros, nevektoriniai procesoriai (senai nebegaminami).

Single Instruction, Multiple Data (SIMD): • Lygiagrečiosios architektūros tipas

• Single instruction: vienas instrukcijų srautas, visi vykdantieji įrenginiai vykdo tą pačią instrukciją per vieną atskirą taktą.

• Multiple data: daug duomenų srautų, t.y. kiekvienas vykdantysis įrenginys gali dirbti su savo (skirtingų) srautų ir apdoroti skirtingą duomenų elementą.

• Tokio tipo architektūroje turi būti vienas valdantysis įrenginys (control unit, instruction dispatcher) ir keletas PE.

• Išskiriami du tipai : procesorių masyvai (Processor Arrays) and vektoriniai procesoriai (Vector Pipelines).

• Ši architektūra labai gerai tinka uždavi-niams su tam tikru reguliarumu, su vektoriais, matricomis: tiesinė algebra, vaizdų apdorojimas (image processing).

Control unit

Interconnection network (Memory)

PE PE PE PE PE …

• Pavyzdžiai:

Processor Arrays: ILLIAC IV, Connection Machine CM-2. Vektoriniai procesoriai: IBM 9000, Cray X-MP, Y-MP & C90, Fujitsu VP, NEC SX-2. SIMD įrenginiai: VIS, MMX, SSE, AltiVec, 3DNow, AVX (Intel, AMD, IBM CPUs). GPU: grafinės kortos.

http://en.wikipedia.org/wiki/ILLIAC_IV

Multiple Instruction, Single Data (MISD): • Vienas duomenų srautas yra

paduodamas į keletą vykdančiųjų įrenginių.

• Kiekvienas iš vykdančiųjų įrenginių dirba nepriklausomai, naudojant savo (nepriklausomą) instrukcijų srautą.

• Prieštaringai vertinama, ar egzistuoja šios architektūros tipo pavyzdžiai, ar tai “tikrieji” kompiuteriai.

• Tokio tipo lygiagreti architektūra naudo-jama specializuotuose kompiuteriuose: – Filtruose (keletas skirtingų filtrų tuo pačiu

metu apdorojančių vieną signalą).

– Dekoderiuose (keletas skirtingų algoritmų (raktų) bandančių dekoduoti vieną užkoduotą pranešimą).

– Kritinių sistemų dubliavimui (redundant parallelism) lėktuvuose, branduoli-niuose reaktoriuose ir t.t. Visų vykdančiųjų renginių rezultatai turi sutapti, kitaip detektojamas sugedęs įrenginys.

Multiple Instruction, Multiple Data (MIMD): • Lygiagrečiosios architektūros tipas.

• Multiple Instruction: kiekvienas procesorius (valdantysis ir vykdantysis įrenginys(-iai)) gali vykdyti skirtingą instrukcijų srautą.

• Multiple Data: kiekvienas procesorius gali dirbti su skirtingu duomenų srautu.

Interconnection network (Memory)

PE + control unit

… PE + control unit

PE + control unit

• Beveik visi šiuolaikiniai kompiuteriai priklauso šitam tipui.

• Pavyzdžiai: superkompiuteriai (IBM SP, SGI Origin), kompiuterių klasteriai, daugia-

procesoriniai (SMP) kompiuteriai, kompiuteriai su daugiabranduoliniais procesoriais

(multicore).

Lygiagrečiųjų kompiuterių klasifikacija

(pagal lygiagrečiojo kompiuterio atminties tipą )

Dabartiniu metu Flyno klasifikacija nieko iš esmės

neklasifikuoja – visi kompiuteriai priklauso vienam MIMD tipui.

Žymiai svarbesnė yra klasifikacija pagal tai, kaip lygiagretusis

kompiuteris pasiekia savo (RAM) atmintį (ability of memory

access). Skirsime dvi didelės lygiagrečiųjų kompiuterių grupes:

• Bendrosios atminties (shared memory) kompiuteriai.

• Paskirstytosios atminties (distributed memory) kompiuteriai.

Bendrosios atminties (shared memory) kompiuteriai

• Visi procesoriai gali tiesiogiai pasiekti visas atminties vietas, kuri turi bendrą visiems (globalią) adresaciją (global shared address space).

• Bendra atmintis gali būti naudojama SIMD (vektoriniai procesoriai) ir MIMD sistemose (su SMP - symmetric multiprocessing). Toliau nagrinėsime MIMD sistemas (multiprocessor systems). Tokių sistemų darbas, kai procesoriai nepriklausomai ir tomis pačiomis sąlygomis gali dirbti su visais atminties resursais, palaikomas operacinės sistemos lygyje. Siekiant subalansuoti lygiagrečiojo kompiuterio apkrovimą, operacinė sistema gali net perkėlinėti užduočių vykdymo procesus iš vieno procesoriaus į kitą.

• Procesoriai gali sąveikauti vienas su kitų keičiant duomenų objektus, saugomus bendroje atmintyje. Vieno procesoriaus pakeitimai yra tiesiogiai matomi visiems kitiems procesoriams (bendroji adresų erdvė!).

• Tačiau iškyla problema, kaip užtikrinti norimą veiksmų/operacijų atlikimo tvarką, kai keli procesoriai tuo pačiu metu dirba su tais pačiais duomenimis.

• Bendrosios atminties kompiuteriai pagal atminties pasiekiamumo laiką (jo tolygumą) skirstomi ir dvi grupes: UMA (Uniform Memory Access) ir NUMA (Non-Uniform Memory Access).

http://en.wikipedia.org/wiki/Shared_memory

http://en.wikipedia.org/wiki/Symmetric_multiprocessing

Uniform Memory Access (UMA):

• UMA: tolygus (vienodas) atminties pasiekimo (skaitymo/rašymo) laikas visiems procesoriams.

• Realizuojama naudojant dinaminius tinklus (magistralė (bus), skersinių perjungimų tinklas (crossbar)).

• Spartinančios atmintinės (caches) pagreitina duomenų pasiekiamumą (memory access) ir sumažina duomenų judėjimą tinkle (pvz., magistrale naudojasi jau nebe vienas procesorius!).

• Tačiau iškyla spartinančiųjų atmintinių suderinamumo problema (cache coherency): kai vienas iš procesorių pakeičia kintamojo reikšmę, jo kopijos kitų procesorių spartinančiose atmintinėse tampa neteisingomis. Dažniausiai, šis suderinamumas užtikrinamas pačioje architektūroje (hardware level). Atitinkamos architektūros vadinamos: CC-UMA - Cache Coherent UMA.

• Pavyzdžiai: 2, 4 SMP procesorių darbo stotys (serveriai), kompiuteriai su multicore procesoriais.

Interconnection network

P P P P P …

M M M M …

http://en.wikipedia.org/wiki/Cache_coherency



http://en.wikipedia.org/wiki/Symmetric_multiprocessor_system


Non-Uniform Memory Access (NUMA):

• Bendroji atmintis (visiems tiesiogiai prieinama su bendra adresacija) fiziškai yra padalinta tarp procesorių.

• Lokalios atminties duomenų pasiekiamumas (skaitymas/rašymas) yra labai greitas.

• Kitų procesorių/mazgų/sekcijų atminties blokuose saugomų duomenų pasiekiamumas yra žymiai lėtesnis (per tinklą).

• Kartu su spartinančiosiomis atmintinėmis tai duoda keletą (nemažiau trijų) atminties lygių pagal duomenų skaitymo/rašymo laiką.

• Spartinančiųjų atmintinių suderinamumo problemos sprendimas (cache coherency) yra sudėtingas-brangus (expensive hardware).

• Naudojami pavadinimai: CC-NUMA - Cache Coherent NUMA, NCC-NUMA – Non-Cache Coherent NUMA.

• NUMA architektūra yra labiau išplečiama. Buvo sukurti kompiuteriai su 1024 procesoriais.

• Pavyzdžiai: SGI Origin 2000, Sun HPC 10000, HP Superdome

Interconnection network

… P C M

P C M

P C M

http://en.wikipedia.org/wiki/Non-Uniform_Memory_Access




Paskirstytosios atminties (distributed memory)


• Kiekvienas procesorius turi tik savo

nuosavą atmintį ir sudaro atskirą mazgą,

kurie yra sujungti tarpusavyje tinklu.

• Nėra jokio bendro atminties

adresavimo, kiekvienas procesorius

adresuoja tik savo atmintį.

• Kadangi kiekvienas procesorius dirba tik su savo atmintimi, tai jo atliekami

atminties pakeitimai (pvz., kintamojo reikšmės), niekaip neįtakoja kitų proce-

sorių atmintis (pvz., jei jie turi lygiai taip pat pavadintus kintamuosius, tai yra

kiti kintamieji). Todėl paskirstytosios atminties kompiuteriuose nėra sparti-

nančiųjų atmintinių suderinamumo problemos (cache coherence problem).

• Kai vienam iš procesorių prireikia duomenų iš kito procesoriaus atminties,

tai yra programuotojo uždavinys nurodyti kada ir kaip tie duomenys bus

siunčiami. Lygiagrečiųjų procesų sinchronizaciją irgi yra programuotojo

rūpestis.

• Mazgų sujungimui naudojamas tinklas gali naudoti įvairiausias

technologijas (Ethernet, Myrinet, InfiniBand) ir topologijas (pvz. 3D torus).

http://en.wikipedia.org/wiki/Ethernet

http://en.wikipedia.org/wiki/Myrinet

http://en.wikipedia.org/wiki/Infiniband



Pranašumai:

• Atmintis yra lengviau plečiama. Didinant procesorių skaičių, lygiagrečiojo kompiuterio atmintis automatiškai irgi didėja.

• Kiekvienas procesorius gali greitai pasiekti savo atmintį be lenktyniavimo/trukdžių iš kitu procesorių pusės (interference) ir be papildomų trukdžių tinkle, atsirandančių palaikant spartinančiųjų atmintinių suderinamumą (cache coherency).

• Labiausiai išplečiama architektūra. Šiuolaikiniuose superkompiuteriuose procesorių skaičius siekia 105.

• Ekonomiškumas (cost effectiveness): gali būti naudojami masinės gamybos (pigesni!) procesoriai, mazgai, tinklinės technologijos. Pvz., klasteriai (commodity, off-the-shelf processors and networking).

Trūkumai:

• Žymiai sudėtingesnis programavimas: duomenų mainais (persiuntimu) tarp procesorių turi pasirūpinti programuotojas, nurodydamas kas, kam ir kada turi siųsti ar gauti pranešimą.

• Non-uniform memory access (NUMA) times – duomenys iš lokalios atminties gaunami žymiai greičiau, nei iš kitų mazgų (per tinklą).

Paskirstytosios atminties (distributed memory)


Bendrosios ir paskirstytosios architektūrų palyginimas

Architektūra UMA NUMA Paskirstytoji

Pavyzdžiai

Personaliniai

kompiuteriai su

„muticore“

procesoriais

Serveriai su SMP

procesoriais

SGI Challenge

SGI Origin 2000

HP Superdome

Cray X1

NEC Earth Simulator

Klasteriai

IBM SPx

Programavimo

technologijos

Threads

OpenMP

MPI

Threads

OpenMP

MPI

MPI

PVM

Išplečiamumas 2-32 iki 1000 iki 100000

Trūkimai

Duomenų judėjimą

ribojantis

pralaidumas

(memory-CPU

bandwidth)

Memory-CPU

bandwidth

Netolygus duomenų

gavimo laikas (non-

uniform access

times)

Non-uniform access times

Programavimas ir palaikymas

Sistemų instaliavimas,

administravimas

Mišriosios “Distributed-Shared” sistemos

• Mazgo viduje naudojama bendroji atmintis (muticore procesoriai, SMP

procesoriai, atskirai arba kombinacijoje, pvz., dual Intel Xeon 5148LV

"Woodcrest“, t.y. 2x2=4 cores/branduolių viename mazge).

• Mazgai sujungti tarpusavyje tinklu kaip paskirstytos atminties

kompiuteryje, t.y. procesorius gali dirbti tik su savo mazgo atmintimi ir nieko

“nežino” apie kitų mazgų atmintis. Prireikus, duomenys iš kito mazgo

atminties turi būti persiusti per tinklą specialių programinių priemonių

pagalba.

• Šiuo metu ir artimoje ateityje tai yra vyraujantis architektūros tipas ir

netik superkompiuteriuose, bet ir “self made” klasteriuose (pvz., VGTU

klasteris „Vilkas“).

IBM Blue Gene/L Nr. 1 (greičiausias) kompiuteris pasaulyje

nuo 2004 iki 2008.06.

• LINPACK (TOP 500) testo greitis – 280,6 TFlops.

• Teorinis maksimalus greitis - 367 Tflops.

• Mišrios architektūros. Procesorių skaičius: 131072.

http://www.research.ibm.com/bluegene/





VGTU lygiagretieji kompiuteriai

IBM SP2 kompiuteris pavadintas Daumanto vardu.

Nupirktas ir suinstaliuotas 1998 metais. Tai yra

paskirstytosios atminties lygiagretusis kompiuteris:

4 “Thin” mazgai sujungti su “High Performance Switch”

(hiperkubo topologija, “low latency” (US) protokolas).

Vieno mazgo konfigūracija: RISC POWER2 120 MHz procesorius

128MB RAM atmintis

4,5 GB SCSI-2 HDD diskas

110 MB/s Enhanced Switch Adapter (tinklas)

155 Mb/s ATM adapter

AIX v.4.3.3 (operacinė sistema)

POE v.2.4, MPI biblioteka (IBM)

Teorinis maksimalus greitis - 1,92 GFlops,

LINPACK (TOP 500) testo greitis - 1,433 GFlops.

VGTU lygiagretieji kompiuteriai

“Self made” klasteris vilkas.vgtu.lt

• 15 QUAD tipo mazgų:

– Intel® Core™2 Quad processor Q6600 @ 2.4 GHz (procesorius)

– 4 GB DDR2-800 RAM (atmintis)

– Gigabit Ethernet NIC (tinklas)

• 9 I7 tipo mazgų:

– Intel® Core™ i7-860 @ 2.80 GHz

– 4 GB DDR3-1600 R

– Gigabit Ethernet NIC

Teorinis maksimalus greitis - 979,2 GFlops,

LINPACK (TOP 500) testo greitis - 512,8 GFlops.

http://vilkas.vgtu.lt/




Skaičiuojamosios chemijos ir biologijos

programiniai paketai suinstaliuoti

VGTU VILKAS klasteryje

• GAMESS - skaičiuojamuosius chemijos paketas. Klasteryje VILKAS

suinstaliuota 11 versija.

• NWChem - skaičiuojamuosius chemijos paketas. Klasteryje VILKAS

suinstaliuota 6.3 versija.

• GROMACS – molekuliarinės dinamikos paketas. Designed for

simulations of proteins, lipids and nucleic acids. Klasteryje VILKAS

suinstaliuota 4.5.5 versija .

• AMBER - biomolecular simulation package. Klasteryje VILKAS

suinstaliuota 11 versija.

• AutoDock - automated docking tools. Designed to predict how small

molecules, such as substrates or drug candidates, bind to a receptor of

known 3D structure. Klasteryje VILKAS suinstaliuota 4.2.3 versija.

http://en.wikipedia.org/wiki/GAMESS_(US)

http://www.nwchem-sw.org/index.php/Main_Page

http://www.gromacs.org/

http://www.gromacs.org/

http://ambermd.org/

http://autodock.scripps.edu/

Paskirstytieji skaičiavimai (disrtibuted computing)

Grid computing (tinklynai)

• Paskirstytas skaičiavimas tai lokaliame tinkle arba Internete esančių kompiuterinių resursų (kompiuterių, klasterių, duomenų saugyklų) panaudojimas uždavinio sprendimui.

• Kompiuterių GRIDą (tinklyną) sudaro skirtingos architektūros kompiuteriai, kurie priklauso skirtingiems savininkams. Jie gali būti skirtingai administruojami, turėti įvairias operacines sistemas.

• “Volunteer grid computing“ – paskirstytų skaičiavimų rūšis, kai kompiuterių savininkai aukoja jų skaičiavimo resursus (procesorių laiką, diskinę atmintį) vienam ar keliems projektams.

Internetas

Projektas Savanoriai

Paskirstytieji skaičiavimai

http://en.wikipedia.org/wiki/Grid_computing




Savanoriški paskirstyti skaičiavimai

• Pasaulyje yra virš milijardo kompiuterių – milžiniški

skaičiavimo resursai, kurie tik augs! (greičiau negu

superkompiuterių galingumas).

• Jų panaudojimas tai galimybė išspęsti (bent pabandyti) iki

šiol “neįkandamus” didžiulius uždavinius.

• Tačiau šiuose paskirstytų skaičiavimų projektuose

resursai neskiriami arba perkami, o turi būti pritraukti!

• Kompiuterio savininkas turi užsiregistruoti projekto

puslapyje, parsisiųsti ir paleisti savo kompiuteryje projekto

skaičiuojamąją programėlę. Jos darbą galima

sukonfigūruoti taip, kad jį skaičiuoti, kai niekas nedirba su

kompiuterių (screensaver režime).

• Savanoriškų skaičiavimų projektai populiarizuoja mokslą.

• Projektų populiarumas parodo visuomenės susidomėjimą

atitinkamų mokslinių tyrimų kryptimis.

Paskirstytų skaičiavimų projektų istorija

Populiariausi BOINC-based projektai

SETI@home - U.C. Berkeley,

Search for ExtraTerrestrial Intelligence

Rosetta@home - U. Washington,

baltymų tyrimai

LHC@home - CERN,

accelerator simulation

World Community Grid - IBM, daug

įvairių projektų

Paskirstytų skaičiavimų projektai

• Folding@home projekto puslapis

• Folding@home puslapis Vikipedijoje

http://lt.wikipedia.org/wiki/Folding@home

• http://www.worldcommunitygrid.org/

• Projektų sąrašas.

https://folding.stanford.edu/

http://lt.wikipedia.org/wiki/Folding@home

http://www.worldcommunitygrid.org/

http://boinc.berkeley.edu/wiki/project_list

doc. dr. vadimas starikovičius vs@vgtuvs/skaidres/bi.pdf · • modulio kodas - fmchb11404 •...

Documents