Oefeningenlessen Geavanceerde Computerarchitectuur

Transcriptie

1 Oefeningenlessen Geavanceerde Computerarchitectuur Lieven Eeckhout Academiejaar

2 Hybride tournament sprongvoorspeller Beschouw een hybride tournament sprongvoorspeller bestaande uit een bimodale voorspeller (2 elementen PHT0 and PHT1 met elk een 2-bit saturerende teller) een gshare voorspeller (2 elementen met elk een 2-bit saturerende teller en 1-bit BHR) een metavoorspeller (2 elementen). De metavoorspeller wordt geïndexeerd zoals een bimodale voorspeller. De metavoorspeller kiest voor de bimodale voorspeller indien de saturerende 2-bit teller strikt kleiner is dan 2 en kiest voor de gshare voorspeller indien de waarde van de saturerende 2-bit teller groter dan of gelijk is aan 2. Vul de onderstaande tabel in. Merk op dat de instructies hier 4 bytes lang zijn (RISC ISA); m.a.w. de twee minst significante bits van een instructieadres zijn altijd nul en worden dus niet gebruikt bij de indexering van de sprongvoorspeller. toestand voorspeller NA uitvoering sprong sprong -adres 0x654 0x780 0x654 0x780 0x654 0x780 sprongrichting N T T T T N voorspelling metavoorspeller bimodale Gshare bimodale gshare hybride PHT0 PHT1 PHT0 PHT1 BHR PHT0 PHT

3 Gshare versus hybride voorspeller Beschouw twee sprongvoorspellers. Voorspeller A is een gshare voorspeller die 9 adresbits en 7 bits globale geschiedenis combineert om een PHT te indexeren. Voorspeller B is een hybride voorspeller bestaande uit een metavoorspeller, een globale voorspeller en een lokale voorspeller. De metavoorspeller is een bimodale voorspeller die een PHT indexeert op basis van 5 adresbits. De lokale voorspeller is van het PAg-type en gebruikt 4 adresbits om de lokale-geschiedenistabel te indexeren; de 8-bit lange lokale geschiedenis wordt gebruikt om een PHT te indexeren bestaande uit 3-bit saturerende tellers. De globale voorspeller is van het type GAp en gebruikt 6 globale geschiedenisbits en 2 adresbits voor de indexering in de PHT. Veronderstel 2-bit saturerende tellers in alle PHT-tabellen. Teken de organisatie van beide voorspellers (met duidelijke vermelding hoe indexeringsbits berekend worden) en bereken de hardwarekost (in aantal bits) voor beide voorspellers. U mag veronderstellen dat de sprongvoorspeller bedoeld is voor een RISC ISA waarbij de codering van een instructie 4 bytes lang is. Teken voorspeller A: Teken voorspeller B: Hardwarekost (in aantal bits) voor voorspeller A: Hardwarekost (in aantal bits) voor voorspeller B: 3

4 GAg sprongvoorspeller (a) Beschouw een GAg sprongvoorspeller. Het aantal geschiedenisbits bedraagt drie. Geef de inhoud van de sprongvoorspellingstabel na (voldoend lange) uitvoering van de volgende sequentie sprongrichtingen TTTNNTTTNNTTTNN... waarbij T staat voor genomen (taken) en N staat voor niet-genomen (not-taken). Veronderstel 2-bit saturerende tellers in de PHT. (b) Beschouw nu een GAg sprongvoorspeller met twee geschiedenisbits. En beschouw opnieuw de sequentie sprongrichtingen TTTNNTTTNNTTTNN... Wat zal de voorspellingsnauwkeurigheid zijn van deze sprongvoorspeller na verloop van tijd (na de initiële overgangsfase) indien alle 2-bit saturerende tellers in de PHT initieel op 1 staan? 4

5 (c) Beschouw de volgende controleverloopgraaf: sprong (a) T N sprong (b) sprong (c) T N T N sprong (d) N De dikke kromme lijn geeft aan hoe deze controleverloopgraaf doorlopen wordt tijdens de uitvoering van het programma. Beschrijf het spronggedrag voor de vier conditionele sprongen (aangeduid in het grijs in de bovenstaande figuur): gebruik T voor genomen en N voor nietgenomen. Spronggedrag van sprong (a) Spronggedrag van sprong (b) Spronggedrag van sprong (c) Spronggedrag van sprong (d) T Hoeveel geschiedenisbits heeft een PAg voorspeller nodig opdat deze voorspeller het gedrag van deze vier sprongen perfect kan voorspellen (0% miss rate)? (Veronderstel dat er geen verwarring of aliasing optreedt op het eerste niveau van de PAg sprongvoorspeller.) 5

6 In-order superscalaire microarchitectuur Beschouw het volgende stukje code: add r1,r2,r3 ld $4(A),r4 mul r3,r4,r2 add r1,r4,r2 sub r2,r1,r5 ld $8(A),r4 add r1,r4,r3 add r2,r4,r5 add r3,r2,r5 In deze (fictieve) ISA wordt het doeloperand van een instructie uiterst rechts genoteerd; m.a.w. add r1,r2,r3 betekent dat de inhouden van registers r1 en r2 opgeteld worden en dat het resultaat in register r3 terecht komt. Veronderstel nu een in-order superscalaire architectuur en veronderstel dat alle instructies uit de bovenstaande codesequentie opgehaald werden in dezelfde cyclus uit het instructiecachegeheugen. Duid aan in de onderstaande tabel welke instructie zich in welke pijplijntrap bevindt. Veronderstel hierbij de eenvoudige pijplijnstructuur zoals aangegeven in de les: IF ID OF EX WB. De uitvoering van een leesoperatie duurt 3 cycli (MEM1 MEM2 MEM3) en de data is pas beschikbaar na MEM3. De uitvoering van een vermenigvuldiging duurt vier cycli (EX1 EX2 EX3 EX4). De uitvoering van alle andere operaties duurt 1 cyclus. Veronderstel verder dat er voldoende functionele eenheden zijn van elk type, maar dat er slechts één schrijfpoort is naar het registerbestand. Verder ondersteunt de microarchitectuur out-oforder completion. Instructies die blokkeren t.g.v. afhankelijkheden, structurele hazards, etc. blokkeren in de ID trap. Duid ook aan wanneer forwarding gebruikt wordt dit kan je doen d.m.v. een pijl tussen de producent en de consument van een registerwaarde. 6

7 add r1,r2,r3 ld $4(A),r4 mul r3,r4,r2 add r1,r4,r2 sub r2,r1,r5 ld $8(A),r4 add r1,r4,r3 add r2,r4,r5 add r3,r2,r5 7

8 Data-afhankelijkheden Beschouw het volgende stukje code: add r1,r2,r3 ldi $256,r4 mul r3,r4,r2 sub r2,r1,r5 ld $8(A),r4 add r1,r4,r3 ld $24(A),r4 mul r4,r3,r5 In deze (fictieve) ISA wordt het doeloperand van een instructie uiterst rechts genoteerd; m.a.w. add r1,r2,r3 betekent dat de inhouden van registers r1 en r2 opgeteld worden en dat het resultaat in register r3 terecht komt. De instructie ldi (load immediate) betekent dat een constante waarde opgeladen wordt in een doelregister. (a) Geef alle echte data-afhankelijkheden aan op dit stukje code. Doe dit m.b.v. pijlen. add r1,r2,r3 ldi $256,r4 mul r3,r4,r2 sub r2,r1,r5 ld $8(A),r4 add r1,r4,r3 ld $24(A),r4 mul r4,r3,r5 8

9 (b) Geef alle anti-afhankelijkheden aan op dit stukje code. Doe dit m.b.v. pijlen. add r1,r2,r3 ldi $256,r4 mul r3,r4,r2 sub r2,r1,r5 ld $8(A),r4 add r1,r4,r3 ld $24(A),r4 mul r4,r3,r5 (c) Geef alle outputafhankelijkheden aan op dit stukje code. Doe dit m.b.v. pijlen. add r1,r2,r3 ldi $256,r4 mul r3,r4,r2 sub r2,r1,r5 ld $8(A),r4 add r1,r4,r3 ld $24(A),r4 mul r4,r3,r5 (d) Pas registerhernoeming toe op dit stukje code. Veronderstel hierbij dat er voldoende fysische registers beschikbaar zijn. 9

10 (e) Stel dat de uitvoering van een leesoperatie 2 cycli duurt; een optelling, aftrekking en loadimmediate 1 cyclus; en een vermenigvuldiging 4 cycli. Bepaal met behulp van de dataverloopgraaf het minimaal aantal uitvoeringscycli. (f) Stel nu dat de eerste leesoperatie (ld $8(A),r4) een cache miss veroorzaakt in de L1 D- cache, maar een hit in de L2 cache. De toegangstijd tot de L2 cache bedraagt 10 cycli. Hoelang duurt de uitvoering dan? Aantal cycli: 10

11 (g) Stel nu opnieuw dat de eerste leesoperatie een cache hit is. Veronderstel verder dat een optelling, aftrekking en load-immediate instructie op een functionele eenheid van type A uitgevoerd kunnen worden; dat een vermenigvuldiging op een functionele eenheid van type B uitgevoerd kan worden; en dat een leesoperatie op een functionele eenheid van type C uitgevoerd wordt. Alle functionele eenheden zijn volledig gepijplijnd. Bepaal het minimaal aantal functionele eenheden van elk type zodat de totale uitvoeringstijd van dit stukje code niet toeneemt, en dus niet groter wordt dan wat je in (e) bekomen hebt. En geef aan hoe de uitvoering er dan uitziet. Cyclus 1 Cyclus 2 Cyclus 3 Cyclus 4 Cyclus 5 Cyclus 6 Cyclus 7 Cyclus 8 Cyclus 9 Cyclus 10 Hoeveel functionele eenheden zijn er nodig van type A? eenheid/eenheden Hoeveel functionele eenheden zijn er nodig van type B? eenheid/eenheden Hoeveel functionele eenheden zijn er nodig van type C? eenheid/eenheden 11

12 Registerhernoeming Veronderstel een superscalaire out-of-order architectuur met breedte 2, m.a.w. er kunnen twee instructies per klokcyclus opgehaald worden en twee instructies per klokcyclus hernoemd worden. Beschouw nu het volgende stukje programmacode: R0 ld [A] R2 ld [B] R2 R0*R2 R4 ld [C] R4 R2+R4 R2 ld [D] R2 R0*R2 R4 ld [E] R4 R2+R4 Veronderstel verder dat registerhernoeming gebeurt m.b.v. één fysiek registerbestand dat bestaat uit 7 fysieke registers. Vul nu in de onderstaande tabellen in hoe de registerhernoeming gebeurt cyclus per cyclus; m.a.w. vul de toestand in van de afbeeldingstabel alsook het fysiek registerbestand tijdens het hernoemingsproces. Veronderstel ten slotte nog dat de eerste twee instructies het reorder buffer verlaten in cyclus 3; en dat de volgende twee instructies het reorder buffer verlaten in cyclus 4; etc. Cyclus 0: R0 ld [A] R0 : F0 F0 (R0) : AR R2 ld [B] R2 : F1 F1 (R2) : AR R2 R0*R2 R4 : F2 F2 (R4) : AR R4 ld [C] F3 (--) : BS R4 R2+R4 F4 (--) : BS R2 ld [D] F5 (--) : BS R2 R0*R2 F6 (--) : BS R4 ld [E] R4 R2+R4 Cyclus 1: R0 ld [A] R0 : F0 ( ) : R2 ld [B] R2 : F1 ( ) : R2 R0*R2 R4 : F2 ( ) : R4 ld [C] F3 ( ) : R4 R2+R4 F4 ( ) : R2 ld [D] F5 ( ) : R2 R0*R2 F6 ( ) : R4 ld [E] R4 R2+R4 12

13 Cyclus 2: R0 ld [A] R0 : F0 ( ) : R2 ld [B] R2 : F1 ( ) : R2 R0*R2 R4 : F2 ( ) : R4 ld [C] F3 ( ) : R4 R2+R4 F4 ( ) : R2 ld [D] F5 ( ) : R2 R0*R2 F6 ( ) : R4 ld [E] R4 R2+R4 Cyclus 3: R0 ld [A] R0 : F0 ( ) : R2 ld [B] R2 : F1 ( ) : R2 R0*R2 R4 : F2 ( ) : R4 ld [C] F3 ( ) : R4 R2+R4 F4 ( ) : R2 ld [D] F5 ( ) : R2 R0*R2 F6 ( ) : R4 ld [E] R4 R2+R4 Cyclus 4: R0 ld [A] R0 : F0 ( ) : R2 ld [B] R2 : F1 ( ) : R2 R0*R2 R4 : F2 ( ) : R4 ld [C] F3 ( ) : R4 R2+R4 F4 ( ) : R2 ld [D] F5 ( ) : R2 R0*R2 F6 ( ) : R4 ld [E] R4 R2+R4 13

14 Cyclus 5: R0 ld [A] R0 : F0 ( ) : R2 ld [B] R2 : F1 ( ) : R2 R0*R2 R4 : F2 ( ) : R4 ld [C] F3 ( ) : R4 R2+R4 F4 ( ) : R2 ld [D] F5 ( ) : R2 R0*R2 F6 ( ) : R4 ld [E] R4 R2+R4 Cyclus 6: R0 ld [A] R0 : F0 ( ) : R2 ld [B] R2 : F1 ( ) : R2 R0*R2 R4 : F2 ( ) : R4 ld [C] F3 ( ) : R4 R2+R4 F4 ( ) : R2 ld [D] F5 ( ) : R2 R0*R2 F6 ( ) : R4 ld [E] R4 R2+R4 14

15 Out-of-order scheduling Beschouw een out-of-order architectuur die in staat is vier instructies per klokcyclus in een gecentraliseerd reservatiestation te plaatsen (dispatch width = 4). Beschouw de onderstaande (data non-captured) gepijplijnde organisatie. gecentraliseerd reservatiestation wake-up en selectie registerbestand lezen vermenigvuldigingsleeseenheid opteleenheid opteleenheid eenheid Deze microarchitectuur bestaat uit een gecentraliseerd reservatiestation. Om instructies uit te voeren op een functionele eenheid, gaat men als volgt te werk. In de eerste cyclus moeten instructies geselecteerd worden om uitgevoerd te worden (wake-up en selectie) maximaal vier per cyclus. In de daaropvolgende cyclus wordt het registerbestand gelezen de input operandi voor de instructies worden gelezen. In de derde cyclus worden de instructies dan uiteindelijk op een functionele eenheid uitgevoerd. De uitvoering van een leesoperatie duurt twee cycli maar is gepijplijnd (veronderstel steeds een cache hit). De uitvoering van een optelling duurt slechts één cyclus. De uitvoering van een vermenigvuldiging duurt vier cycli en is gepijplijnd. We veronderstellen verder dat alle noodzakelijke forwarding (incl. de distributie van tags van doeloperandi ten behoeve van wake-up) aanwezig is in de hardware opdat instructies die afhankelijk zijn van elkaar via echte data-afhankelijkheden in opeenvolgende cycli uitgevoerd kunnen worden. Beschouw het volgende stukje code: add r1,r2,r1 ld r8(a),r3 add r3,r1,r4 mul r3,r5,r3 add r4,r3,r1 sub r8,$8,r8 add r1,r2,r1 ld r8(a),r3 add r3,r1,r4 mul r3,r5,r3 15

16 Vul nu de onderstaande tabellen in die aangeven welke instructie zich in welke cyclus op welke plaats bevindt. Veronderstel dat er voldoende fysische registers beschikbaar zijn. De registernamen die U vermeldt in deze tabellen zijn fysische registers, geen architecturale registers. Cyclus 1: gecentraliseerd reservatiestation wake-up en selectie registerbestand lezen vermenigvuldigingsleeseenheid opteleenheid opteleenheid eenheid Cyclus 2: gecentraliseerd reservatiestation wake-up en selectie registerbestand lezen vermenigvuldigingsleeseenheid opteleenheid opteleenheid eenheid 16

17 Cyclus 3: gecentraliseerd reservatiestation wake-up en selectie registerbestand lezen vermenigvuldigingsleeseenheid opteleenheid opteleenheid eenheid Cyclus 4: gecentraliseerd reservatiestation wake-up en selectie registerbestand lezen vermenigvuldigingsleeseenheid opteleenheid opteleenheid eenheid 17

22 Prefetching Beschouw een datacache met een blokgrootte van 16 bytes. De bus die de datacache verbindt met het geheugen is 8 bytes breed, m.a.w. per klokcyclus kunnen 8 bytes getransfereerd worden tussen de datacache en het hoofdgeheugen. Veronderstel verder dat de toegangstijd tot het hoofdgeheugen 5 cycli duurt; dit is de tijd tussen het aanvragen van het betreffende datacacheblok en verschijnen van het eerste woord op de bus. M.a.w. het ophalen van een volledig datacacheblok uit het hoofdgeheugen duurt 7 cycli. De datacache heeft één lees/schrijfpoort. Veronderstel verder een in-order processor met een breedte van 1. Het uitvoeren van iedere instructie duurt één cyclus. Veronderstel een blokkerende cache, m.a.w., wanneer een cache miss optreedt kan geen nieuwe geheugenoperatie uitgevoerd worden. Beschouw het volgende stukje code voor een 64-bit architectuur (veronderstel dat de inhoud van r3 en r4 initieel nul is): li r2,1000 ; schrijf de immediate waarde 1000 in r2 loop: ldai r5,a(r3) ; load and increment pointer in r3 ; lees in array A ldai r6,b(r4) ; lees in array B add r7,r7,r5 add r7,r7,r6 bdnz r2,loop ; decrement r2, branch if not zero (Merk op dat de ldai instructie de pointer vermeerdert met de waarde 8.) (a) Geef nu het tijdsverloop aan in de onderstaande tabel. Duid een datacachemiss aan met m ; de transfer met t en de verschillende instructies uit de lus als A, B, +, + en br. Cyclus Array A Array B Instr Cyclus Array A Array B Instr Cyclus Array A Array B Instr 22

23 (b) Veronderstel nu dat ook meerdere cachemisses (multiple outstanding misses) terzelfdertijd afgehandeld kunnen worden; we veronderstellen nu dus een niet-blokkerende cache. Hoe ziet het tijdsverloop er dan uit? We veronderstellen een zogenaamde split-transaction bus die tags toekent aan bustransacties. Om die manier kunnen meerdere bustransacties parallel afgehandeld worden. Cyclus Array A Array B Instr Cyclus Array A Array B Instr Cyclus Array A Array B Instr (c) Veronderstel nu dat ook prefetching geïmplementeerd wordt. M.a.w. we veronderstellen nu een stream buffer die het volgende cacheblok gaat ophalen wanneer een cachemiss is opgetreden. Een gewone leesoperatie krijgt uiteraard voorrang op een prefetchactie. Vul opnieuw het onderstaand tijdsverloop in. Cyclus Array A Array B Instr Cyclus Array A Array B Instr Cyclus Array A Array B Instr 23

24 Victim cache Beschouw een direct-mapped cache met 4 sets en een volledig associatieve victim cache met 2 elementen. De blokgrootte in zowel de direct-mapped cache als de victim cache is 16 bytes. Het vervangingsalgoritme in de victim cache is LRU. Het geheugen is byte-adresseerbaar. Vul de onderstaande tabel in. U duidt een hit aan indien er een hit optreedt in de direct-mapped cache of de victim cache; een miss betekent een miss in de direct-mapped cache en de victim cache. De elementen aangeduid in de overige kolommen stellen adressen voor. Bij de victim cache wordt het minst recent gebruikte cacheblok aangeduid door het LRU label. Direct-mapped cache Victim cache Adres Hit/miss Set 0 Set 1 Set 2 Set 3 Set 0 Set FF0 1F0 210/LRU 080 0A B0 0E

25 Load forwarding en bypassing Beschouw een out-of-order architectuur die load forwarding en load bypassing implementeert. Gegeven een reeks instructies met het tijdstip waarop de betreffende instructie het reservatiestation betreedt (dispatch). Veronderstel dat een instructie die het reservatiestation betreedt meteen uitgevoerd kan worden, m.a.w. de operandi zijn meteen beschikbaar. En voor iedere schrijfoperatie wordt ook meegegeven wanneer de schrijfoperatie de store queue ten vroegste kan verlaten (completion). Veronderstel verder dat er slechts één poort is tot de cache, dat alle cachetoegangen cache hits zijn en dat de uitvoering van een lees- en schrijfoperatie 2 cycli duurt: 1 cyclus voor de adresberekening (EA) en 1 cyclus voor de cachetoegang. De architectuur wordt hieronder afgebeeld: Load RS Store RS EA EA Store queue adres data Beschouw de volgende reeks instructies: Vul de onderstaande tabel in: dispatch instructie completion 1 Load A 1 Load B 1 Store C 6 Cyclus Load RS Store RS Load EA Store EA Store queue Cachetoegang

26 Beschouw nu de volgende sequentie: Vul de onderstaande tabel in: dispatch instructie completion 1 Store A 6 2 Load B 3 Load A 4 Store D 10 4 Load E 4 Load A 5 Load D Cyclus Load RS Store RS Load EA Store EA Store queue Cachetoegang

27 Cache misses Beschouw de volgende twee implementaties van een algoritme dat de som berekent over alle elementen van een array. Implementatie 1: for (i=0; i<m*n; i++) { sum += a[i]; } Implementatie 2: for (i=0; i<m; i++) { for (j=0; j<n; j++) { sum += a[m*j+i]; } } Veronderstel dat de array a[] een array is van m n 32-bit integer waarden. De variabele m werd zodanig gekozen dat er precies m elementen van de array a[] in één enkel cacheblok opgeslagen worden, of m.a.w. de grootte van een cacheblok bedraagt 4 m bytes. (a) Duid het toegangspatroon aan voor beide implementaties voor een array bestaande uit 16 elementen en een cacheblokgrootte van 16 bytes. Duid het element dat eerst gerefereerd wordt aan met een 1, het tweede element met een 2, enz. Duid door middel van een cirkel aan welke geheugenreferenties tot een cache miss zullen leiden. Implementatie 1: Implementatie 2: (b) Is er een mogelijks verschil in uitvoeringssnelheid van beide implementaties op een out-oforder microprocessor met niet-blokkerende caches? Leg uit. 27

28 Intervalanalyse Beschouw een superscalaire out-of-order architectuur met een niet-blokkerende geheugenhiërarchie. Een leesoperatie komt het reorder buffer van een superscalaire out-of-order microarchitectuur binnen op tijdstip t 0. Op tijdstip t 10 komt een foutief voorspelde sprong het reorder buffer binnen; er bestaat geen afhankelijkheid tussen de leesoperatie en de sprong. De leesoperatie die op tijdstip t 0 het reorder buffer binnenkwam, veroorzaakt een L2 cache miss op tijdstip t 5. Tengevolge van die L2 cache miss, blokkeert de leesoperatie het reorder buffer; dit betekent dat geen nieuwe instructies het reorder buffer kunnen betreden. Veronderstel dat de kost tgv. een foutief voorspelde sprong 10 cycli bedraagt, en dat de toegangstijd tot het hoofdgeheugen 200 processorcycli bedraagt. Wat is volgens U correct? (a) De kost tengevolge van de foutief voorspelde sprong serialiseert met de kost van de L2 cache miss; m.a.w. de kost van de foutief voorspelde sprong en de kost van de L2 cache miss kunnen opgeteld worden om tot de finale kost te komen. (b) De kost tengevolge van de foutief voorspelde sprong wordt verborgen onder L2 cache miss. (c) De kost van de L2 cache miss rate wordt verborgen onder de kost van de foutief voorspelde sprong. Beredeneer Uw antwoord mbv. intervalanalyse. 28

29 VLIW scheduling (a) Beschouw de volgende lus: loop: ld A(R1) -> R2 ld B(R1) -> R3 mul R2,R3 -> R4 add R4,R20 -> R20 sub R1,#4 -> R1 brnz R1,loop Plaats (of schedule) deze lus in VLIW-woorden met maximaal 3 operaties per instructie. Veronderstel dat de uitvoering van alle niet-geheugenoperaties 1 cyclus duurt en dat een geheugenoperatie 2 cycli duurt. Veronderstel verder dat er geen beperkingen zijn m.b.t. het plaatsen van operaties in instructieslots, m.a.w. in ieder slot kan om het even welke operatie geplaatst worden. Loop: 29

30 (b) Ontvouw deze lus nu vier keer en plaats de ontvouwde lus opnieuw voor diezelfde VLIW architectuur. Veronderstel dat het aantal keer dat de lus geïtereerd wordt altijd een veelvoud is van vier. Optimaliseer de code indien mogelijk. Veronderstel dat er volgende architecturale registers beschikbaar zijn. Loop: Wat is de snelheidswinst of speedup die bekomen wordt per lusiteratie tov. de oorspronkelijk lus? Speedup wordt gedefinieerd als de uitvoeringstijd van het oorspronkelijk versie gedeeld door de uitvoeringstijd van het geoptimaliseerde versie. 30

31 (c) Beschouw opnieuw dezelfde lus, maar pas nu software pipelining toe ipv. lusontvouwing. Hoe ziet de lus er dan uit? En hoe ziet het in- en uitloopstuk er dan uit? (Veronderstel dat de lus minstens drie keer uitgevoerd wordt en dat er voldoende architecturale registers beschikbaar zijn.) Plaats de lus die bekomen wordt via software pipelining nu opnieuw voor de VLIW-architectuur. Loop: 31

32 Predikaten Beschouw de volgende pseudocode: res = 0; do { m = a[i]; if (m is oneven) {res += m; break;} else { if (m is veelvoud van 4) {res -= m;} else {res -= 2*m;} } i--; } while (i!= 0); Codeer de body van de lus van de pseudocode hierboven aangegeven in de veronderstelling dat de lus body een hyperblok is. De ISA die we hier veronderstellen bestaat uit de volgende instructies: ld mem[rx] -> Ry /* leesoperatie op adres mem+rx*/ and Rx,imm -> Ry /* bitsgewijze and van Rx en een immediate */ add Rx, Ry -> Rz /* Rz ::= Rx + Ry */ sub Rx, Ry -> Rz /* Rz ::= Rx - Ry */ sll Rx,imm -> Ry /* logische shift left over imm bits */ br label /* onvoorwaardelijk sprong naar label */ brnz Rx,label /* voorwaardelijk sprong naar label als Rx!=0*/ Daarnaast bestaat er ook nog de instructie setp om een predikaat te definiëren: setp Rx -> py. Deze instructie schrijft de waarde 1 in het predikaatregister py indien Rx verschillend is van nul; indien Rx gelijk is aan nul, wordt de waarde 0 in het predikaatregister geschreven. De oplossing is van de vorm: loop: (..) instr_1 (..) instr_2... end-loop:... waarbij het predikaat telkens tussen de haakjes geplaatst wordt. De mogelijke predikaten zijn van de vorm: 0, 1, px,!px, px&py,!px&py,!px&!py. Veronderstel dat de waarde van de variabele i uit de pseudocode beschikbaar is in register R1 en dat de waarde van de variabele res uit de pseudocode beschikbaar is in R4. Verder veronderstelt U dat er volgende architecturale registers alsook predikaatregister beschikbaar zijn. 32

33 Antwoord: Bijkomende vragen: Plaats deze lus voor de VLIW-architectuur uit de eerste vraag. Teken de dataverloopgraaf van dit hyperblok. (Merk op dat predikaten RAW afhankelijkheden introduceren.) Optimaliseer deze code. Tip: sommige instructies kunnen naar voor geschoven worden in de dataverloopgraaf door hun predikaat te verwijderen... Wat is de bekomen snelheidswinst? 33

34 Vermogenverbruik Beschouw de decodering van een MPEG4 video stroom. Een MPEG4 stroom bestaat uit een aantal frames die gedecodeerd moeten worden aan een tempo van één frame per 30ms. De MPEG4 encodering gebruikt 3 soorten decoderingen, namelijk het I-frame, het P-frame en het B-frame. Veronderstel dat het decoderen van een I-frame 10 ms duurt, dat het decoderen van een P-frame 20ms duurt en dat het decoderen van een B-frame 30 ms duurt. In het geval een frame gedecodeerd kan worden in een tijdspanne kleiner dan 30ms (de deadline), voert de decoder een lege lus uit in de resterende tijd voor de volgende deadline. Veronderstel nu dat een bepaalde videostroom gecodeerd werd in het volgende formaat: IPPP BPPP BPPP BPPP IPPP BPPP BPPP BPPP IPPP BPPP... Bereken dan de reductie in vermogenverbruik indien DVS/DFS doorgevoerd wordt. M.a.w. we schalen de frequentie en de voedingsspanning van de processor. Veronderstel dat we in een gebied opereren waarbij het simultaan schalen van de frequentie en voedingsspanning mogelijk is. 34

35 Energie-efficiëntie Beschouw de volgende data set. Grootte van de ROB IPC EPC (nj) f (GHz) Hier wordt de IPC, EPC (energieverbruik per klokcyclus), en klokfrequentie f als functie weergegeven van de grootte van het reorder buffer (ROB). Bereken nu (dit is het makkelijkst te doen in een spreadsheet) de optimale grootte van de ROB in het geval van de volgende optimalisatiecriteia: (i) optimale prestatie, (ii) optimale MIPS/W, (iii) optimale MIPS 2 /W en (iv) optimale MIPS 3 /W. Verklaar de bekomen resultaten. 35

36 MESI cachecoherentieprotocol Beschouw een chip-multiprocessor bestaande uit 4 CPUs. Iedere CPU heeft een private directmapped L1 D-cache bestaande uit 2 sets; de grootte van een cacheblok is 32 byte. We veronderstellen dat de L1 D-caches write-back en write-allocate caches zijn en dat het cachecoherentieprotocol het MESI protocol is. Beschouw het volgende tijdsverloop (de adressen die hier weergegeven worden zijn fysieke adressen): t 1 t 2 t 3 t 4 t 5 t 6 t 7 t 8 CPU1 CPU2 CPU3 CPU4 ld 0x4f20 ld 0x4f24 ld 0x8c4c st 0x4f28 ld 0x4f24 st 0x8c44 ld 0xfc8c ld 0x8c40 De bedoeling van deze vraag is de toestand van de verschillende cacheblokken in te vullen in een tabel. Iedere rij in een dergelijke tabel geeft een set aan van de L1 D-cache per CPU. Vul daarin de volgende informatie in: Tag van cacheblok Coherentietoestand Gelezen van andere CPU Gelezen adres uit geheugen Geschreven adres in geheugen Voorbeeld van een dergelijke rij in de tabel kan zijn 0x4800 E 0x4800 indien het cacheblok met tag 0x4800 in de E toestand komt nadat de waarde gelezen werd uit het geheugen vanop adres 0x4800. Vul de onderstaande tabellen aan die de toestand van de verschillende caches weergeven. Veronderstel dat alle cachelijnen ongeldig zijn op tijdstip t 0. 36

37 Tijdstip t 1 : CPU1 CPU2 CPU3 CPU4 Tijdstip t 2 : CPU1 CPU2 CPU3 CPU4 37

41 MESI, MOESI en update cachecoherentieprotocollen Beschouw een SMP systeem met 2 CPUs verbonden via een bus. Elk van de CPUs heeft een L1 D-cache maar geen L2 cache. De L1 D-caches zijn write-back en write-allocate caches. Beschouw verder het volgende tijdsverloop: t1 t2 t3 t4 t5 t6 t7 t8 CPU 1 CPU 2 ld A ld A st A st A st A ld A st A ld A Vul nu de onderstaande tabellen in, één voor het invalidate MESI protocol, één voor het MOESI protocol en één voor het update cachecoherentieprotocol. In de tweede kolom geeft U aan of de betreffende geheugenoperatie een cache miss is, wat het type operatie is (lokale schrijfoperatie LW of lokale leesoperatie LR), en hoe de toestand verandert van de cachelijn in het geval van de invalidate protocollen. In de derde kolom geeft U aan wat de coherentietrafiek is (BR, BW of BU) en ook welke data getransfereerd wordt over de bus. In de vierde kolom geeft U de communicatie aan met het hoofdgeheugen. Veronderstel dat indien de data beschikbaar is in het systeem op het moment van een BR, de data beschikbaar gesteld wordt door een cache en niet het hoofdgeheugen via een zogenaamde cache-to-cache transfer. Tabel voor het MESI cachecoherentieprotocol: CPU1 CPU2 info over geheugenoperatie ld A coherentietrafiek trafiek naar hoofdgeheugen ld A st A st A st A ld A st A ld A 41

42 Tabel voor het MOESI cachecoherentieprotocol veronderstel hierbij dat de cachelijn in de processor waar de leesoperatie uitgevoerd wordt in de S toestand geplaatst wordt; de externe kopie (in de M toestand) komt in de O toestand. CPU1 CPU2 info over geheugenoperatie ld A coherentietrafiek trafiek naar hoofdgeheugen ld A st A st A st A ld A st A ld A Tabel voor het update cachecoherentieprotocol: CPU1 CPU2 info over geheugenoperatie ld A coherentietrafiek trafiek naar hoofdgeheugen ld A st A st A st A ld A st A ld A 42

43 Dragon update-protocol Beschouw het Dragon cachecoherentie update-protocol. Vul de onderstaande tabel in. De kolom met als hoofding Aantal kopieën vul je aan met 0 indien er geen lokale kopieën zijn, 1 indien er exact één lokale kopie is, 1 indien er één of meerdere kopieën zijn, of >1 indien er meerdere (strikt meer dan één) kopieën van de betreffende cachelijn zijn in de multiprocessor. (Opmerking: Antwoorden met 1 indien >1 het correcte antwoord is wordt beschouwd als een foutief antwoord.) De kolom met als hoofding Is het geheugen up-to-date? vul je aan met ja indien het geheugen up-to-date is met de lokale kopie, neen indien het geheugen niet up-to-date is met de lokale kopie, of mogelijks niet indien het geheugen mogelijks niet up-to-date is met de lokale kopie. Toestand Aantal kopieën Is het geheugen up-to-date? Sc E Sm M 43

44 Sequentiële consistentie Beschouw een SMP bestaande uit 2 CPUs met elk een L1 D-cache en geen L2 cache. Elk van de processors heeft een out-of-order microarchitectuur die bovendien in staat is geheugenoperaties dynamisch speculatief te herordenen, maw. load bypassing is geïmplementeerd. Het systeem is sequentieel consistent maar laat toe geheugenoperaties te herordenen zolang de echte programma-afhankelijkheden gerespecteerd blijven. Beschouw nu het volgende meerdradige prorgamma: draad 0 draad 1 st A ld B st B ld A Dit programma wordt uitgevoerd op deze SMP machine, d.i. draad 0 wordt op processor 1 uitgevoerd en draad 1 wordt op processor 2 uitgevoerd. Het onderstaande tijdsverloop geeft een mogelijke uitvoering aan. Geef nu aan op deze figuur wat de extra bustrafiek is die gegenereerd werd teneinde sequentiële consistentie te garanderen: CPU 1 CPU 2 t 0 ld B t 1 t 2 ld A st B t 3 st A t 4 t 5 ld A ld A execute t 6 t 7 ld B ld B retire En vul de onderstaande tabellen in met de toestanden (M, E, S en I) voor de verschillende cachelijnen in de verschillende CPUs; veronderstel het MESI cachecoherentieprotocol. Veronderstel dat de addressen A en B in verschillende cachelijnen terecht komen in de caches. Duid ook aan welke geheugenoperaties cache misses veroorzaken. 44

45 CPU 1 CPU 2 cachelijn van A cachelijn van B cachelijn van A cachelijn van B t 0 t 1 t 2 t 3 t 4 t 5 t 6 t 7 Veronderstel nu dat de cachelijnen voor A en B conflicteren in de cache. CPU 1 CPU 2 cachelijn van A en B tag cachelijn van A en B tag t 0 t 1 t 2 t 3 t 4 t 5 t 6 t 7 Veronderstel nu dat A en B tot dezelfde cachelijn behoren. CPU 1 CPU 2 t 0 t 1 t 2 t 3 t 4 t 5 t 6 t 7 45

46 Geheugenconsistentie (1) Beschouw het volgende meerdradig programma veronderstel dat alle variabelen initieel nul zijn, en dat A en B gedeelde, en u, v, w en x lokale variabelen zijn: draad 1 draad 2 A=1; B=1; u=a; v=b; w=b; x=a; (a) Wat zijn de mogelijke uitkomsten voor (u,v,w,x) na uitvoering van dit programma op een sequentieel consistent (SC) systeem? (b) Wat zijn de mogelijke uitkomsten voor (u,v,w,x) op een systeem dat partial store ordering (PSO) implementeert? 46

47 (c) Indien er een verschil is tussen (a) en (b), hoe kan het meerdradig programma aangepast worden opdat dit programma op een PSO systeem in een sequentieel consistente uitvoering resulteert? Gebruik een minimaal aantal MEMBAR of STBAR instructies; en gebruik enkel een MEMBAR instructie indien echt nodig, maw. indien een STBAR volstaat, gebruik dan een STBAR en geen MEMBAR. 47

48 Geheugenconsistentie (2) Beschouw het volgende meerdradig programma veronderstel dat de variabelen A en B zich in gemeenschappelijk geheugen bevinden en initieel nul zijn: draad 1 draad 2 B=2; A=2; A=1; print B; print A; Dit meerdradig programma wordt uitgevoerd op UMA-multiprocessorsysteem waarbij elke draad toegewezen wordt aan een andere processor. (a) Het onderstaande tijdsverloop geeft aan welke operatie op welk tijdstip het gemeenschappelijk geheugen bereikt: A=1 t B=2 print A t print B A=2 Bij welk geheugenconsistentiemodel is deze uitvoering mogelijk? Antwoord met ja of neen. consistiemodel SC TSO PSO WO Ja/Neen (b) Welke zijn de mogelijke geprinte waarden voor A en B onder SC? Verklaar. 48

49 (c) Welke zijn de mogelijke geprinte waarden voor A en B onder TSO? Verklaar. (d) Hoe dient het meerdradig programma gewijzigd te worden opdat dit programma dezelfde waarden zou printen voor A en B onder PSO als onder SC? Verklaar. 49

50 Geheugenconsistentie (3) Beschouw het volgende meerdradig programma veronderstel dat de variabelen A, B en C zich in gemeenschappelijk geheugen bevinden en initieel nul zijn: draad 1 draad 2 draad 3 A=1; while(c==0){;} while(b==0){;} B=1; print A; C=1; print C; Dit meerdradig programma wordt uitgevoerd op UMA-multiprocessorsysteem waarbij elke draad toegewezen wordt aan een andere processor. (a) Welke waarden worden mogelijks geprint voor A en C in het geval van een SCgeheugenmodel (Sequential Consistency)? Verklaar. 50

51 (b) Welke waarden worden mogelijks geprint voor A en C in het geval van een TSOgeheugenmodel (Total Store Ordering)? Verklaar. (c) Welke waarden worden mogelijks geprint voor A en C in het geval van een PSOgeheugenmodel (Partial Store Ordering)? Verklaar. 51

52 Transactioneel geheugen Beschouw de volgende uitvoering van een tweedradig programma op een transactioneelgeheugensysteem met een optimistisch conflictdetectiesysteem. De rechthoekige blokken stellen transacties voor. print B; A=1; print A; B=1; commit t t (a) Vul het bovenstaande tijdsverloop aan. M.a.w. geef aan of de transactie van de linkerdraad uitgevoerd wordt (commit) of herstart wordt (restart). (b) Welke waarden worden geprint voor de variabelen A en B? Veronderstel dat A en B initieel 0 zijn. A: B: 52