Vergelijkende studie van objectieve kwaliteitsaspecten van videosequenties

Faculteit Toegepaste Wetenschappen Vakgroep Elektronica en Informatiesystemen Voorzitter: prof. dr. ir. J. Van Campenhout Vergelijkende studie van objectieve kwaliteitsaspecten van videosequenties door Yannick Vanden Eeckhoudt Promotor: prof. dr. ir. Rik Van de Walle Thesisbegeleider: lic. Sam Lerouge Afstudeerwerk ingediend tot het behalen van de graad van Licentiaat in de Informatica Academiejaar 2003 2004

De toelating tot bruikleen De auteur en de promotor geven de toelating deze scriptie voor consultatie beschikbaar te stellen en delen ervan te kopiëren voor persoonlijk gebruik. Elk ander gebruik valt onder de beperkingen van het auteursrecht, in het bijzonder met betrekking tot de verplichting uitdrukkelijk de bron te vermelden bij het aanhalen van resultaten uit deze scriptie. 28 mei 2004 Yannick Vanden Eeckhoudt prof. dr. ir. Rik Van de Walle i

Dankwoord Eerst en vooral wil ik mijn testpubliek bedanken. Zonder hen zou deze thesis uiteraard niet mogelijk geweest zijn: Caroline Bataille Brigitte Beck Delphine Commeene Ilse De Neef Inge De Neef Dominique De Vos Martine Denhaerynck Viki Geenens Siska Gernaey Bernadette Glorieux Ken Glorieux Nick Glorieux Patrick Glorieux Tim Glorieux Elizabeth Hantson David Schrans Ilse Van Loocke Kim Van Twembeke Sybille Vande Casteele Evi Vanden Eeckhoudt Florence Vanden Eeckhoudt Mathieu Vander Eecken Jasper Vandewalle Els Vergison Verder ook promotor prof. dr. ir. Rik Van de Walle, lic. Sam Lerouge, mijn begeleider voor deze thesis, en mijn moeder voor de financiële en morele steun. ii

Vergelijkende studie van objectieve kwaliteitsaspecten van videosequenties door Yannick Vanden Eeckhoudt Afstudeerwerk ingediend tot het behalen van de graad van Licentiaat in de Informatica Academiejaar 2003 2004 Universiteit Gent Faculteit Toegepaste Wetenschappen Vakgroep Elektronica en Informatiesystemen Voorzitter: prof. dr. ir. J. Van Campenhout Promotor: prof. dr. ir. Rik Van de Walle Thesisbegeleider: lic. Sam Lerouge Samenvatting De objectieve kwaliteitsaspecten waarvan sprake is in de titel, zijn resolutie en beeldsnelheid. Dit onderzoek kadert in de schaalbare videocodering: indien de beschikbare bandbreedte op een bepaald moment te laag is om een sequentie aan de beste kwaliteit door te sturen, kan er voor gekozen worden om de kwaliteit te verlagen. Hierdoor zal het aantal artefacten die optreden in het beeld verhogen. Het is echter relatief eenvoudig van ook de resolutie of de beeldsnelheid te verlagen, waardoor het aantal fouten in de afzonderlijke beelden aanzienlijk daalt. Ook dit kan gezien worden als een vorm van kwaliteitsverlies. In deze thesis zal onderzocht worden of er verbanden bestaan tussen die aspecten. Daarvoor werd een subjectieve test geörganiseerd. Hierin werden sequenties getoond die met een vaste bitrate werden geëncodeerd, terwijl de beeldsnelheid en resolutie varieerden. Indien niet alle gebruikers ongeveer dezelfde voorkeur vertonen, zal worden onderzocht van welke factoren hun keuze afhangt. Op die manier zou het misschien mogelijk zijn om hun keuze in te schatten aan de hand van enkele parameters. Een objectieve kwaliteitsmaat die rekening houdt met de resolutie en vooral met de beeldsnelheid bestaat nog niet, zodat men geen enkele hint heeft naar de voorkeur van de gebruiker. Trefwoorden: Framerate, resolutie, subjectieve test, schaalbare video iii

Inhoudsopgave 1 Inleiding 1 1.1 Probleemstelling............................. 1 1.2 Methodologie............................... 2 1.3 Bijgevoegde DVD............................. 3 2 Sequenties 6 2.1 Copyright notificatie........................... 6 2.2 Kleurenruimten.............................. 7 2.2.1 RGB................................ 7 2.2.2 YUV................................ 8 2.2.3 CMY................................ 8 2.3 Formaat van de sequenties........................ 9 2.4 Het zoeken naar geschikte sequenties.................. 10 2.5 Gedecodeerde sequenties......................... 12 2.5.1 City................................ 12 2.5.2 Crew................................ 13 2.5.3 Ice................................. 14 3 Upsampling 15 3.1 Inleiding.................................. 15 3.2 Techniek.................................. 16 3.3 Programma................................ 19 v

4 Subjectieve test 22 4.1 Inleiding.................................. 22 4.2 Methode.................................. 22 4.3 Overige aspecten............................. 24 4.3.1 Puntensysteem.......................... 24 4.3.2 Observatoren........................... 24 4.3.3 Testsessie............................. 25 4.3.4 Afstand tot het scherm...................... 27 4.4 Technische gegevens........................... 28 5 Inleiding tot de analyse van de resultaten 29 5.1 Herschaling van de punten........................ 29 5.2 Structuur van de volgende hoofdstukken................ 30 5.2.1 Notaties.............................. 30 6 Globale analyse 32 6.1 Resolutie.................................. 32 6.2 Beeldsnelheid............................... 33 6.3 Resolutie en beeldsnelheid........................ 34 6.4 Besluit................................... 36 7 Analyse van de resultaten van afzonderlijke observatoren 38 7.1 Kwadratische fouten........................... 38 7.2 Partitionering van de observatoren................... 39 7.2.1 Groep 1: Hoge beeldsnelheden scoren best........... 40 7.2.2 Groep 2: Hoge en lage beeldsnelheden scoren slecht...... 41 7.2.3 Groep 3: Observatoren met slechte resultaten........ 42 7.3 Besluit................................... 44 8 Conclusie 46 A Verklarende woordenlijst 48 B Lijst met afkortingen 50 Bibliografie 51 vi

Lijst van figuren 2.1 Mengsel van de basis-kleuren voor RGB................ 7 2.2 Geleidelijke RGB kleurenmenging.................... 8 2.3 Mengsel van de basis-kleuren voor CMY................ 9 2.4 Organisatie van het IYUV-formaat in het geheugen.......... 10 3.1 Upsampling................................ 16 3.2 Filtermasker voor de pixel linksboven.................. 17 3.3 Filtermasker voor de pixel boven.................... 18 3.4 Filtermasker voor de pixel links..................... 18 3.5 Uitbreiding van het beeld........................ 19 3.6 Screenshot van het programma..................... 20 6.1 Gemiddelde waarderingen per sequentie en conditie, naar stijgende punten................................... 35 6.2 Gemiddelde waarderingen per sequentie en conditie, naar dalende resolutie................................... 36 6.3 Gemiddelde waarderingen per sequentie en conditie, naar dalende beeldsnelheid............................... 37 7.1 Hoge beeldsnelheden scoren best..................... 40 7.2 Hoge en lage beeldsnelheden scoren slecht............... 42 7.3 Slechte resultaten............................ 43 vii

Lijst van tabellen 2.1 Eigenaars van de sequenties......................... 6 2.2 Dimensies en framerate van de gebruikte city-sequenties.......... 13 2.3 Dimensies en framerate van de gebruikte crew-sequenties.......... 14 2.4 Dimensies en framerate van de gebruikte ice-sequenties........... 14 4.1 PVD in functie van de hoogte van het scherm................ 27 4.2 Technische gegevens van de monitor..................... 28 6.1 Gemiddelde van de waarderingen voor verlaagde resolutie.......... 32 6.2 Gemiddelde van de waarderingen voor verlaagde resolutie per sequentie.. 33 6.3 Gemiddelde van de waarderingen voor verlaagde beeldsnelheid....... 33 6.4 Gemiddelde van de waarderingen voor verlaagde beeldsnelheid per sequentie. 34 7.1 Kwadratische fouten per observator..................... 39 7.2 Kwadratische fouten per observator in groep 1............... 41 7.3 Kwadratische fouten per observator in groep 2............... 43 viii

Hoofdstuk 1 Inleiding 1.1 Probleemstelling De laatste jaren is het gebruik van het internet sterk toegenomen. Zeker met de opkomst van breedband internetverbindingen is er nood gekomen naar streaming video 1. Een interessant aspect hierin is de schaalbaarheid. Een sequentie die wordt opgevraagd op een computer met breedbandverbinding kan meestal aan volledige kwaliteit worden weergegeven. Indien diezelfde sequentie wordt opgevraagd op een handheld met een veel kleiner scherm is het wenselijk dat een sequentie wordt doorgestuurd met lagere resolutie. Op deze manier zal er niet onnodig bandbreedte gebruikt worden, om informatie te verkrijgen die dan toch niet gebruikt wordt. Anderzijds wil men op de server liever niet voor elke sequentie meerdere verschillende formaten ter beschikking stellen. Schaalbare codering maakt dit mogelijk. Men stelt één gecodeerde versie ter beschikking, die dan eenvoudig kan aangepast worden om tot een versie te komen met een verlaagde bitrate en eventueel ook verlaagde resolutie of beeldsnelheid. Hoe meer de bitrate verlaagd wordt, hoe meer fouten er zichtbaar zullen worden in het beeld. Maar wat als men wel een scherm heeft waarop de sequentie in volledige resolutie kan getoond worden, maar de verbinding niet genoeg bandbreedte biedt om de originele bitrate te behouden? In dit afstudeerwerk wordt onderzocht of het mogelijk is in te schatten welke keuze de gebruikers zullen maken: de resolutie en/of framerate verlagen (terwijl de 1 Een verklarende woordenlijst van sommige van de meer technische benamingen kunt u vinden in appendix A 1

kwaliteit van de afzonderlijke beelden relatief hoog blijft) of de sequentie toch met de originele parameters bekijken, maar aan verlaagde bitrate (en dus sterk verlaagde kwaliteit). Dit werd gedaan aan de hand van een subjectieve test. Uit de resultaten werden conclusies afgeleid met betrekking tot de voorkeur van de gebruiker. Zo werd gecontroleerd of gebruikers prefereren dat eerst de resolutie wordt verlaagd, vervolgens de framerate, dan weer de resolutie, enz. of dat ze liever hebben dat de resolutie bijvoorbeeld enkele keren wordt verlaagd voordat het andere aspect wordt aangepast. Het zal tevens blijken dat dit verband gebruikersafhankelijk is. Er werd dan nagegaan of een gebruiker steeds dezelfde keuze maakt, onafhankelijk van het soort sequentie dat werd gepresenteerd. Op die manier zou het eventueel mogelijk zijn van één maal aan de gebruiker zijn voorkeur te vragen, en dit toe te passen op elke sequentie die hij/zij 2 opvraagt. 1.2 Methodologie Om het beoogde doel te bekomen, was het noodzakelijk een subjectieve test te organiseren. De observatoren krijgen enkele sequenties te zien, die met verschillende parameters gedecodeerd werden. Er werd uitgegaan van drie verschillende sequenties, met uiteenlopende eigenschappen. Elk van deze is dan enkele keren gedecodeerd, telkens aan dezelfde bitrate, maar aan verschillende beeldsnelheden en met verschillende resoluties. De gebruiker weet in principe niet welke aspecten werden aangepast. Welke sequenties en welke resolutie-beeldsnelheid paren gebruikt werden, kunt u nalezen in hoofdstuk 2. De observatoren worden dan gevraagd aan elke getoonde sequentie een waardering toe te kennen. Meer informatie over de subjectieve test en de opstelling ervan is te vinden in hoofdstuk 4. Uiteraard worden de resultaten van de test dan geanalyseerd en worden er conclusies uit getrokken. Deze besluiten en de manier waarop ze bekomen zijn kunt u lezen in hoofdstukken 5, 6 en 7. Dit eerste hoofdstuk geeft een inleiding. Hierin zijn enkele punten aangehaald, die nodig zijn om de volgende hoofdstukken goed te kunnen volgen. Hoofdstuk 6 geeft een globale analyse. Er wordt nog geen rekening gehouden met de waarderingen van afzonderlijke observatoren. Hoofdstuk 7 verfijnt deze analyse, door te gaan onderzoeken of de globale resultaten opgaan voor alle gebruikers. In hoofdstuk 8 2 In de rest van deze tekst zal ik gemakkelijkheidshalve een gebruiker steeds aanduiden als zijnde mannelijk. 2

ten slotte wordt een conclusie geformuleerd voor dit werk en worden enkele aanwijzingen gegeven naar werk dat in de toekomst nog zou kunnen uitgevoerd worden met betrekking tot dit onderwerp. 1.3 Bijgevoegde DVD Bij deze thesis hoort ook een DVD. Wat hierop allemaal terug te vinden is, leest u in dit onderdeel. De tekst is even goed te lezen zonder de DVD te bekijken en is dus verre van een noodzaak. Enkele van de delen zullen misschien wel makkelijker te begrijpen zijn, als de sequenties op voorhand eens bekeken worden, zodat men een idee heeft over het soort artefacten die kunnen optreden. Hieronder staat een overzicht van de inhoud van de DVD, met een korte uitleg over enkele van de bestanden. Software Codecs PSNR YUV - 3dsbcde.exe: de decoder, die deel uitmaakt van de Woods-codec. - 3dsbcen.exe: de encoder. Deze neemt als input een parameterbestand. Een voorbeeld van zo n bestand kunt u ook in deze map terugvinden, onder de naam foreman.par. Aangezien het encoderen heel traag gaat, in het bijzonder voor grote sequenties, staan er op de DVD ook reeds enkele geëncodeerde sequenties. Zie daarvoor naar de uitleg over de map Videosequenties. - pull.exe: hiermee kan men de bitrate van een stroom verlagen - psnr mmlab.exe: programma om de PSNR te berekenen tussen 2 sequenties. bijlage A. Voor meer uitleg betreffende PSNR, verwijs ik door naar In deze map staan alle bronbestanden van YUV.jar. Het hoofdprogramma bevind zich in GUI.java. Deze bestanden zijn niet noodzakelijk, aangezien alles in het jar-bestandje zit, dat tevens uitvoerbaar is. 3

- YUV.jar: Als java juist geïnstalleerd is op het systeem, zou dit programma automatisch moeten starten als er op gedubbelklikt wordt. Een andere mogelijkheid is van in het commandoprompt in de juiste map javaw -jar YUV.jar in te typen. De werking van dit programma wordt beschreven in hoofdstuk 3. - YUVviewer.exe: programma waarmee men YUV-bestanden kan afspelen [3] Verwerking gegevens - Observatoren.xls: een rekenblad waarin de punten van de gebruikers worden onderzocht. - Sequentie & condities.xls: een analyse van de gemiddelde punten die de verschillende condities krijgen per sequentie. Condities betekent hier de beeldsnelheid en de resolutie, en hoe veel maal elk van deze verlaagd werden. - Verwerking gegevens.mdb: deze databank bevat tabellen met alle gegevens over het testpubliek, de gegeven waarderingen, de gebruikte sequenties, enz. Overigens vindt u hier ook een hoop query s in terug. Meestal berekenen die gemiddelden, gegoepeerd op verschillende parameters. Videosequenties City DOWNSAMPLED In deze map vindt u city-sequenties in alle vormen die gebruikt werden voor deze thesis. De reden waarom het de naam DOWNSAMPLED meekrijgt wordt later in deze tekst nog uitgelegd. In deze map zelf vindt u eerst en vooral de originele sequentie terug. In de onderliggende map City DOWNSAMPLED DECODED vindt men alle sequenties terug die gebruikt werden bij de subjectieve test. In City DOWNSAMPLED ENCODED bevindt zich de geëncodeerde sequentie. Dit is dus in de vorm van een schaalbare bitstroom. Crew DOWNSAMPLED & Ice DOWNSAMPLED Test1 De inhoud van deze mappen zijn analoog aan die van City. Alle sequenties zoals ze getoond werden in de subjectieve test. Wegens plaatsgebrek kon alleen de eerste presentatie van de eerste testvolgorde opgeslagen worden. In de andere presentaties worden echter dezelfde sequenties getoond, maar in een andere volgorde. 4

- FOREMAN 352x288 30.yuv & MOBILE 352x240 30.yuv: hoewel deze sequenties niet gebruikt worden in de subjectieve test, werden ze hier toch bijgevoegd, omdat beide worden gebruikt bij de analyse van de upsamplingfilters. Afdrukbare thesis.pdf De pdf-versie van deze tekst. De verwijzingen in de inhoudstafel en naar de figuren en tabellen in de tekst zijn hierbij niet in het rood. Ook bookmarks vindt men in deze versie niet. Deze is dus beter geschikt voor het afdrukken, dan Thesis.pdf. Vergelijking filters.xls Hierin staan de resultaten van de analyse van de verschillende upsamplingfilters. Hoe de verschillende filters geïmplementeerd werden, vindt u terug in hoofdstuk 3. Het verloop van de gemiddelde PSNR-waarden en de PSNRwaarden van de afzonderlijke YUV-componenten, werden uitgezet in grafieken. Thesis.pdf De pdf-versie van deze tekst. Hierin zijn verwijzingen wel rood en klikbaar, zodat men meteen naar de juiste plaats in het document kan springen. De links voor de voetnoten werken jammergenoeg niet. Deze versie is best geschikt voor weergave op de computer. 5

Hoofdstuk 2 Sequenties 2.1 Copyright notificatie Personen en organisaties die deze sequenties gebruiken, gaan ermee akkoord dat de sequenties en al hun intellectuele eigendomsrechten in het bezit blijven van de respectievelijke eigenaars, weergegeven in tabel 2.1. Deze materialen mogen enkel worden gebruikt met het oog op ontwikkeling, het testen en de ontwikkeling van technologische standaarden. De respectievelijke eigenaars stellen zich niet garant voor de materialen en verwerpen uitdrukkelijk elke garantie met betrekking tot de bruikbaarheid voor eender welk doel. City Crew Harbour Ice ABC NASA Demografx ABC Tabel 2.1: Eigenaars van de sequenties. 6

2.2 Kleurenruimten 2.2.1 RGB Wij mensen zien kleuren omdat er in ons ogen drie soorten kegeltjes zitten die elk reageren op licht met een bepaalde golflengte. Deze golflengtes komen ongeveer overeen met de kleuren rood, groen en blauw. Het is dus mogelijk van alle kleuren die wij kunnen waarnemen, te reproduceren door een combinatie te maken van deze drie kleuren. Dit is dan ook meteen de manier waarop de RGB-kleurenruimte werkt. Deze werkwijze noemt men additief, omdat men de bijdragen van de kleuren optelt. Aan elke kleur wordt een intensiteit toegekend, gaande van 0 tot 100%. In computertermen betekent dit dat elke intensiteit wordt opgeslagen in een byte, gaande van 00000000 tot 11111111 of iets leesbaarder: van 0 tot 255. Deze kleurenruimte wordt heel veel gebruikt in computertoepassingen omdat monitors op deze manier werken. Het scherm bestaan uit duizenden kleine rode, groene en blauwe fosfordeeltjes. Als men deze elektronisch gaat activeren, stralen ze een gekleurd licht uit. Met de combinatie van deze kleuren kan men dus alle kleuren maken. De deeltjes liggen zo dicht bijeen dat men ze niet afzonderlijk kan waarnemen. In figuur 2.1 ziet u welke kleuren men bekomt als de basiskleuren worden gemengd. Rood en groen geven geel, groen en blauw resulteren in cyaan en magenta bekomt men door rood en blauw te mengen. De som van de drie kleuren geeft wit. Figuur 2.1: Mengsel van de basis-kleuren voor RGB Figuur 2.2 toont de resultaten van een meer geleidelijke kleurmenging. In de linker-onderhoek van de driehoek is de intensiteit van rood maximaal. Hoe meer men 7

zich naar rechts of naar boven verplaatst, hoe kleiner de bijdrage wordt. Analoog voor het blauw in de top en voor het groen in de rechter-onderhoek. Figuur 2.2: Geleidelijke RGB kleurenmenging 2.2.2 YUV Deze ruimte is een alternatief voor de standaard RGB-kleuren. Beide ruimten zijn evenwaardig. Alle kleuren die in de ene ruimte kunnen voorgesteld worden, kunnen ook in de andere worden voorgesteld. Hierbij staat de Y-component voor de luminantie of de helderheid. De U- en V-componenten zorgen voor de chrominantie of de kleur. Men noemt de U-component ook wel Cb, omdat deze zorgt voor de blauwe kleur in het beeld, terwijl de V-component ook gekend is als Cr, omdat deze voor de rode kleur verantwoordelijk is. Het is relatief eenvoudig van de coördinaten van de ene kleurenruimte naar de andere te converteren. Men moet hiervoor wel gebruik maken van kommagetallen, waardoor men onvermijdelijk kleine afrondingsfouten maakt. 2.2.3 CMY Voor de volledigheid wordt nog vermeld dat er naast de additieve kleurenruimten ook substractieve bestaan. Deze techniekt krijgt ook de naam CMY, naar de basiskleuren cyaan, magenta en geel (yellow). Toepassingen hiervan zijn bijvoorbeeld printers. Eenvoudig gesteld kan het worden vergeleken met een zonnebril: er wordt een deel van het licht tegengehouden. Dit is een heel natuurlijke aanpak: een object op zich heeft geen kleur, het zendt geen kleur uit. Men neemt kleur waar als er (wit) 8

zonlicht op valt. Het object kaatst een deel van het licht terug, en een ander deel wordt geabsorbeerd. Het licht wordt dus als het ware gefilterd. Als wij iets als zwart waarnemen, betekent dit eigenlijk dat alle kleuren worden geabsorbeerd. Figuur 2.3 biedt hier een grafische representatie van. Figuur 2.3: Mengsel van de basis-kleuren voor CMY 2.3 Formaat van de sequenties Alle sequenties zijn geëncodeerd in de YUV-kleurenruimte. Een groot voordeel van deze kleurenruimte is dat men makkelijk een bestand kan gaan comprimeren. Uit onderzoek is namelijk gebleken dat het menselijke oog veel gevoeliger is voor helderheid dan voor kleur. Hierdoor kan men beelden in de YUV-kleurenruimte comprimeren (met verlies) door voor elke pixel een luminantie-component op te slaan, terwijl men slechts één U- en V-component opslaat voor een groep pixels, bijvoorbeeld 2 of 4. Het formaat dat in deze thesis gebruikt wordt, is het IYUV-formaat, ook gekend onder de naam I420 [2]. Een voorstelling van hoe dit formaat wordt opgeslagen ziet u in figuur 2.4. IYUV is een planair formaat van het type 4:2:0. Uit het woord planair volgt dat men eerst alle Y-componenten van een frame opslaat, vervolgens alle U-componenten en uiteindelijk de V-componenten. Er bestaan ook packed formaten, waarbij samenhorende luminantie- en chrominantiewaarden ook dicht bij elkaar worden opgeslagen. 4:2:0 duidt op het feit dat men voor elke pixel één Y-component opslaat, maar voor elke groep van 4 pixels slechts een U- en een V-component. In IYUV vindt men dus eerst een array van tekenloze bytes, die de Y-component bevatten. Als men veronderstelt dat de sequentie een breedte M heeft en een hoogte N, 9

dan zal die array (M * N) groot zijn. Vervolgens bevat het bestand een array met de U-componenten en dan een array met de V-componenten. Beide arrays hebben een grootte van (M/2 * N/2). In dit formaat wordt dus voor elke pixel slecht anderhalve byte gebruikt, terwijl de RGB-kleurenmode 3 bytes per pixel vereist. Figuur 2.4: Organisatie van het IYUV-formaat in het geheugen 2.4 Het zoeken naar geschikte sequenties Een belangrijk deel van deze thesis, was het zoeken naar geschikte sequenties. Er moest voor zo veel mogelijk variatie gezorgd worden: beelden met veel en weinig beweging, kleur, detail, enz. De aard van het te onderzoeken probleem legt een grote beperking op het aantal sequenties dat kan worden getoond, waardoor de keuze nog 10

belangrijker wordt. Van elke sequentie moeten immers verschillende versies worden getoond, met verschillende resoluties en beeldsnelheden. Bovendien was er nood aan beelden met hoge resolutie en beeldsnelheid. Veel van de gevonden beelden hadden een resolutie van 352 x 288 (het zogenaamde CIF-formaat) en 30 fps 1. Men kan hiervan de resolutie echter slechts één maal verkleinen. De sequenties die te vinden zijn op de FTP-site van de VQEG [8] hebben wel een hogere resolutie (720 x 486), maar tonen slechts 25 beelden per seconde en de meeste zijn interleaved. Uiteindelijk werden er dan toch enkele sequenties gevonden die een resolutie hebben van 704 x 576 en een beeldsnelheid van 60 fps [7]. In de test zal een aangepaste versie van die van deze vier sequenties gebruikt worden, met name van de city-, crew- en ice-sequentie. De inhoud van laatstgenoemde sequenties vertonen verschillende eigenschappen: De sequentie City toont de horizon van New York vanuit een helikopter. Op de voorgrond staat The Empire State Building, die steeds ongeveer in het midden van het beeld blijft. De helikopter cirkelt rond het gebouw, waardoor de achtergrond traag voorbij schuift. Af en toe schommelt het beeld ook, door beweging van de camera. Het beeld bevat heel wat detail, zoals de ruiten van de gebouwen op de achtergrond. De Crew-sequentie toont een stel astronauten, die voorbij wandelen. Het interessante aan deze sequentie is dat er af en toe flitsen te zien zijn van fototoestellen. Bij het encoderen geeft dit neveneffecten: de kwaliteit gaat enorm schommelen. Men kan dus opmerken dat sommige frames heel geblokt zijn als de bitrate laag gehouden wordt. In de Ice-sequentie krijgt men schaatsers te zien. Zowel de beweging als de kleurvariatie in deze sequentie is redelijk groot. Uiteraard toont de Harbour-sequentie een haven. Op de voorgrond ziet men een hoop masten. Aan deze hangen ook koorden, waardoor men redelijk veel detail krijgt. De masten blijven de hele sequentie ongeveer staan. De camera is heel onstabiel, waardoor het beeld (vooral in het begin) licht van links naar rechts schommelt. Op de achtergrond varen er wat boten voorbij en vliegen er enkele meeuwen. De beweging is traag, dus redelijk beperkt. 1 fps = beelden per seconde = frames per second 11

De sequenties city en crew bestaan beide uit 600 frames en duren bijgevolg 10 seconden. De ice-sequentie toont 480 frames en duurt dus slechts 8 seconden. Deze zijn dan eerst verkleind 2 naar 2 sequenties van 352 x 288 en 60 fps (ice en crew) en naar een sequentie van 704 x 576 en 30 fps (city). Hiervoor zijn 2 redenen. Ten eerste kunnen grote sequenties niet vlot worden afgespeeld op een laptop. De eerste keer dat ze worden getoond schokken ze heel erg en lopen ze te traag. Op een gewone desktop worden de sequenties wel vlot afgespeeld van de eerste keer. De subjectieve tests uitvoeren met een desktop zou echter te moeilijk zijn. De tweede reden is dat de encoder fouten geeft, als men tracht sequenties van 704 x 576 te encoderen, die langer zijn dan 296 frames. Daarom heb ik er voor gekozen van slechts de eerste 296 frames (van de 300) van de city-sequentie te gebruiken. 2.5 Gedecodeerde sequenties Om een sequentie te encoderen moet men deze eerst opsplitsen in aparte frames. Vervolgens maakt men een parameterbestand aan, waarin alle opties (zoals de inputen outputbestanden) gespecificeerd worden. De encoder en een voorbeeld van een parameterbestand kan u terugvinden op de DVD. Na het encoderen bekomt men een schaalbare bitstroom. Er kunnen dan bits worden onttrokken aan deze stroom om een nieuwe bitstroom te bekomen, met verlaagde bitrate en eventueel ook verlaagde resolutie en beeldsnelheid. Dit werd voor elke sequentie gedaan voor verschillende combinaties van deze parameters. De nieuwe bitstroom wordt dan gedecodeerd om terug een YUV-bestand te bekomen, dat dan ook afgespeeld kan worden. 2.5.1 City Voor de city-sequentie werd er voor gekozen zowel de resolutie als de beeldsnelheid tot 2 keer te verlagen. Dit houdt in dat de resolutie in enkele beelden gelijk is aan de resolutie van het origineel, in andere is zowel de breedte als de hoogte gehalveerd en in nog andere zijn de breedte en de hoogte gedeeld door vier. En uiteraard analoog voor de beeldsnelheid. Wat de resolutie betreft: deze kon niet meer worden 2 Verkleind neem ik hier als een verzamelwoord voor verkleind in de spatiale en/of temporele dimensie. Verkleind in de spatiale dimensie = de resolutie verlaagd = de hoogte en de breedte gehalveerd. Verkleind in de temporele dimensie = de framerate gehalveerd. 12

verlaagd. Het lijkt mij trouwens toch niet nuttig van een sequentie van 88 x 72 te gaan betrekken in de subjectieve test, aangezien deze veel te wazig zijn ten opzichte van de originele sequenties. Als men de city-sequentie bekijkt aan 7,5 fps, dan komt het beeld allerminst vloeiend over. Vandaar dat beslist werd van de beeldsnelheid niet nog meer te verlagen. Uiteindelijk resulteerde dit na decodering dus in 9 sequenties per gekozen bitrate. Tabel 2.2 toont een overzicht van de bekomen resolutie beeldsnelheid-paren. Er werd gekozen om de sequenties aan 300 kbps 3 te gaan gebruiken, omdat de beelden aan de laagste resolutie en beeldsnelheid nauwelijks nog verbeteren indien men de bitrate verder verhoogt. 704 x 576 30 fps 704 x 576 15 fps 704 x 576 7,5 fps 352 x 288 30 fps 352 x 288 15 fps 352 x 288 7,5 fps 176 x 144 30 fps 176 x 144 15 fps 176 x 144 7,5 fps Tabel 2.2: Dimensies en framerate van de gebruikte city-sequenties. 2.5.2 Crew De crew-sequentie stond, zoals gezegd in 2.4, in 352 x 288. Hier was het dus maar mogelijk van de resolutie een maal te verlagen. Daartegenover staat dan wel dat de sequentie 60 beelden per seconde kan tonen. En aangezien er niet zo veel beweging in zit, is 7,5 frames per seconde nog ruimschoots genoeg om een aanvaardbaar resultaat te bekomen. Dit brengt ons dus op een totaal van nog eens 8 sequenties, weergegeven in tabel 2.3. Hier werd er voor gekozen om de bitrate iets hoger te houden, nl. 400 kbps. Zoals reeds vermeld werd, is de reden hiervoor dat er heel grote schommelingen zitten in het gedecodeerde beeld. Vermoedelijk is dit het gevolg van de flitsen van foto s die men regelmatig op het scherm ziet verschijnen. Bij 176 x 144 en aan 7,5 fps is deze schommeling al niet meer zo groot. Bij de sequenties waar de 3 kbps = kilobits/seconde 13

beeldsnelheid en/of resolutie minder verlaagd werden is dit wel nog heel duidelijk. 352 x 288 60 fps 352 x 288 30 fps 352 x 288 15 fps 352 x 288 7,5 fps 176 x 144 60 fps 176 x 144 30 fps 176 x 144 15 fps 176 x 144 7,5 fps Tabel 2.3: Dimensies en framerate van de gebruikte crew-sequenties. 2.5.3 Ice Ook bij de ice-sequentie kon de resolutie slechts een keer verlaagd worden. In deze sequentie zit er bovendien nogal veel beweging. Deze bekijken aan 7,5 fps is bijgevolg te storend en niet goed genoeg om in de test te betrekken. Zelfs aan 15 fps schokt het beeld al redelijk erg. Hierdoor bekomen we nog eens 6 sequenties, en wel die weergegeven in tabel 2.4. Door de hoeveelheid aan beweging treden er artefacten op rond de personen. Ze laten soms een spoor van enkele pixels achter en ook in de richting van de beweging ziet men hier en daar gelijkaardige fouten. Daarom werden de sequenties aan 300 kbps gekozen. Daarbij zijn er nauwelijks nog artefacten op de laagste resolutie en framerate. Hoe hoger men de framerate en de resolutie maakt, hoe meer fouten er optreden. 352 x 288 60 fps 352 x 288 30 fps 352 x 288 15 fps 176 x 144 60 fps 176 x 144 30 fps 176 x 144 15 fps Tabel 2.4: Dimensies en framerate van de gebruikte ice-sequenties. 14

Hoofdstuk 3 Upsampling 3.1 Inleiding Tijdens de subjectieve test kregen de observatoren een aantal testsequenties te zien. Deze sequenties werden bekomen door aan een schaalbare bitstroom bits te onttrekken. Er werd bij een vaste bitrate steeds aan de volledige resolutie gedecodeerd, maar ook aan verlaagde resolutie. Hierdoor bekwamen we een hoop sequenties met verschillende resoluties. Deze kunnen niet zo worden getoond aan de observatoren en dit om verschillende redenen. Ten eerste is het moeilijk om een objectieve waardering toe te kennen aan twee beelden die niet dezelfde grootte hebben. Bovendien zou het een te grote aanwijzing zijn voor het publiek hoe de sequenties bekomen zijn. Dit is duidelijk te vermijden. Een derde reden is dat de afstand tot het scherm te sterk varieert als men met verschillende resoluties werkt. Aan de voorwaarden met betrekking tot de afstand tot het scherm kan zelfs met upsampling niet worden voldaan, aangezien de gebruikte city-sequentie een resolutie van 704 x 576 heeft, terwijl de iceen crew-sequenties de afmetingen 352 x 288 hebben. De laatste reden volgt uit de uiteenzetting in hoofdstuk 4. Er was dus nood aan een filter om de sequenties te upsamplen. Het grootste nadeel hiervan is dat de resultaten van de subjectieve test ook zullen beïnvloed worden door de prestaties van die filter. Dit is echter een noodzakelijk kwaad. 15

3.2 Techniek Om een sequentie te upsamplen moet men zowel de hoogte als de breedte verdubbelen. Men bekomt dus voor elke pixel in het originele beeld 4 nieuwe pixels. Een van de originele pixels kan gewoon worden gekopieerd. Hier werd er voor gekozen telkens te kopiëren naar de rechter onderpixel van deze vier nieuwe. Figuur 3.1 biedt hiervan een grafische voorstelling. De overige 3 pixels moeten zo goed mogelijk worden geschat, rekening houdend met de pixels uit het originele beeld. Deze pixels liggen links, linksboven en boven de gekopieerde pixel en vanaf nu zal ik die ook zo aanduiden. Figuur 3.1: Links het originele beeld, rechts het geupsamplede, waarbij de witte pixels gekopieerd werden uit het originele beeld en de grijze nog moeten worden ingevuld. Om de waarde van een pixel te kunnen schatten, zullen we rekening houden met de omliggende pixels. Op deze passen we dan een filtermasker toe. Voor elk van de 3 gevallen wordt een ander masker gebruikt, teneinde de symmetrie te bewaren. De waarde van elke pixel binnen het bereik wordt vermenigvuldigd met de overeenkomstige waarde in het masker. Vervolgens worden al deze producten gesommeerd. Deze som wordt dan gedeeld door de som van alle waarden in het filtermasker. Men bekomt dus op deze manier een gewogen gemiddelde van de omliggende pixels. Aangezien er in het masker ook negatieve waarden voorkomen is het niet zeker dat dit resultaat in het interval [0,255] ligt. Bovendien zal meestal geen natuurlijk getal bekomen worden. Daarom wordt elke bekomen waarde afgerond, naar het dichtste geheel getal, dat tussen 0 en 255 ligt, grenzen inbegrepen. Deze werkwijze kan zowel voor de Y- als voor de U- en V-componenten toegepast worden. 16

De waarden in de filter voor de verschillende gevallen ziet u in figuur 3.2, figuur 3.3 en figuur 3.4. Hierop is de zwarte pixel diegene waarvan de waarde moet worden geschat. Alleen de donkergrijze pixels worden in rekening gebracht bij het filteren. De weergegeven waarden werden experimenteel vastgesteld: enkele sequenties werden verkleind en dan weer vergroot met verschillende waarden voor het masker. Het masker dat globaal de beste resultaten vertoonde werd verder gebruikt. Om het kwaliteitsverlies tussen de sequenties te meten werden de PSNR 1 -waarden van de frames berekend. Figuur 3.2: Filtermasker voor de pixel linksboven Dan rest enkel nog de vraag wat er wordt gedaan aan de rand van de afbeelding. Men kan verschillende technieken gebruiken. Zo zou men bijvoorbeeld nul kunnen nemen voor de pixels die buiten het beeld vallen. Een beter oplossing is het beeld uit te breiden. De pixelwaarden die voorbij de beeldrand liggen worden dan gewoon gedupliceerd, zoals geïllustreerd in figuur 3.5. Een derde mogelijkheid is van de pixels te gebruiken die aan de andere zijde van het beeld liggen. Op deze manier legt men als het ware dezelfde afbeelding rondom rond de te vergroten afbeelding. Hoewel deze techniek ook soms toegepast wordt, heeft het te veel nadelen om hier echt bruikbaar te zijn. 1 Peak Signal to Noise Ratio 17

Figuur 3.3: Filtermasker voor de pixel boven Figuur 3.4: Filtermasker voor de pixel links Opmerking Doordat we een van de pixels hebben gekopieerd en de andere geschat, is er in het uitgangsbeeld een halve fase-shift opgetreden naar rechts en naar onder. Dit houdt bijvoorbeeld in dat, als men een sequentie eerst downsamplet en dan terug upsamplet, men een sequentie bekomt die een halve rij lager ligt en een halve pixel naar rechts verschoven is ten opzichte van de originele sequentie. De reden hiervoor is dat bij de downsampling steeds het gemiddelde genomen wordt van 4 pixels om de overeenkomstige pixel in het (kleinere) uitgangsbeeld te bekomen. Men zou dit 18

Figuur 3.5: Uitbreiding van het beeld probleem op verschillende manieren kunnen verhelpen. Bij het upsamplen zouden we bijvoorbeeld geen enkele pixel kunnen kopiëren, maar zouden we ze alle vier moeten schatten. Een andere mogelijkheid is het downsamplen aan te passen: in plaats van het gemiddelde te berekenen van de pixels, zou men de pixel rechtsonder kunnen kopiëren en de andere drie verwijderen. Laatstgenoemde oplossing lijkt mij echter geen goed idee, aangezien er op die manier te veel informatie verloren gaat. 3.3 Programma Bovenstaand procédé werd geprogrammeerd in java. Aangezien het heel frequent gebruikt werd, biedt dit programma een GUI aan. Figuur 3.6 toont een screenshot. Het eerste dat men doet bij gebruik, is een sequentie laden. Vervolgens geeft men de dimensies van de input in en eventueel kan men ook de framerate geven. Dit laatste is optioneel, want de output is onafhankelijk van de beeldsnelheid. Dit is dus louter ter controle van de instellingen. Voor details over de implementatie, wordt verwezen naar de commentaar in de broncode. De mogelijkheden van dit programma zijn: Converteren van het UYVU-formaat naar het IYUV-formaat. Dit was nuttig omdat alle sequenties die aangeboden worden door de VQEG [8], zo opgeslagen zijn. De input verkleinen of downsamplen. Men kan het programma ook vragen dit meerdere keren te doen. 19

Figuur 3.6: Screenshot van het programma De input vergroten of upsamplen. Hier kan men verschillende methoden gebruiken. Dit is vooral ter vergelijking van de verschillende filters: Dichtste buur: de pixels worden verdubbeld, zowel horizontaal als verticaal Gemiddelde: een van de pixels wordt gekopieerd (de linker-onderpixel) en van de andere wordt het gemiddelde genomen van de omliggende pixels (2 of 4 afhankelijk van de plaats) Goede filter: eigen implementatie van een reeds bestaande filter. Hier wordt eerst horizontaal uitgebreid. Het bekomen beeld wordt dan pas verticaal vergroot. Beste filter: de implementatie van de filter, zoals beschreven in 3.2 De framerate verhogen of verlagen. Hier staat een negatief getal voor het verlagen van de beeldsnelheid. Bij het verhogen worden de opeenvolgende frames meerdere keren uitgeschreven, en bij het verlagen worden de niet-gebruikte frames verwijderd. 20

Tot slot moet men enkel nog een naam geven voor de output en op de GO!-knop klikken. Men kan de vooruitgang volgen op het balkje dat verschijnt. Het is ook mogelijk de verwerking af te breken. Als men dit doet, dan werkt het programma de huidige frame af en schrijft die uit alvorens te stoppen. Zo bekomt men toch een consistente sequentie, die weliswaar niet de juiste lengte heeft. 21

Hoofdstuk 4 Subjectieve test 4.1 Inleiding Teneinde het beoogde doel te bekomen, was het noodzakelijk van een subjectieve test te organiseren. In zo n test, die niet langer mag duren dan 30 minuten, worden aan een publiek enkele sequenties getoond. Aan elke sequentie moet de observator dan een waardering toekennen. Hoe hoger de score, hoe hoger de observator de kwaliteit van de getoonde sequentie vindt. Hoe de sequenties worden getoond (volgorde, aantal maal,... ) hangt af van de gebruikte methode. Ook voor het puntensysteem zijn meerdere mogelijkheden. In [1] worden enkele richtlijnen geschetst waaraan een subjectieve test zou moeten voldoen. Aan veel van deze voorwaarden kon niet worden voldaan in zo n kleinschalige test. Uiteraard werd er wel met zo veel mogelijk rekening gehouden. Dit hoofdstuk zal enkele van deze punten dan ook behandelen. 4.2 Methode Uit de methoden die vooropgesteld zijn door de ITU-R, werd de Single Stimulus with Multiple Repetition -methode geselecteerd (of afgekort SSMR). Voor andere methoden wordt doorverwezen naar [1]. De testsessie wordt, zoals bij alle methodes, ingeleid door een uitleg over het verloop van de test. Vervolgens worden 3 trainingssequenties getoond zodat de observatoren een idee krijgen van wat ze te zien zullen krijgen. Deze sequenties zijn er 22

geen die gebruikt worden in de subjectieve test, maar wel van vergelijkbare kwaliteit. Concreet betekent dit dat de drie sequenties werden getoond, maar geëncodeerd aan een andere bitrate dan die die werden gebruikt bij de test zelf. Tijdens het afspelen van deze sequenties wordt wat meer uitleg gegeven over het soort kwaliteitsverlies men te zien zal krijgen: er wordt gezegd dat sommige sequenties heel wazig kunnen zijn, dat er bij anderen fouten kunnen optreden (geblokte beelden, wazige delen,... ) en dat sommige sequenties niet erg vloeiend overkomen en dat dit niet ligt aan de computer waar ze op worden weergegeven. Men zou anders immers kunnen denken dat het schokken veroorzaakt wordt doordat de computer de sequenties niet snel genoeg kan laden, terwijl de verlaagde framerate de oorzaak is. Men kan dan reeds punten geven op die sequenties. Er is dan ook een mogelijkheid tot het stellen van vragen. De rest van de testsessie is bij deze methode onderverdeeld in 3 presentaties. In elke van de presentaties worden alle sequenties een maal getoond in een willekeurige volgorde. Willekeurig moet hier wel met een korreltje zout genomen worden, want de sequenties moeten wel aan enkele voorwaarden voldoen: in twee presentaties staan geen twee dezelfde sequenties op dezelfde plaats en staat geen sequentie op de plaats achter of voor de plaats van overeenkomstige sequentie in de andere presentatie. In dit geval voldoen de sequenties trouwens nog aan een derde voorwaarde: opeenvolgende sequenties tonen steeds een andere inhoud. Dit wil zeggen dat bijvoorbeeld nooit twee ice-sequenties na elkaar geplaatst zijn, binnen een presentatie. Om de resultaten nog minder afhankelijk te maken van de volgorde waarin de sequenties worden getoond, werd er voor gekozen met twee verschillende volgordes te werken. Ongeveer de helft van de observatoren kreeg de filmpjes in een bepaalde volgorde, de andere helft kreeg een andere volgorde. Elke sequentie duurt ongeveer 10 seconden, waarna ongeveer 5 seconden egaal grijs 1 wordt getoond, tijdens dewelke de observatoren punten kunnen geven. De resultaten uit de eerste presentatie worden niet gebruikt. Het doel van deze presentatie is immers van de opinie van de observatoren te stabiliseren. Het testpubliek werd hiervan niet vooraf op de hoogte van gesteld. Van de resultaten uit de twee andere presentaties wordt het gemiddelde genomen. Normaalgezien worden dan alleen die gemiddelden nog gebruikt in de analyse van de resultaten. Als men de punten van de drie presentaties vergelijkt, dan kan men trouwens ook duidelijk vaststellen 1 Egaal grijs: R=G=B=128 23

dat de punten van de tweede en derde presentatie steeds dicht bijeen liggen voor overeenkomstige sequenties, terwijl de punten uit de eerste presentatie veel minder de uiteindelijke resultaten weerspiegelen. De reden dat deze methode gekozen werd en geen van de andere, is dat onderzoek aangetoond heeft dat deze methode heel betrouwbaar is. Het grote nadeel van de methode is uiteraard dat men een grote overhead heeft, doordat elke sequentie drie keer wordt getoond. Een snelle schatting leert ons dat, als elke sequentie (10s + 5s) drie keer getoond wordt, elke sequentie 45s inneemt. Als men dan weet dat een testsessie maximaal 30 min mag duren, uitleg inclusief, dan is dit een zware beperking op het aantal sequenties dat kan worden getoond. Maar ditzelfde feit komt de nauwkeurigheid natuurlijk alleen ten goede. Aan veel van de richtlijnen kon niet worden voldaan en het testpubliek is ook niet zo heel groot. Vandaar dat verhoogde betrouwbaarheid een belangrijke factor was in de keuze van de methode. 4.3 Overige aspecten 4.3.1 Puntensysteem Zoals gezegd zijn er voor de manier van punten geven ook verschillende methoden. Sommige zijn discreet, andere werken met continue waarderingen. Ik heb er voor gekozen van met punten van 0 tot 10 te werken. Halve punten mogen eventueel ook gegeven worden. De manier van punten geven is voor deze test niet zo belangrijk. Het is alleen nodig van te controleren welke beelden de meeste punten krijgen, om te kunnen onderzoeken waar de voorkeur van de gebruiker ligt. 4.3.2 Observatoren Het testpubliek bestaat uit mensen die niet dagelijks bezig zijn met videocodering. Bovendien nemen ze niet regelmatig deel aan dergelijke tests. Het zicht van de observatoren kon niet op voorhand worden gecontroleerd. Wel is er voor gezorgd dat niemand aan de test deelnam als op voorhand geweten was dat hun zicht niet optimaal was. In totaal werden 24 personen gebruikt bij de test: 16 vrouwen en 8 mannen. 24

De gemiddelde leeftijd is ongeveer 28 jaar. De observatoren hebben verschillende achtergronden. Dit wordt bijvoorbeeld weerspiegeld in hun beroepen. Een groot deel (11 van de 24) studeert nog. 4.3.3 Testsessie Elke sequentie begint en eindigt met een egaal grijs frame. Dit is nodig gebleken, omdat het laatste frame van de getoonde sequentie anders nog een tijdje te zien is. De sequentie kan immers, na het afspelen, niet altijd snel genoeg gesloten worden. Het oordeel van de gebruiker zou kunnen beïnvloed worden bij het zien van een stilstaand beeld. De sequenties worden getoond op een egaal grijze achtergrond. Dit werd bereikt door de laptop, waarmee de sequenties worden afgespeeld, een bureaubladuitbreiding te laten doorvoeren. Hierbij wordt het beeld uitgebreid naar een tweede monitor. De observatoren krijgen alleen deze monitor te zien. Het scherm van de laptop blijft voor hen zo veel mogelijk verborgen. Men kan vervolgens vensters verslepen van het ene naar het andere bureaublad. Dan moest de achtergrond van het bureaublad enkel nog op egaal grijs gezet worden. Als men dan een viewer en een sequentie opent, komen die beide op het scherm van de laptop te staan. Het venster van de sequentie kan dan worden versleept naar de gewone monitor, waar de sequentie afgespeeld wordt. Tijdens een sessie is het wenselijk dat de gebruiker niet weet welk besturingssysteem gebruikt wordt. Daarom werd aan de vensters een ander uitzicht gegeven. Deze heeft meer een mac look en feel. Bovendien is het vensterkader van deze skin ook grijs, waardoor men ook niet afgeleid wordt door eventuele kleuren. Er werden sessies geörganiseerd op twee verschillende plaatsen (Gent en Ronse). De omstandigheden waarin de tests werden uitgevoerd, werden zo veel mogelijk op elkaar afgestemd. Zo is er voor gezorgd dat er zo weinig mogelijk afleiding in de kamer aanwezig was (posters aan de muren, lichtjes van TV of video,... ). Het omgevingslicht werd zo ingesteld, dat er net geen reflectie in het beeldscherm te zien was. Er moest uiteraard genoeg licht zijn, zodat de observatoren hun waarderingen konden neerpennen. In alle tests werd dezelfde monitor gebruikt en dezelfde laptop om de sequenties mee af te spelen. 25

Praktische problemen Voordat een test begint moet voor elke fragment reeds een viewer worden geopend, de juiste resolutie en beeldsnelheid moet worden ingesteld en de sequentie moet worden geladen. Dit is noodzakelijk, omdat er tijdens de test zelfs niet genoeg tijd is om de sequenties te openen. Bovendien spelen sommige sequenties niet vlot af de eerste keer dat ze getoond worden. Dit is vooral het geval bij de grotere, zoals city aan 30 fps of ice en crew aan 60 fps. Vermoedelijk is de harde schijf hier de oorzaak van, omdat die de sequenties niet snel genoeg kan aanleveren. Dit is ook niet verwonderlijk, aangezien een sequentie snel 100 MB groot kan zijn, terwijl er maar 10 seconden beeld wordt getoond. Uiteraard moet daarbij worden vermeld dat de experimenten werden uitgevoerd met een laptop, waarvan de harde schijf maar 4200 toeren per minuut haalt. Op een gewone computer kunnen de sequenties probleemloos worden afgespeeld, zelfs de eerste keer. De schijf defragmenteren hielp wel enigszins, omdat de koppen dan niet zo veel over en weer moeten springen, maar het probleem bestond nog steeds. De vertraagde weergave treedt enkel op de eerste keer dat men een sequentie tracht af te spelen. Als men kort daarna dezelfde sequentie nog eens afspeelt, loopt die wel vlot. Dit is vermoedelijk omdat een groot deel nog in het (heel snelle) RAMgeheugen aanwezig is en de sequentie dus niet meer van de harde schijf moet worden gehaald. Teneinde het publiek tijdens een sessie alleen vloeiende beelden te tonen, worden de sequenties eerst afgespeeld op het laptopscherm, dat de observatoren niet zien. Eens een sequentie afgespeeld is, wordt deze naar de monitor versleept en terug afgespeeld, maar nu voor de observator. Tijdens het afspelen van de ene, wordt de volgende sequentie afgespeeld op de laptop, zodat deze ook in het geheugen geladen wordt. Als de getoonde sequentie volledig gespeeld is, wordt het venster gesloten, wordt er nog enkele seconden gewacht tot men een waardering heeft toegekend en dan wordt de volgende sequentie getoond. Dit procédé blijven we herhalen tot alle sequenties getoond zijn. 26

4.3.4 Afstand tot het scherm In [1] worden condities opgelegd met betrekking tot de afstand van het scherm. Dit wordt gedaan in termen van de PVD of de preferred viewing distance. P V D = afstand tot scherm (m) hoogte van sequentie (m) Tabel 4.1 geeft een overzicht van de waarden van de PVD, in funtie van de hoogte van het scherm. Hoogte (m) PVD 0,18 9 0,23 8 0,30 7 0,45 6 0,91 5 > 1,53 3-4 Tabel 4.1: PVD in functie van de hoogte van het scherm. De hoogte van het beeld van de gebruikte monitor bedraagt ongeveer 0,25m, wat resulteert in een PVD van ongeveer 8. Aangezien in de test twee verschillende resoluties gebruikt worden, zullen we ook twee hoogtes voor de sequenties bekomen. De sequenties van 704 x 576 stemmen overeen met een hoogte van 0,24m, die van 352 x 288 uiteraard met de helft, 0,12m. Dit toepassen op bovenstaande formule voor de PVD, resulteert in de optimale afstanden 0,96m en 1,92m. In de subjectieve test werd dan uiteindelijk het gemiddelde van deze afstanden gebruikt. Er werd er dus voor gezorgd dat de observatoren op ongeveer anderhalve meter van het scherm zaten. 27

4.4 Technische gegevens De tests werden uitgevoerd met een 17 CRT-monitor. Tabel 4.2 toont de belangrijkste technische gegevens. CRT 16,1 (40,8 cm) maximaal zichtbaar beeld Resolutie 800 x 600 Horizontale frequentie 46,9 KHz Verticale frequentie 75 Hz Dot pitch 0,26 mm Tabel 4.2: Technische gegevens van de monitor. 28

Hoofdstuk 5 Inleiding tot de analyse van de resultaten 5.1 Herschaling van de punten Tijdens de subjectieve test werd aan het publiek gevraagd een waardering, die gelegen is tussen de 0 en de 10, toe te kennen aan de sequenties. Zoals reeds gezegd is de waardering op zich niet echt belangrijk. De punten die gegeven worden, blijken erg afhankelijk van de gebruiker. Daarom werden de punten herschaald per observator, op de volgende manier: 100 waardering min(waarderingen) max(waarderingen) min(waarderingen) Deze waarderingen zijn het gemiddelde van de tweede en de derde presentatie. min(waarderingen) en max(waarderingen) zijn respectievelijk het minimum en het maximum van de punten die de gebruiker in kwestie gegeven heeft. Hierdoor werden waarderingen bekomen die bij elke gebruiker het volledige interval [0,100] omvatten. Een vergelijkbare manier van werken wordt ook toegepast in [9], waar de waarderingen herschaald worden naar het interval [0,1]. 29

5.2 Structuur van de volgende hoofdstukken In het eerstvolgende hoofdstuk zijn enkele conclusies geformuleerd die uit de globale resultaten volgen. Eerst worden de resolutie en beeldsnelheid apart beschouwd. Vervolgens wordt de combinatie van beide aspecten bekeken. Hierbij wordt dus geen rekening gehouden met de resultaten van afzonderlijke observatoren. Zo wordt in dat hoofdstuk nog niet gekeken of bepaalde gebruikers volledig andere voorkeuren hebben en hoe hun resultaten de globale gemiddelden beïnvloeden. Deze conclusies zullen bijgevolg meestal te algemeen zijn. In het daarop volgende hoofdstuk zal ik dan proberen de observatoren wat meer in detail te bekijken. Noot bij de conclusies: Men moet zich ervan bewust zijn dat de geformuleerde besluiten werden gemaakt, aan de hand van sequenties aan redelijk slechte kwaliteit. Het is uiteraard zo dat men maar aanpassingen moet beginnen overwegen als de bitrate niet hoog genoeg is om een aanvaardbare kwaliteit te hebben. Als de bitrate verlaagt zal men eerst moeten overwegen of de kwaliteit van de sequentie goed genoeg is. Hoe men kan weten dat de kwaliteit te laag is, is een afzonderlijke studie. Hierbij moet niet alleen rekening gehouden worden met de afzonderlijke frames, maar is de schommeling van de kwaliteit ook heel belangrijk. Dit volgt uit de conclusies die we zullen bekomen voor de crew-sequentie. 5.2.1 Notaties In de volgende hoofdstukken zullen enkele afkortingen worden gebruikt, om de tekst en de grafieken niet nodeloos te verzwaren: Bij de gebruikte sequenties wordt het achtervoegsel DOWNSAMPLED steeds weggelaten. In principe zou er verwarring kunnen ontstaan met de originele sequenties (met resolutie 704 x 576 en aan 60 fps). Dit zal hopelijk niet het geval zijn, aangezien de originele sequenties nergens in de test gebruikt worden. In enkele tabellen worden resoluties van sequenties aangehaald. Deze resoluties zijn niet de afmetingen van de sequenties zoals ze werden gebruikt in de 30

subjectieve test. Zoals reeds eerder aangehaald werd, werden alle sequenties naar dezelfde resolutie als de originele sequentie gebracht met behulp van een upsamplingfilter. Om de gebruikte resoluties en beeldsnelheden niet constant te moeten aanhalen, worden de afkortingen R en F gebruikt voor de originele resolutie en beeldsnelheid (framerate) respectievelijk. Voor sequenties waarvan de breedte en de hoogte gehalveerd werden, wordt de afkorting R/2 gebruikt. Als breedte en hoogte twee maal werden gehalveerd, werd R/4 gebruikt,... Voor de beeldsnelheid werden vanzelfsprekend analoge notaties gebruikt. In sommige tabellen wordt zelfs enkel 1, 2, 4,... gebruikt, aangezien uit de context duidelijk volgt wat bedoelt wordt. Observatoren werden steeds bij hun nummer vernoemd. Dit werd vooral gedaan om de gebruikers met afwijkende resultaten niet te viseren. Uiteraard wil dit niet zeggen dat deze mensen de test niet serieus opgenomen hebben. Desalniettemin kunnen de nummers worden gelinkt aan namen, door de tabel Observatoren in de databank op de DVD te bekijken. In alle tabellen van deze databank werden wel namen gebruikt, omdat dit de analyse makkelijker maakte. 31

Hoofdstuk 6 Globale analyse 6.1 Resolutie Als men tabel 6.1 bekijkt, dan zou men hieruit kunnen besluiten dat de meeste gebruikers liever een scherp beeld hebben, dan een waziger beeld. Dit klinkt vanzelfsprekend, maar men moet er zich wel bewust van zijn dat een scherp beeld impliceert dat er meer fouten te zien zijn, aangezien per sequentie een vaste bitrate werd gebruikt. Bij bepaalde delen van de city-sequentie zijn er stukken van het beeld veel waziger bij hoge resolutie dan bij verlaagde resolutie. De schommeling van de kwaliteit in de crew-sequentie zal ook veel hoger zijn bij hoge resolutie. Uiteraard is deze conclusie niet helemaal correct, omdat hier geen rekening gehouden wordt met de beeldsnelheid en met het soort sequentie. Resolutie Gemiddelde 1 60,54 2 51,56 4 36,37 Tabel 6.1: Gemiddelde van de waarderingen voor verlaagde resolutie. Men kan meer accurate besluiten trekken uit tabel 6.2. De gemiddelden werden hier gegroepeerd per sequentie. De conclusie die hierboven werd bekomen, vindt men duidelijk terug voor de city- en de ice-sequentie. Bij de laatste is het verschil in de gegeven waarderingen zelfs heel groot. De punten van city dalen minder snel. 32

Bij de crew-sequentie bekomt men echter een omgekeerd verloop: de punten stijgen voor dalende resolutie. Zoals hierboven reeds werd aangehaald, is dit vermoedelijk omdat de kwaliteit van de aparte beelden veel stabieler is bij verlaagde resolutie. Naam Resolutie Gemiddelde City 704 x 576 46,54 City 352 x 288 45,75 City 176 x 144 36,37 Crew 352 x 288 51,04 Crew 176 x 144 56,07 Ice 352 x 288 79,98 Ice 176 x 144 39,22 Tabel 6.2: Gemiddelde van de waarderingen voor verlaagde resolutie per sequentie. 6.2 Beeldsnelheid Zoals u in tabel 6.3 kunt zien, kan men duidelijk een stijgende tendens in de punten waarnemen voor dalende beeldsnelheid. Vooral de beelden die aan de volledige beeldsnelheid worden getoond scoren heel slecht. Dit was wel te verwachten, aangezien het moeilijk is het verschil te zien tussen een beeld aan 60 fps en één aan 30 fps. Wat mij daarentegen wel verwonderde is dat beelden aan 7,5 fps nog zo hoog gewaardeerd worden. Het is bijna alsof er afzonderlijke beelden worden getoond en niet echt een video-fragment. Desalniettemin ziet men overal hetzelfde verloop in de punten: weinig beelden per seconde (maar met goede kwaliteit) worden beter gevonden dan een vloeiende sequentie met artefacten. Beeldsnelheid Gemiddelde 1 29,27 2 52,42 4 57,10 8 70,58 Tabel 6.3: Gemiddelde van de waarderingen voor verlaagde beeldsnelheid. 33

Ook hier is het mogelijk de resultaten iets betrouwenswaardiger te maken door ze apart te gaan bekijken per sequentie. Voor de city- en crew-sequenties krijgen we duidelijk afgelijnde resultaten: de besluiten die hierboven bekomen zijn, gelden ook hier. Het is ook duidelijk dat sequenties met 30 en 60 fps heel slecht scoren, terwijl nog lagere beeldsnelheden heel goede resultaten behalen. Voor de ice-sequentie krijgen we echter vreemde resultaten. Het maximum wordt wel bereikt voor de laagste beeldsnelheid, maar de sequentie aan 60 fps wordt bijna even veel gewaardeerd. De punten voor 30 fps liggen iets lager. De waarden liggen hier zo dicht bijeen, dat het verloop van de punten zelfs even goed op toeval berust. Dit is echter niet het geval. De resultaten uit sectie 6.3 zullen meer duidelijkheid bieden omtrend dit verloop, aangezien daar ook rekening gehouden wordt met de resolutie. Naam Beeldsnelheid Gemiddelde City 30 13,62 City 15 56,53 City 7,5 58,51 Crew 60 29,87 Crew 30 50,46 Crew 15 63,30 Crew 7,5 70,58 Ice 60 59,98 Ice 30 58,55 Ice 15 60,26 Tabel 6.4: Gemiddelde van de waarderingen voor verlaagde beeldsnelheid per sequentie. 6.3 Resolutie en beeldsnelheid City: Wat uit grafiek 6.1 meteen volgt is dat alle sequenties aan hoge beeldsnelheid heel slecht scoren en dit voor alle resoluties. Voor beeldsnelheden die lager liggen dan 30 fps, wordt voorkeur gegeven aan hoge resoluties, hoewel het verschil van de gemiddelde punten nooit echt groot is. In grafiek 6.2 ziet men dat de conclusies die getrokken werden in 6.2 (hoge beeldsnelheden scoren slecht) opgaan voor alle 34

Figuur 6.1: Gemiddelde waarderingen per sequentie en conditie, naar stijgende punten resoluties. De conclusies uit 6.1 met betrekking tot de resolutie gaan grotendeels op (zie grafiek 6.2, behalve voor de sequenties aan volle beeldsnelheid. Crew: Uit de grafieken volgt duidelijk dat alle besluiten die tot nu toe getrokken werden voor deze sequentie, ook opgaan voor bijna alle resoluties en beeldsnelheden. Zoals blijkt uit grafiek 6.3 zijn de sequenties met condities F/8,R en F/8,R/2 hierop een uitzondering. Voor deze twee geldt de algemene regel, met name dat verlaagde resolutie slechter scoort. Dit feit zal nog belangrijk blijken in sectie 6.4, waar ik algemene conclusies zal formuleren. Ice: Wat de resolutie betreft (zie grafiek 6.3), versterkt deze sequentie de conclusie dat men moet vermijden van deze te verlagen. De punten bevestigen dit overduidelijk, en dit voor elke beeldsnelheid. Zoals hierboven aangegeven waren de resultaten van 35

Figuur 6.2: Gemiddelde waarderingen per sequentie en conditie, naar dalende resolutie de analyse van de beeldsnelheid wat vreemd. De oorzaak hiervan is terug te vinden in grafiek 6.2. Het verloop van de gemiddelde waarderingen die in de vorige sectie werden onderzocht, is te wijten aan de resultaten voor de ice-sequentie met verlaagde resolutie. Voor hoge resoluties (die hoe dan ook meer punten krijgen) stijgen de punten wel bij dalende beeldsnelheid, wat dan weer aansluit bij de resultaten voor de andere sequenties. Men kan wel duidelijk zien dat de ice-sequentie steeds ongeveer dezelfde punten krijgt bij vaste resolutie. 6.4 Besluit Globaal kan men dus stellen dat moet getracht worden van de resolutie niet aan te passen. De beeldsnelheid moet zo laag mogelijk gehouden worden als de kwaliteit van de sequentie laag is. Vermoedelijk zal het zo zijn dat men, bij dalende bitrate, eerst zal moeten overgaan tot het verlagen van de beeldsnelheid. Pas als de bitrate, en dus ook de kwaliteit, zo ver gezakt is dat de beeldsnelheid niet meer verder kan verlaagd worden, zal men moeten overgaan tot het verlagen van de resolutie. Deze 36

Figuur 6.3: Gemiddelde waarderingen per sequentie en conditie, naar dalende beeldsnelheid stelling kan echter alleen bevestigd worden als er verder onderzoek wordt gedaan. Het kan ook nuttig zijn te onderzoeken tot hoe ver men de beeldsnelheid kan gaan verlagen, vooraleer de resolutie moet worden aangepast. De kans dat beelden met een beeldsnelheid lager dan 7,5 aanvaardbaar blijken, lijkt mij echter klein. Hoewel enkele sequenties soms afwijkend gedrag vertonen, is het toch interessant op te merken dat de sequenties aan hoge resolutie en heel lage beeldsnelheid steeds de hoogste scores halen. Dit ziet men duidelijk in grafiek 6.1. De sequenties met de hoogste gemiddelde waardering zijn die met R,F/4, R,F/8 en R,F/4 voor city, crew en ice respectievelijk. Dit zijn juist de sequenties met de laagst aangeboden beeldsnelheid en met de hoogst aangeboden resolutie. 37

Hoofdstuk 7 Analyse van de resultaten van afzonderlijke observatoren 7.1 Kwadratische fouten Eerst en vooral werd de kwadratische fout per gebruiker bepaald. Hiervoor wordt voor elke sequentie het gemiddelde van alle punten berekend. Vervolgens wordt de waardering voor elke sequentie afgetrokken van het gemiddelde en gekwadrateerd. Deze maat wordt gesommeerd over alle sequenties en vervolgens gedeeld door het aantal sequenties in een presentatie van de test. Uiteindelijk wordt er nog de vierkantswortel uit getrokken. 23 i=1(gemiddelde i waardering i ) 2 23 Dit werd dus berekend voor elke observator. U kan de resultaten bekijken in tabel 7.1. Gehoopt werd van de observatoren zo te kunnen indelen in verschillende klassen: deze die de algemene trend van punten geven volgen en degene die daarvan afwijken. Voor 4 personen die de hoogste fout hadden (hoger dan 25) werd de grafiek van het verloop van de punten dan bekeken, samen met het verloop van het gemiddelde van alle observatoren. Het bleek dat 3 van de 4 een volledig andere keuze maakten dan door het gemiddelde werd aangegeven. Observator 9 daarentegen kreeg een heel hoge kwadratische fout. Bij het bekijken van zijn punten bleek echter dat hij wel ongeveer dezelfde keuzes maakte als de andere observatoren. De 38

grote fout was een gevolg van het anders beoordelen van de afzonderlijke sequenties. De city-sequentie kreeg altijd veel meer punten dan het gemiddelde, terwijl de iceen crew-sequentie steeds lagere punten kregen. Deze maat bleek dus meestal wel nuttig, maar niet altijd. Veel van de kwadratische fouten liggen trouwens heel dicht bijeen. Hierdoor werd een partitie van de observatoren onmogelijk, als we ons enkel hierop baseren. Observator Fout 1 15,67 2 20,68 3 23,54 4 24,22 5 22,83 6 18,85 7 17,05 8 21,03 9 25,63 10 13,74 11 19,65 12 23,39 13 21,43 14 20,55 15 19,16 16 20,96 17 29,75 18 22,64 19 26,33 20 16,80 21 16,36 22 13,98 23 26,67 24 22,47 Tabel 7.1: Kwadratische fouten per observator. 7.2 Partitionering van de observatoren Vervolgens werden de grafieken van alle observatoren apart bekeken. Zo bleek het redelijk makkelijk een indeling te maken in 3 groepen. Eén groep vertoont de voorkeur die in het vorige hoofdstuk als algemene conclusies werden aangereikt. Een 39

tweede deel gaf heel weinig punten aan de sequenties met een hoge beeldsnelheid (wat de andere groep ook deed), maar ook de sequenties met een heel lage beeldsnelheid scoren heel slecht. De voorkeur gaat hier dus uit naar sequenties met een gemiddelde beeldsnelheid. De derde groep bestaat uit observatoren waarvan de resultaten weinig steek houden. Het is bijna onmogelijk van voor deze een duidelijke voorkeur voor bepaalde beeldsnelheden of resoluties af te leiden. In de volgende secties worden elk van deze groepen in nader detail besproken. 7.2.1 Groep 1: Hoge beeldsnelheden scoren best Figuur 7.1: Hoge beeldsnelheden scoren best Zoals u in grafiek 7.1 kunt zien, volgt deze groep de algemene conclusies die in het vorige hoofdstuk bekomen zijn. Over het algemeen kan men zeggen: hoe lager de beeldsnelheid, hoe beter de sequentie scoort. De verschillen zijn hier ook meer uitgesproken dan in grafiek 6.2. Dit is ook logisch, aangezien getracht werd de observatoren die een andere voorkeur vertoonden niet mee te rekenen in het gemiddelde. Als men de resolutie gaat bekijken, dan kan men voor ice meteen duidelijke conclusies trekken: hoge resolutie krijgt de voorkeur. Bij de andere sequenties is dit 40

niet meteen het geval. De crew-sequentie haalt haar maximum bij R/2,F/8, maar R,F/8 krijgt bijna dezelfde score. Bij de city-sequentie is het verschil miniem: op de grafiek is zelf niet zichtbaar of R,F/4 het meest gewaardeerd wordt, of R/2,F/4. Toch kan men besluiten dat hoge resoluties hier ook meestal goed scoren. Deze groep is de grootste van de drie. Maar liefst 13 observatoren vallen hierin. Dit komt dus overeen met 54%. Om aan te tonen dat deze partitie zinvol is, kunt u in tabel 7.2 de kwadratische fouten vergelijken met de originele fouten. De nieuwe fouten werden berekend ten opzichte van het gemiddelde van de punten van deze groep. Bij de meeste observatoren is de kwadratische fout gedaald. Observator Fout 1 15,67 14,16 2 20,68 18,73 3 23,54 24,62 7 17,05 14,10 8 21,03 22,60 9 25,63 22,10 11 19,65 14,60 12 23,39 21,63 14 20,55 17,18 16 20,96 16,26 21 16,36 16,85 22 13,98 12,73 24 22,47 21,79 Tabel 7.2: Kwadratische fouten per observator in groep 1. 7.2.2 Groep 2: Hoge en lage beeldsnelheden scoren slecht Het tweede deel van de observatoren geeft duidelijk de voorkeur aan sequenties met een gemiddelde beeldsnelheid. Waar groep 1 nog het meeste punten toekende aan de laagste beeldsnelheden, krijgen deze sequenties hier heel lage scores. Zelfs voor de resolutie liggen de waarderingen anders. Voor city en crew worden de meeste punten gegeven aan sequenties met verlaagde resolutie. De city-sequentie bereikt haar maximum bij R/2,F/2, terwijl die bij groep 1 redelijk laag scoort. Van alle crew-sequenties wordt deze met R/2,F/4 het best gewaardeerd en bij ice is dit die met R,F/2. Veel kan er niet worden besloten voor deze groep. Het wordt heel 41

Figuur 7.2: Hoge en lage beeldsnelheden scoren slecht moeilijk van hun voorkeur in te schatten, aangezien die duidelijk sterk afhankelijk is van de sequentie. Wat wel met zekerheid kan gezegd worden is dat ze niet willen dat de beeldsnelheid te hoog of te laag is. Meestal is het ook zo dat het verschil tussen de sequenties met hoge resoluties en één maal verlaagde resolutie niet heel groot is. Uitzondering hierop is de ice-sequentie. Deze groep bestaat uit 8 observatoren, goed voor 33% van het hele testpubliek. Ook hier werden de kwadratische fouten berekend en blijkt dat deze meestal gedaald zijn ten opzichte van de kwadratische fouten voor de partitionering. 7.2.3 Groep 3: Observatoren met slechte resultaten De derde groep is een apart geval. Eigenlijk is dit geen echte partitie. Alle observatoren die in geen enkele van de andere groepen thuis horen, werden in de derde gestoken. Voor geen van deze gebruikers kan een conclusie getrokken worden. Hieronder wordt meer uitleg gegeven per observator, in het bijzonder waarom zij in deze groep belandden. Dit wordt gedaan aan de hand van grafiek 7.3, waarin de waarderingen per sequentie werden uitgezet. 42

Observator Fout 4 24,22 23,00 5 22,83 21,85 6 18,85 18,41 10 13,74 11,00 17 29,75 25,83 18 22,64 20,56 19 26,33 19,89 20 16,80 16,99 Tabel 7.3: Kwadratische fouten per observator in groep 2. Figuur 7.3: Slechte resultaten Observator 13 De city-sequentie haalt zijn hoogste punt in R,F/2, zoals men kan zien aan de blauwe curve. Bij de crew-sequentie is dit bij R,F/4. Hieruit zou men kunnen besluiten dat deze observator in groep 2 thuis hoort. Als men echter de waarderingen voor de crew-sequentie wat beter bekijkt, dan ziet men een dal bij R/2,F/2, waar deze nog goed scoorde bij groep 2. Ook voor ice zien we vreemde resultaten: het maximum wordt bereikt bij R,F én bij R,F/4, terwijl R,F/2 dan weer slechter scoort. Wat 43