Hoofdstuk 1. Inleiding. 1.1 Multivariate Variabelen

Transcriptie

1 Hoofdstuk 1 Inleiding 1.1 Multivariate Variabelen Multivariate statistiek is het onderdeel van de statistiek dat zich bezighoudt met het analyseren van datasets die bestaan uit observaties van multivariate variabelen. Om dit duidelijker te specifiëren, vertrekken we vanuit het begrip van de experimentele eenheid: dit is de kleinste eenheid die uit de populatie geselecteerd kan worden om in de steekproef opgenomen te worden. We geven enkele voorbeelden: In een plantenexperiment is één plant de experimentele eenheid. Immers een plant kan afzonderlijk geselecteerd worden, in een afzonderlijke pot geplant worden en eventueel een afzonderlijke behandeling toebediend krijgen. In een klinische studie is één mens de typsiche experimentele eenheid. De redenering is dezelfde als bij het plantenexperiment. In een economische studie waarin de socio-economische toestand van Europa geanalyseerd wordt, zijn de landen de experimentele eenheden. De basisgegevens zoals bv. BNP zijn immers enkel op deze schaal beschikbaar. In de cursus Statistische Dataverwerking hebben we steeds univariate variabelen beschouwd. Dit betekent dat er op iedere experimentele eenheid slechts één toevallige variabele geobserveerd werd. We benadrukken hier UNIvariaatöp de toevallige variabele betrekking heeft; er kunnen immers nog andere variabelen aan de experimentele eenheden toegekend 1

2 Setosa Versicolor Virginica sepal.l sepal.b petal.l petal.b Figuur 1.1: De scatter plot matrix van de iris dataset worden, bv. factoren die de behandeling specifiëren, of andere onafhankelijke variabelen die door het design vastgelegd zijn. Wanneer er echter observaties van verschillende univariate toevallige variabelen zijn op één experimentele eenheid, spreken we over een observatie van een toevallige multivariate variabele. Als voorbeeld nemen we hier de iris dataset. Dit is een dataset met metingen van de breedte en de lengte van kroon- en kelkblaadjes van 3 verschillende iris species. We hebben dus op iedere plant een observatie van een multivariate variabele die bestaat uit 4 univariate variabelen. Alvorens dit meer formeel te noteren, exploreren we reeds de dataset met behulp van een scatter plot matrix (Figuur 1.1). Op deze figuur zijn duidelijk drie groepen puntenwolken te onderscheiden die overeenkomen met de drie iris species. Verder valt in sommige plots op dat de puntenwolken een elongatie vertonen. Dit wijst op een verband tussen de variabelen. Hierop komen we later nog in detail op terug. Het is dus duidelijk dat een multivariate variabele bestaat uit verschillende univariate variabelen. Stel X i een univariate toevallige variabele, i = 1,..., p. Dan stellen we p- variate toevallige variabele voor als de kolomvector X t = (X 1... X p ). Soms noemen we X i een component van X. In de volgende sectie gaan we in op de distributie van X en zijn componenten. De steekproef van n toevallige variabelen X noteren we als X 1,..., X n wanneer we ze als toevallige variabelen beschouwen, of als x 1,..., x n wanneer we ze als observaties (of Multivariate Dataverwerking Hoofdstuk 1 p. 2

3 realisaties) beschouwen. In het algemeen is X ij (of x ij ) dus de i-de observatie van variabele j. 1.2 Multivariate Distributies Distributiefuncties Distributies van continue univariate variabelen zijn gedefinieerd via de distributiefunctie, F i (x) = P {X i x}. Hieruit wordt rechtstreeks de densiteitsfunctie afgeleid, f i (x) = df i(x) dx. De uitbreiding naar de continue multivariate distributie is eenvoudig, F 12...p (x 1,..., x p ) = F (x 1,..., x p ) = P {X 1 x 1, X 2 x 2,..., X p x p }. (1.1) En de multivariate densiteitsfunctie wordt gegeven door f 12...p (x 1,..., x p ) = f(x 1,..., x p ) = p F x 1... x p (x 1,..., x p ). We noemen de multivariate distributie ook wel de gezamenlijke distributie van X 1,..., X p (Engels: joint distribution). Het is eenvoudig om van een gegeven multivariate distributie de distributie te bekomen van één of meerdere componenten. Zo is bijvoorbeeld de distributie van X 1 te bekomen als F 1 (x 1 ) = F (x 1,..., x p )dx 2... dx p. Of, meer algemeen, de multivariate distributie van (X 1, X 2 ) wordt bekomen als F 12 (x 1, x 2 ) = F (x 1,..., x p )dx 3... dx p. De gezamenlijke distributie van één of meerder componenten van X wordt een marginale distributie genoemd; ze wordt dus bekomen door letterlijk de overige componenten weg te integreren uit de p-variate multivariate distributiefunctie. Multivariate Dataverwerking Hoofdstuk 1 p. 3

4 Ook conditionele distributies kunnen eenvoudig bekomen worden. Uit de definitie van de distributiefunctie kan rechtstreeks afgeleid worden dat bijvoorbeeld F (x 1,..., x p 1 X p x p ) = F (x 1,..., x p ). F (x p ) In de praktijk wensen we echter dikwijls conditionele distributies van de vorm F (x 1,..., x p 1 X p = x p ). Er kan aangetoond worden dat dit bekomen kan worden als (zie de cursus Waarschijnlijkheidsrekenen) met F (x 1,..., x p 1 X p = x p ) = x1 f(x 1,..., x p 1 x p ) = f(x 1,..., x p ). f(x p ) xp 1... f(u 1,..., u p 1 x p )du 1... du p 1, Onafhankelijkheid Een heel belangrijk concept in multivariate statistiek is de onafhankelijkheid van variabelen. Uit de Probabiliteit weten we dat P {A en B} = P {A} P {B} enkel en alleen als de gebeurtenissen A en B onafhankelijk zijn. Passen we dit toe op de definitie van de gezamenlijke multivariate distributiefunctie (Vergelijking 1.1), dan vinden we F (x 1,..., x p ) = F 1 (x 1 )F 2 (x 2 )... F p (x p ) voor alle x 1,..., x p, enkel en alleen als alle X 1,..., X p onderling onafhankelijk zijn. Onafhankelijkheid tussen twee toevallige variabelen X i en X j wordt genoteerd als X i X j Een minder restrictieve vorm van onafhankelijkheid treedt op als bv. twee multivariate deelvectoren van X onafhankelijk zijn. Bijvoorbeeld (X 1, X 2, X 3 ) (X 4,..., X p ). Dit is equivalent met X i X j met i = 1, 2, 3 en j = 4,..., p. Dit impliceert verder F (x 1,..., x p ) = F (x 1, x 2, x 3 )F (x 4,..., x p. Multivariate Dataverwerking Hoofdstuk 1 p. 4

5 1.2.3 Multivariate Normale Distributie Niettegenstaande er een verscheidenheid aan continue multivariate distrubities bestaan, zullen we in deze cursus slechts één continue multivariate distributie bespreken: de multivariate normale distributie. Net zoals in de univariate statistiek, is er een bijzondere, centrale rol weggelegd voor deze distributie. Alvorens de definitie en de eigenschappen te bespreken, herhalen we bondig de univariate normale distributie en haar voornaamste eigenschappen Univariate Normale Distributie De densiteitsfunctie van de univariate normale distributie wordt gegeven door f(x) = 1 exp 1 (x µ) 2, 2πσ 2 σ 2 met µ = E {X} en σ 2 = Var {X}, i.e. respectievelijk de verwachtingswaarde (of het gemiddelde) en de variantie van X. We noteren X N(µ, σ 2 ). De univariate normale distributie wordt dus volledig gespecifieerd door twee parameters. Voor een variabele X i noteren we µ i en σ 2 i. Om deze distributie uit te breiden naar het multivariate geval, zullen we een multivariate versie nodig hebben van de verwachtingswaarde en van de variantie. Deze behandelen we in de volgende sectie. Uitbreiding van de Verwachtingswaarde en de Variantie De verwachtingswaarde van de p-variate variabele X wordt gedefinieerd als µ = E {X} = [E {X i }] (i) (i = 1,..., p), i.e. µ is een kolomvector met als i-de element de verwachtingswaarde van de univariate variabele X i. Bijgevolg zijn voor de berekening van µ enkel de univariate marginale distributies van de univariate componenten X i nodig (dus niet de volledige gezamenlijke multivariate distributie). In het univariate geval wordt de variantie Var {X i } gedefinieerd als Var {X i } = int + (x E {X i }) 2 f i (x)dx. Multivariate Dataverwerking Hoofdstuk 1 p. 5

6 In het multivariate geval spreken we niet meer over de variantie, maar over de variantiecovariantiematrix, voorgesteld door de p p matrix Σ. Op de diagonaalplaatsen van deze matrix vinden we de univariate varianties Var {X i } en op de niet-diagonaalplaatsen vinden we de zogenaamde covarianties. In het bijzonder is het (i, j)-de element in Σ de covariantie tussen X i en X j, welke gegeven wordt door Cov {X i, X j } = + (x i E {X i })(x j E {X j })dx i dx j. Merk op dat Var {X i } = Cov {X i, X i }. We kunnen dus de variantie-covariantiematrix Σ definiëren als Σ = [Cov {X i, X j }] (i,j), (i, j = 1,..., p). Aangezien uit de definitie van de covariantie volgt dat Cov {X i, X j } = Cov {X j, X i }, is Σ een symmetrische matrix. Er kan verder aangetoond worden dat het een niet-singuliere matrix is. We noteren de covarianties als σ ij = Cov {X i, X j }. Verder hebben we dus de equivalentie σ ii = σ 2 i. De covariantie is soms moeilijk interpreteerbaar omdat het maximum (in absolute waarde) afhangt van de varianties van X i en X j. In het bijzonder geldt er Cov {X i, X j } σi 2σ2 j. Om deze reden wordt de sterkte van afhankelijkheid soms uitgedrukt in termen van de correlatie: Cor {X i, X j } Cov {X i, X j } σ i σ j, wat we voorstellen door ρ ij. Merk tenslotte nog op dat de definitie van µ en Σ volkomen los staat van de exacte vorm van de multivariate distrubitie. multivariaat normale distributies bestaan. Dit betekent dat deze grootheden ook voor niet De Multivariate Normale Distributie Stel x t = (x 1... x p ). De densiteitsfunctie van een p-dimensionale multivariate normale distrubutie wordt gegeven door ( 1 f(x) = exp 1 ) (2π) p/2 Σ 1/2 2 (x µ)t Σ 1 (x µ). (1.2) Multivariate Dataverwerking Hoofdstuk 1 p. 6

7 Merk op dat deze densiteit zich herleidt tot de densiteit van een univariate normale distributie als p = 1. We noteren X MV N(µ, Σ). Of, voor de steekproef van n onafhankelijk en identisch verdeelde elementen, X i i.i.d. MV N(µ, Σ). Enkele eigenschappen: enkel en alleen σ ij = 0 (i j = 1,..., p), vinden we f(x) = f 1 (x 1 )... f p (x p ), i.e. alle X i, X j zijn onderling onafhankelijk. alle marginale univariate distributies van de componenten X i zijn univariaat normaal met parameters µ i en σi 2. alle marginale multivariate distributies (van dimensie 1 < q < p) zijn eveneens multivariaat normaal. Stel dat we Σ noteren volgens een partitionering, [ ] Σ = Σ 1...q Σ q+1...p Σ q+1...p Σ 1...q en een analoge partitionering voor µ, µ t = (µ 1...q, µ q+1...p ). Dan is de marginale multivariate distributie van (X 1,..., X q ), multivariaat normaal met gemiddelde µ 1...q en variantie-covariantiematrix Σ 1...q. alle conditionele uni- en multivariate distributies zijn eveneens uni- of multivariaat normaal verdeeld. alle lineaire combinaties van de componenten van een multivariaat normaal verdeelde variabele zijn univariaat normaal verdeeld. Stel a t = (a 1... a p ) R p een vector van p constanten, dan is a 1 X a p X p = a t X N(a t µ, a t Σa). We komen later terug op de MVN distributie, maar eerst hebben we behoefte aan meer concepten. Multivariate Dataverwerking Hoofdstuk 1 p. 7

8 1.3 Mahalanobis-Afstand Definitie Een multivariate observatie x kunnen we beschouwen als een punt x in een p-dimensionele Euclidische ruimte met coördinaten (x 1,..., x p ). Deze voorstelling zullen we veel gebruiken (bv. principale componentenanalyse, clusteranalyse, discriminantanalyse,...). Dikwijls zal het nuttig zijn afstanden tussen observaties, of afstanden tussen een observatie en een gemiddelde µ (ook een punt in een p-dimensionale ruimte) te berekenen. Hiervoor moeten we een afstandsmaat definiëren. Het zal later blijken dat de klassieke Euclidische afstand niet de meest relevante is. Een betere keuze is de Mahalanobis-afstand. In deze sectie definiëren we deze afstandsmaat en geven we de meetkundige interpretatie, welke ons o.a. een beter inzicht in de MVN distributie zal geven. De Mahalanobis-afstand D tussen twee punten x t 1 = (x x 1p ) en x t 2 = (x x 2p ) in de p-dimensionale ruimte van de toevallige variabele X wordt gedefinieerd als D 2 = D 2 (x 1, x 2 ) = (x 1 x 2 ) t Σ 1 (x 1 x 2 ), met Σ = Var {X}. Een belangrijke characteristiek van de Mahalanobis-afstand is dat de metriek bepaald wordt door de variantie-covariantiematrix van de toevallige variabele X, i.e. de definitie van D is afhankelijk van de multivariate distributie! Merk op dat indien Σ = I p (I p de p- dimensionale eenheidsmatrix) de Mahalanobis-afstand herleidt tot de Euclidische afstand: D 2 (x 1, x 2 ) = (x 1 x 2 ) t (x 1 x 2 ) = p (x 1i x 2i ) 2. i=1 Later komen we op nog meer bijzondere gevallen terug Constante Densiteitsellips Stel dat we Mahalanobis-afstand berekenen tussen een punt (observatie) x en het gemiddelde µ van de distributie van X. Deze is D 2 = (x µ) t Σ 1 (x µ), Multivariate Dataverwerking Hoofdstuk 1 p. 8

9 wat exact de vorm is die in de exponent voorkomt van de densiteitsfunctie van de MVN (Vergelijking 1.2). We lossen vervolgens het volgende probleem op: we zoeken de verzameling punten x die op eenzelfde Mahalanobis-afstand liggen van het gemiddelde µ. Om de gedachten te vestigen zullen we in deze sectie ons verder beperken tot een bivariate normale distributie (p = 2), maar de resultaten zijn rechtstreeks uitbreidbaar naar algemene p. Stel deze constante Mahalanobis-afstand gelijk aan c. Indien X MVN verdeeld is, impliceert dit dat de punten x die aan bovenstaande voorwaarde voldoen, punten zijn die eveneens een constante densiteit hebben. Dit kan eenvoudig gezien worden door de MVN densiteit te beschouwen, ( 1 exp 1 ) (2π) p/2 Σ 1/2 2 (x µ)t Σ 1 1 (x µ) = exp ( 12 ) (2π) p/2 Σ c. 1/2 Het Geval σ 12 = 0 We bespreken eerst het eenvoudige geval waar σ 12 = 0, i.e. [ ] σ1 2 0 Σ =. 0 σ2 2 We bekomen aldus c 2 = (x µ) t Σ 1 (x µ) [ ] = (x µ) t 1/σ1 2 0 (x µ) 0 1/σ2 2 = (x 1 µ 1 ) 2 σ (x 2 µ 2 ) 2. σ2 2 Uit deze laatste uitdrukking vinden we (x 1 µ 1 ) 2 c 2 σ (x 2 µ 2 ) 2 c 2 σ 2 2 = 1 of nog ( ) 2 ( ) 2 x1 µ 1 x2 µ 2 + = 1, cσ 1 cσ 2 wat de vergelijking van een ellips voorstelt met de assen evenwijdig met de assen van het assenstelsel, met middelpunt (µ 1, µ 2 ) = µ t en met halve aslengtes cσ 1 en cσ 2. De punten die deze ellips vormen, noemen we de constante densiteitsellips. Multivariate Dataverwerking Hoofdstuk 1 p. 9

10 Een diepere interpretatie bekomen we als volgt. Om een duidelijkere interpretatie van densiteit te bekomen, leggen we de link tussen densiteiten en probabiliteiten. Stel een heel klein reëel getal, dan is = P {x 1 /2 X 1 x 1 + /2, x 2 /2 X 2 x 2 + /2} x1 + /2 x2 + /2 x 1 /2 x 2 /2 f(x 1, x 2 ) 2. f(u, v)duuv (1.3) Bijgevolg is de densiteit in x = (x 1, x 2 ) evenredig met de probabiliteit dat X in een hele kleine omgeving is van x. De kans dat X in de onmiddellijke omgeving ligt een punt op de constante densiteitsellips is dus even groot voor ieder punt op deze ellips! Indien we een steekproef hebben uit de MVN van X, verwachten we dus dat op ellipsvormige banen rond het gemiddelde µ we een even grote kans hebben op het observeren van observaties. Of, anders geformuleerd, dat de densiteit aan observaties in ellipsvormige banen rond µ even groot is. Aangezien de constante c in de densiteit voorkomt in exp( 1 2 c2 ), zal de densiteit dalen met toenemende c. We hebben ook aangetoond dat c evenredig is met de halve aslengtes van de ellipsen. Bijgevolg neemt de puntendensiteit of met toenemende aslengte van de ellips. Dit is geïllustreerd in Figuur 1.2. Dit kenmerk van de multivariate normale distributie kan in de praktijk gebruikt worden om op informele wijze MVN te detecteren. Uit de argumentatie vogt tevens dat de Mahalanobis-afstand geïnterpreteerd kan worden als een afstand gemeten aan de hand van probabiliteitsmassa. Het Geval σ 12 0 Indien σ 12 0, dan is Σ geen diagonaalmatrix en is haar inverse evenmin diagonaal. Er kan echter nog steeds aangetoond worden dat de punten x, die op een constante Mahalanobisafstand tot µ liggen, een ellips vormen. Ditmaal zijn de assen echter niet meer evenredig met de assen van het assenstelsel. De halve aslengtes zijn c σ1 2 σ 12 en c σ2 2 σ 12. Er geldt hier exact dezelfde interpretatie dan in het σ 12 = 0 geval. Afhankelijk van σ 12 > 0 of σ 12 < 0, zal de elongatie van de ellips respectievelijk volgens de hoofd- of de nevendiagonaal liggen. Uit bovenstaande discussie besluiten we voor een steekproef, dat Multivariate Dataverwerking Hoofdstuk 1 p. 10

11 x x1 Figuur 1.2: Scatterplot van een steekproef van 600 obs uit een bivariate normale distributie met µ 1 = µ 2 = 0 en σ 1 = 5, σ 2 = 3 en σ 12 = 0. Twee constante densiteitsellipsen zijn weergegeven. puntenwolken die gevormd zijn rond constante densiteitsellipen vermoedelijk uit een bivariate normale distributie komen puntenwolken met constante densiteitsellipsen die geen elongatie vertonen vermoedelijk komen uit een bivariate normale distributie met X 1 X 2 (σ 12 = 0) puntenwolken met constante densiteitsellipsen die een elongatie vertonen vermoedelijk komen uit een bivariate normale distributie met σ 12 0 indien de elongatie van de constante densiteitsellipsen volgens de hoofddiagonaal ligt, is er een positief verband tussen X 1 en X 2, i.e. σ 12 > 0; in het andere geval is een negatief verband tussen X 1 en X 2, i.e. σ 12 < Spectrale Decompositie Meer inzicht in de constante densiteitsellipsen kan bekomen worden via de Spectrale Decompositie (SD) van de matrix Σ. We lichten dit hier heel kort toe. Later, bij de constructie van de principale componenten komen we hier meer uitgebreid op terug. Uit de eigenschappen van Σ (symmetrisch, niet-singulier) volgt dat Σ = p λ i e i e t i i=1 (1.4) Multivariate Dataverwerking Hoofdstuk 1 p. 11

12 met λ i en e i de p eigenwaarden en eigenvectoren van Σ, waarbij de eigenvectoren orthonormaal zijn (i.e. e t ie j = δ ij ). Eigenwaarden en eigenvectoren zijn de p verschillende oplossingen van Σe = λe. (1.5) Een onmiddellijk gevolg van de decompositie is Σ 1 = p i=1 1 λ i e i e t i. (1.6) Test voor MVN De Mahalanobis afstand vormt ook de basis voor een statistische toets voor goodness-of-fit om MVN te testen. De nulhypothese is H 0 : X N(µ, Σ). Stel X N(µ, Σ). We passen de Spectrale Decompositie toe op de Mahalanobis-afstand D 2 (x, µ). Nadien besturen we de distributie van D 2 (X, µ). De decompositie: D 2 (x, µ) = = = p (x µ) t 1 e i e t λ i(x µ) i i=1 p 1 [ e t λ i (x µ) ] 2 i p [ ] e t 2 i (x µ). (1.7) λi i=1 i=1 Hierin herkennen we een lineaire combinatie van de variabele x µ, waarvan de coëfficiënten gegeven worden door de coëfficiënten in de eigenvector e i. Aangezien een lineaire combinatie van een MVN variabele steeds univariaat normaal verdeeld is, kunnen we alvast stellen dat L i = e t i(x µ) univariaat normaal verdeeld is. Het gemiddelde van L i is eenvoudig, E {L i } = e t ie {X µ} = 0. Multivariate Dataverwerking Hoofdstuk 1 p. 12

13 De variantie berekenen we als volgt: Var {L i } = e t ivar {X µ} e i = e t ivar {X} e i = e t iσe i. Deze uitdrukken vereenvoudigen we verder door Σe i te substitueren met λ i e i (cfr. Vergelijking 1.5). Aldus wordt Var {L i } = e t iλ i e i = λ i e t ie i = λ i (de laatste stap: door de orthonormaliteit van de eigenvectoren). Vergelijking 1.7 schrijven we nu als (met x vervangen door X) p [ ] 2 D 2 Li (X, µ) =, λi i=1 waarin we herkennen dat L i λi N(0, 1). Verder onderzoeken we covarianties tussen de termen L i. Door gelijkaardige bewerkingen als voorheen vinden we (i j) Cov { } e t i(x µ), (x µ) t e j = e t i Σe j = e t iλ j e j = 0. Bijgevolg vinden we dat D 2 (X, µ) geschreven kan worden als D 2 (X, µ) = p i=1 Z i met Z i i.i.d. N(0, 1) (i = 1,..., p), wat exact de definitie is van een χ 2 -distributie met p vrijheidsgraden. Besluit: als X MV N(µ, Σ) dan D 2 (X, µ) χ 2 p. Een goodness-of-fit test kan dus geconstrueerd worden door op basis van een steekproef van n observaties (X 1,..., X n ) na te gaan of deze observaties inderdaad uit een χ 2 p distributie afkomstig zijn. Indien dit verworpen wordt, wordt door voorgaande argumentatie ook de hypothese van multivariate normaliteit verworpen. Multivariate Dataverwerking Hoofdstuk 1 p. 13

14 1.3.5 Voorbeeld In deze sectie werken we een voorbeeld uit voor het testen van MVN. We beschouwen de iris dataset. Als voorbeeld gebruiken we enkel de data van Setosa. 1. We selecteren de data van Setosa. setosa<-iris[iris$species=="setosa",] 2. We berekenen de geschatte variantie-covariantiematrix ˆΣ en het steekproefgemiddelde. > setosa.cov <- cov.wt(setosa[, 1:4]) > setosa.cov $cov: sepal.l sepal.b petal.l petal.b sepal.l sepal.b petal.l petal.b $center: sepal.l sepal.b petal.l petal.b $n.obs: [1] Vervolgens worden de gekwadrateerde Mahalanobis afstanden D 2 i (i = 1,..., 50) berekend. > setosa.d2 <- mahalanobis(setosa[, 1:4], setosa.cov$center, setosa.cov$cov) > setosa.d Multivariate Dataverwerking Hoofdstuk 1 p. 14

15 Om MVN (p = 5) na te gaan wordt met de data in setosa.d2 een QQ-plot t.o.v. een χ 2 5 distributie getekend. plot(qchisq(ppoints(setosa.d2),df=4),sort(setosa.d2),xlab="verwacht", ylab="geobserveerd") abline(c(0,1)) Het resultaat is weergegeven in Figuur 1.3. De figuur toont enkel een redelijk grote afwijking in de staart, maar we moeten ons realiseren dat een QQ-plot altijd erg gevoelig is in de staart van de distributie. We kunnen hier concluderen dat de data vrij goed MVN verdeeld is. 1.4 Likelihood Theorie Vele van de statistische testen die in deze cursus beschreven worden, zijn bijzondere gevallen van de likelihood ratio test. Dit is een algemene vorm van een test die gebaseerd is op likelihood theorie. Ook het schatten van parameters, zoals bv. µ of Σ is gebaseerd op Multivariate Dataverwerking Hoofdstuk 1 p. 15

16 geobserveerd verwacht Figuur 1.3: QQ-plot van de Mahalanobis afstanden voor de Setosa data deze theorie. Ook de kleinste kwadraten schatters in univariate statistiek zijn bijzondere gevallen van de schatters gebaseerd op likelihood theorie. In deze sectie geven we slechts een bondig en intuïtief georiënteerd overzicht van de likelihood methoden Likelihood We vertrekken van een steekproef, die we beschouwen als gegeven. In het bijzonder beschouwen we ze NIET meer als toevallige variabelen. We noteren dus x 1,..., x n. De theorie is gebaseerd op de likelihood. De likelihood kan geïnterpreteerd worden als een maat voor de waarschijnlijkheid dat de gegeven steekproef geobserveerd wordt indien het realisatie is van een variabele X die een vooropgestelde distributie heeft met ongekende parameters. We zullen ons hier beperken tot de MVN distributie. Aangezien X een continue variabele is, kunnen we de volgende kans niet berekenen (eigenlijk is deze kans gelijk aan nul) P {X 1 = x 1,..., X n = x n }. Aangezien we steeds veronderstellen dat de observaties onafhankelijk zijn van elkaar, vereenvoudigt de probabiliteit tot P {X 1 = x 1 }... P {X n = x n }. In Sectie (Vergelijking??) hebben we een gelijk probleem gehad. We hebben toen de probabiliteit in een kleien -omgeving beschouwd. Op die wijze hebben we vastgesteld Multivariate Dataverwerking Hoofdstuk 1 p. 16

17 dat de probabileit evenredig is met de densiteit. We vinden dus approximatief P {X 1 = x 1,..., X n = x n } f(x 1 )... f(x n ) = n f(x i ). i=1 De densiteiten zijn eigenlijk ook functie van de parameters µ en Σ. Om dit te benadrukken, schrijven we de densiteiten als f(x i ; µ, Σ). De likelihood wordt gedefinieerd als een functie van de parameters (de observaties worden immers als gegeven beschouwd), L(µ, Σ) = n f(x i ; µ, Σ). i=1 Dikwijls wordt ook met de log-likelihood gewerkt. Deze is gedefinieerd als l(µ, Σ) = ln L(µ, Σ) = n ln f(x i ; µ, Σ). i= Maximum Likelihood Schatters Schatters van parameters kunnen bekomen worden als de maximum likelihood schatters (ML). Een maximum likelihood schatter wordt gedefinieerd als de waarde van de parameter die de likelihood maximaliseert. De ML schatter voor µ vinden we dus als ˆµ = ArgMax µ L(µ, Σ). Indien Σ niet gekend is, schatten we beide simultaan, ( ˆµ, ˆΣ) = ArgMax µ,σ L(µ, Σ). Merk op dat het maximaliseren van de likelihood equivalent is met het maximaliseren van de log-likelihood. Dit laatste is soms eenvoudiger aangezien het uitgedrukt kan worden als een som i.p.v. een product. In het algemeen wordt de oplossing gevonden door numerieke optimalisatie, maar in het bijzondere geval van de MVN distributie wordt er een analytische oplossing gevonden die heel nauw aansluit bij deze van de univariate normale distributie. Voor het gemiddelde vinden we (we hebben de observaties terug vervangen door toevallige variabelen) ˆµ = [ Xi ] (i) Multivariate Dataverwerking Hoofdstuk 1 p. 17

18 (i = 1,..., p), met X i het univariate steekproefgemiddelde van variabele i. Uit de eigenschappen van X i volgt onmiddellijk dat E { ˆµ} = µ, i.e. de ML schatter is onvertekend. De elementen uit de matrix Σ worden ook eenvoudig geschat. We maken een onderscheid tussen de varianties σj 2 en de covarianties σ jk. ˆσ 2 j = 1 n n (X ij ˆµ j ) 2 i=1 Er kan aangetoond worden dat E {ˆσ 2 j } = n n 1 σ2 j,,dus de ML schatter is niet onvertekend, doch dit is heel eenvoudig te corrigeren. Om deze reden stellen we ˆσ 2 j = 1 n 1 n (X ij ˆµ j ) 2 i=1 niettegenstaande dit strikt genomen niet de ML schatter is. Ook voor de covariantie is de ML schatter eigenlijk vertekend (op dezelfde factor na. De gecorrigeerde schatter is ˆσ jk = 1 n 1 We verkrijgen aldus n (X ij ˆµ j )(X ik ˆµ k ). i=1 n n 1 ˆΣ = [ˆσ jk ] (j,k) (j, k = 1,..., p). De schatter ˆΣ kan ook eenvoudig berekend worden via matrixrekening: ˆΣ = 1 n 1 n (X i ˆµ)(X i ˆµ) t. i= Likelihood Ratio Test Om de notatie in deze sectie te vereenvoudigen, stellen we dat de likelihood een functie is van slechts één parametervector θ (we zouden alle 1-dimensionele elementen uit µ en Σ kunnen rangschikken in θ): L(θ). Stel dat er m onafhankelijke 1-dimensionale parameters zitten in θ. We stellen Θ de m-dimensionale ruimte waarin θ waarden kan aannemen, i.e. θ Θ. Multivariate Dataverwerking Hoofdstuk 1 p. 18

19 We zouden dus de ML schatter van θ ook kunnen schrijven als ˆθ = ArgMax θ Θ L(θ). We wensen de volgende nulhypothese te testen, H 0 : θ Θ 0, waar Θ 0 een m 0 -dimensionele deelruimte is van Θ (m 0 < m). H 0 drukt dus een restrictie van m m 0 dimensies uit op de parameterwaarde. De likelihood ratio teststatistiek is Λ = max θ Θ 0 L(θ) max θ Θ L(θ). Het is dus de verhouding van de maximale waarde van de likelihood onder de restrictie van H 0, tegenover het globale maximum van de likelihood (L( ˆθ)). Merk op dat Λ 1. Indien we ˆθ 0 definiëren als de waarde van θ die de gerestricteerde likelihoodfunctie maximaliseert, dan vinden we Λ = L( ˆθ 0 ) L( ˆθ). Er kan aangetoond worden dat onder H 0, als n, 2 ln Λ d χ 2 m m 0. Op basis van deze nuldistributie wordt onmiddellijk de beslissingsregel van de test afgeleid Voorbeeld Het voorbeeld dat hier behandeld wordt is het multivariate analogon van de one-sample t- test, i.e. de test die de hypothese toetst dat het gemiddelde gelijk is aan een vooropgestelde waarde. In het multivariate geval wordt dit H 0 : µ = µ 0 met µ 0 = [µ 0i ] (i) (i = 1,..., p) de vector met de p vooropgestelde univariate gemiddelden. We beschouwen een dataset van 11 bivariate observaties die als volgt bekomen zijn. Uit 11 verschillende oppervlaktewaters werden monsters genomen met de doelstelling deze te Multivariate Dataverwerking Hoofdstuk 1 p. 19

20 bod ss Figuur 1.4: Scatter plot matrix van de bod2 dataset laten analyseren door 2 laboratoria om na te gaan of beide labo s dezelfde analyseresultaten bekomen van BOD (Biological Oxygen Demand) en SS (Suspended Solids). Indien er slechts één variabele gemeten zou zijn, is dit een typische probleemstelling die met een gepaarde t-test opgelost zou worden. Aangezien er nu twee variabelen gemeten zijn, zullen we een bivariate gepaarde t-test ontwikkelen. Net zoals in het univariate geval, kan deze test ontwikkeld worden als een test voor het vergelijken van een (bivariaat) gemiddelde met een vooropgesteld (bivariaat) gemiddelde. Om dit mogelijk te maken moet uiteraard de data getransformeerd worden naar het bivariate verschil tussen de beide laboratoria. De getransformeerde data is weergegeven in Figuur 1.4. Stel X de p-variate variabele van het verschil. We veronderstellen X i i.i.d. N(µ, Σ) (i = 1,... n). Voorlopig veronderstellen we ook dat Σ gekend is. De nulhypothese is H 0 : µ = µ 0, i.e. een volledige restrictie op het gemiddelde. Om de likelihood ratio teststatistiek te construeren hebben we ML schatter van µ nodig, alsook de gerestricteerde schatter van µ onder de nulhypothese. Deze laatste is uiteraard steeds gelijk aan µ 0 en dus is Θ 0 = {µ 0 } en m 0 = 0. De ML schatter wordt gevonden door de likelihoodfunctie te maximaliseren over Θ = R p (m = p): ˆµ = X. Voor een MVN is de likelihood functie ( ) ( n 1 L(µ, Σ) = exp 1 (2π) p/2 Σ 1/2 2 ) n (X i µ) t Σ 1 (X i µ). i=1 Multivariate Dataverwerking Hoofdstuk 1 p. 20

21 We bekomen aldus Λ = max θ Θ 0 L(θ) max θ Θ L(θ) ( ) n ( 1 (2π) = p/2 Σ exp 1 n 1/2 2 i=1 (X i µ 0 ) t Σ 1 (X i µ 0 ) ) ( ) n ( 1 (2π) p/2 Σ exp 1 n 1/2 2 i=1 (X i X) t Σ 1 (X i X) ) = exp ( 1 n 2 i=1 (X i µ 0 ) t Σ 1 (X i µ 0 ) ) exp ( 1 n 2 i=1 (X i X) t Σ 1 (X i X) ) De likelihood ratiostatistiek is T = 2 ln [ Λ = 2 1 n (X i µ 0 ) t Σ 1 (X i µ 0 ) = n i=1 n ( X µ 0 ) t Σ 1 ( X µ 0 ) i=1 ] n (X i X) t Σ 1 (X i X) i=1 (In de laatste stap werd gebruik gemaakt van n i=1 X i = n X.) Indien Σ niet gekend is, kan er eenvoudig aangetoond worden dat in T alleen de matrix Σ vervangen moet worden met ˆΣ, i.e. T = n n ( X µ 0 ) t ˆΣ 1 ( X µ 0 ). i=1 Onder de nulhypothese geldt voor grote n, T χ 2 p. Merk op dat T ook geschreven kan worden als T = n ( ˆΣ) 1 ( X 1 µ 0 ) t ( n X µ 0 ) i=1 en dat 1 n ˆΣ Multivariate Dataverwerking Hoofdstuk 1 p. 21

22 de schatter is van 1 Σ = Var { X} n. Dit is volledig analoog met de univariate one-sample t-test. Als p = 1 vinden we de equivalentie T = t 2, wat onder H 0 verdeeld is als χ 2 1, wat exact het kwadraat is van een standaard normaal verdeelde variabele! Vervolgens analyseren we de bod dataset met deze test. 1. We berekenen de geschatte variantie-covariantiematrix ˆΣ en het steekproefgemiddelde X. > bod.cov <- cov.wt(bod2[, 2:3]) > bod.cov $cov: bod ss bod ss $center: bod ss $n.obs: [1] 11 In het object bod.cov zit dus alle nodige informatie om de teststatistiek te berekenen. 2. We berekenen de teststatistiek met µ t 0 = (0, 0). > t <- bod.cov$n * t(bod.cov$center) %*% solve(bod.cov$cov) %*% bod.cov$center > t [,1] [1,] We vinden T = Onder H 0 is T verdeeld als χ 2 2. De critische waarde op het α = 0.05 significantieniveau vinden we als volgt. Multivariate Dataverwerking Hoofdstuk 1 p. 22

23 > qchisq(0.95, df = 2) [1] Aangezien T = > besluiten we nulhypothese te verwerpen en we concluderen dat beide laboratoria niet dezelfde gemiddelde bod en ss analyseresultaten geven. Dit is een conclusie die dus simultaan geldt voor de variabelen bod en ss. Multivariate Dataverwerking Hoofdstuk 1 p. 23

24 Hoofdstuk 2 MANOVA 2.1 Inleiding MANOVA staat voor Multivariate Analysis of Variance; het is dus de multivariate uitbreiding van de univariate variantie-analyse. We zullen ons hier echter beperken tot een model met één factor, waar we geïnteresseerd zijn in het toetsen of m multivariate gemiddelden (simultaan) gelijk zijn aan elkaar. We beschouwen dus m p-variate populaties. Voor iedere populatie i (i = 1,..., m) beschikken we over een steekproef van n i observaties. We veronderstellen (i = 1,..., m; j = 1,..., n i ) X ij i.i.d. MV N(µ i, Σ i ). Stel n = m i=1 n i het totaal aantal observaties. De centrale nulhypothese in een MANOVA is i.e. H 0 : µ 1 =... = µ m, de m univariate gemiddelden van de p variabelen zijn simultaan gelijk aan elkaar. Zodra er één van deze gelijkheden niet geldt, wensen we de nulhypothese te verwerpen. Net zoals in het univariate geval, zullen we hier de veronderstelling van normaliteit nodig hebben, alsook de veronderstelling dat de m variantie-covariantiematrices gelijk zijn aan elkaar. 1

25 2.2 Vergelijken van m Variantie-Covariantiematrices Box M test De nulhypothese is H 0 : Σ 1 =... = Σ m. Dit is de hypothese van homoscedasticiteit. We maken dezelfde veronderstellingen als in Sectie 2.1. Dankzij de parametrische veronderstellingen, kan er een likelihood ratio statistiek geconstrueerd worden (zonder bewijs). Een likelihood ratio statistiek is gebaseerd op (1) de likelihoodfunctie, (2) parameterschatters die bekomen zijn zonder restrictie, en (3) parameterschatters onder de restrictie van de nulhypothese: 1. uit de veronderstelling dat alle observaties i.i.d. MVN verdeeld zijn, volgt onmiddellijk de likelihoodfunctie 2. de niet-gerestricteerde parameterschatters zijn ˆΣ 1,..., ˆΣ m, welke de ML schatters zijn die berekend zijn op basis van de observaties in respectievelijk groep 1,..., groep m. De schatters van µ i zijn de klassieke steekproefgemiddelden (i = 1,..., m). Aangezien in iedere matrix 1 p(p+1) parameters geschat worden, zijn er in het totaal 2 mp(p + 1) vrijheidsgraden onder H 0 is er slechts één variantie-covariantiematrix die gelijk is in de m groepen; we noemen deze matrix Σ. Onder deze restrictie is de schatter van Σ de gepoolde schatter ˆΣ = m i=1 (n i 1) ˆΣ i m i=1 (n i 1) = 1 n m m (n i 1) ˆΣ i. (2.1) Onder deze restrictie zijn er nog maar 1 p(p + 1) vrijheidsgraden. 2 De likelihood ratio is n/2 ˆΣ Λ = ˆΣ 1 n 1/2... ˆΣ m. nm/2 i=1 Multivariate Dataverwerking Hoofdstuk 2 p. 2

26 De likelihood theorie vertelt ons dat asymptotisch onder H 0, met 2 ln Λ χ 2 ν ν = 1 p(p + 1)(m 1). 2 Niettegenstaande bovenstaande theorie asymptotisch (n ) geldig is, blijkt de convergentie erg traag te zijn, alsook blijkt het resultaat erg gevoelig te zijn aan afwijkingen van de veronderstelling van MVN. Er zijn twee aanpassingen in de literatuur bekend onder de naam van Box M test, welke gedeeltelijk tegemoet komen aan deze opmerkingen. De aangepaste teststatistieken zijn gebaseerd op M = (n m)/2 ˆΣ ˆΣ 1 (n 1 1)/2... ˆΣ m. (nm 1)/2 De twee aanpassingen zijn (de distributies zijn approximatief): 2(1 c 1 ) ln M χ 2 ν met c 1 een constante die afhangt van n i en m (formule niet gegeven) 2b ln M F ν,ν met b en ν constanten die afhangen van n i en m (formules niet gegeven) Voorbeeld We introduceren eerst een nieuwe dataset: spreeuw. Na een storm op het einde van de 19de eeuw werden een aantal spreeuwen naar een biologisch laboratorium in de VS gebracht, waar men een aantal metingen op de vogels heeft gedaan. De 5 morfologische variabelen die men gemeten heeft, zijn Totale lengte (X1), Alar uiteinde (X2), Bek- en Koplengte (X3), Humerus lengte (X4) en Kiellengte van Sternum (X5). In de dagen na de storm zijn er ongeveer de helft van de vogels gestorven. De variabele SURVIVOR is een factor (met 2 Multivariate Dataverwerking Hoofdstuk 2 p. 3

27 niet overleven overleven X X2 33 X X X Figuur 2.1: Scatter plot matrix van de spreeuw dataset niveaus) die aanduidt of de vogel aldanniet gestorven is. Een scatter plot matrix is weergegeven in Figuur 2.1. We wensen de nulhypothese te toetsen dat er geen verschil is tussen de overlevende (groep 1) en de overledene (groep 2) in gemiddelde morfologische metingen: H 0 : µ 1 = µ 2 (dit wordt verder behandeld). Hiertoe moeten we eerst testen of de twee variantie-covariantiematrices gelijk zijn: H 0 : Σ 1 = Σ Om de Box-M test in S-Plus te gebruiken, moeten we weten in welke kolommen de afhankelijke variabelen staan en in welke kolom de factor staat. > names(spreeuw) [1] ".BIRD.ID" "SURVIVOR" "X1" "X2" "X3" [6] "X4" "X5" De ahfhankelijke variabelen staan in de kolommen 3,4,5,6 en 7. groepen aanduidt, staat in kolom 2. De factor die de 2. De Box-M test. > BoxM.test(spreeuw, c(3, 4, 5, 6, 7), 2) Multivariate Dataverwerking Hoofdstuk 2 p. 4

28 *** BoxM test *** Chi^2 Value = Df = 15 p-value = De implementatie maakt gebruik van de χ 2 -distributie. We lezen p = 0.79 > 0.05 en we besluiten dat we mogen aannemen dat de 2 variantie-covariantiematrices gelijk zijn. 2.3 Likelihood Ratio Test Wilks Lambda Test We testen de nulhypothese H 0 : µ 1 =... = µ m. We maken dezelfde veronderstellingen als deze gegeven in Sectie 2.1. Verder veronderstellen we dat de m variantie-covariantiematrices gelijk zijn (Σ). De schatter voor Σ is de gepoolde variantie-covariantiematrix (Vergelijking 2.1). Om de likelihood ratio statistiek op te stellen moeten we de gemiddelden µ i (i = 1,..., m) schatten zonder en met de restrictie van H 0 : zonder restrictie: µ i wordt geschat door ˆµ i = X i Het aantal vrijheidsgraden is dus mp. met restrictie: onder H 0 is er slechts één multivariaat gemiddelde (stel µ). Dit wordt geschat door geen onderscheid te maken tussen de m groepen, dus ˆµ = X = 1 n m n i X ij. i=1 j=1 Het aantal vrijheidsgraden is p. Multivariate Dataverwerking Hoofdstuk 2 p. 5

29 Er kan aangetoond worden dat de likelihood ratio statistiek gegeven wordt door met Λ = ( ) 2/n E = B + E ( ) 2/n E, T E = (n m) ˆΣ = m n i (X ij X i ) t (X ij X i ) i=1 j=1 B = m n i ( X i X) t ( X i X) = i=1 j=1 m n i ( X i X) t ( X i X) (2.2) i=1 T = B + E = m n i (X ij X) t (X ij X). i=1 j=1 Merk op dat de matrices E, B en T multivariate uitbreidingen zijn van de univariate kwadratensommen van respectievelijk de fout, de behandeling en het totaal. We noemen deze matrices, matrices van kwadraten en kruisproducten van de fout (E), van de behandeling (of tussen groepen; B) en van het totaal (T ). Onder de nulhypothese geldt asymptotisch 2 ln Λ χ 2 p(m 1). In de praktijk worden echter meestal F -approximaties gebruikt; we gaan hierop verder niet in. Deze likelihood ratio test wordt ook Wilks Lambda test genoemd. Met Wilks Lambda wordt eigenlijk enkel bedoeld. E B + E = E T Voorbeeld We beschouwen terug de spreeuw dataset. 1. We voeren de MANOVA uit. Multivariate Dataverwerking Hoofdstuk 2 p. 6

30 > spreeuw.maov <- manova(cbind(x1, X2, X3, X4, X5) ~ SURVIVOR, data = spreeuw) > spreeuw.maov Call: manova(cbind(x1, X2, X3, X4, X5) ~ SURVIVOR, data = spreeuw) Terms: SURVIVOR Residuals Deg. of Freedom out of 5 effects not estimable Estimated effects may be unbalanced Uit deze output leren we echter weinig. We moeten de summary functie op het object spreeuw.maov toepassen, maar eerst nog een korte toelichting bij een object zoals spreeuw.maov. De output die we zien, bevat niet alle informatie die aanwezig is in het object. Om te weten te komen wat er allemaal in spreeuw.maov zit, gebruiken we de functie names: > names(spreeuw.maov) [1] "coefficients" "residuals" "fitted.values" "effects" [5] "R" "rank" "assign" "df.residual" [9] "contrasts" "terms" "call" Hieruit leren we o.a. dat de geschatte coëfficiënten ook in het object zitten: > spreeuw.maov$coefficients X1 X2 X3 X4 (Intercept) SURVIVOR X5 (Intercept) SURVIVOR Multivariate Dataverwerking Hoofdstuk 2 p. 7

31 Dit zijn de geschatte parameters in het MANOVA model (we zijn hier in deze cursus niet op ingegaan omdat voor onze doeleinden het volstaat de multivariate gemiddelden binnen iedere groep te schatten). 2. > summary(spreeuw.maov, test = "wilk") Df Wilks Lambda approx. F num df den df P-value SURVIVOR Residuals 47 Uit de output is af te leiden dat S-Plus een F -approximatie van de Wilks Lambda test heeft berekend. Dit resulteert in p = > 0.05 en we besluiten bijgevolg dat er geen significant verschil is in de multivariate gemiddelden van de morfologische variabelen tussen de groep van de overlevende spreeuwen en de groep van de overleden spreeuwen. 3. Eigenlijk kan het resultaat van de summary functie eveneens in een object bewaard worden. Op deze wijze kunnen we met de names functie nagaan of er meer informatie in het object zit dan wat standaard weergegeven wordt. > spreeuw.maov.sum <- summary(spreeuw.maov, test = "wilk") > names(spreeuw.maov.sum) [1] "row.names" "SS" "Df" "Eigen.values" [5] "Stats" "test" We tonen wat het $SS object inhoudt: > spreeuw.maov.sum$ss $SURVIVOR: X1 X2 X3 X4 X5 X X X X X $Residuals: Multivariate Dataverwerking Hoofdstuk 2 p. 8

32 X1 X2 X3 X4 X5 X X X X X Het object spreeuw.maov.sum$ss bevat twee matrices. De matrix spreeuw.maov-.sum$ss$survivor is de matrix B en de matrix spreeuw.maov.sum$ss$residuals is de matrix E Alternatieve Testen In de literatuur zijn vele alternatieve testen verschenen voor het testen van de nulhypothese van gelijke multivariate gemiddelden. De meest bekende zijn: Lawley-Hotelling trace, Pillai-Bartlett trace en Roy s largest root. We bespreken hier enkel kort Pillai-Bartlett trace. De Engelse term trace betekent het spoor van een matrix, i.e. de som van de diagonaalelementen. De teststatistiek is T = tr ( B(E + B) 1). Ook voor deze statistiek zijn er χ 2 en F -approximaties voor de asymptotische nuldistributie. Het voordeel van deze test t.o.v. de andere (inc. de likelihood ratio) is zijn grotere robuustheid voor afwijkingen van MVN en homoscedasticiteit. In S-Plus vinden we de Pillai-Bartlett trace test ook in de summary functie voor een MA- NOVA object: > summary(spreeuw.maov, test = "pillai") Df Pillai Trace approx. F num df den df P-value SURVIVOR Residuals 47 Multivariate Dataverwerking Hoofdstuk 2 p. 9

33 We bekomen hier hetzelfde besluit als met de Wilks test. Het resultaat is zelfs exact gelijk, maar dat ik omdat in het geval p = 2 al de vermelde toetsen volledig equivalent zijn (dit geldt niet meer als p > 2) Hotelling s T 2 Test Wanner m = 2 kan er aangetoond worden dat n 1 n 2 2 ln Λ = ( n 1 + n X 1 X 2 ) t ˆΣ 1 ( X 1 X 2 ) 2 [( = ( X 1 X 1 2 ) t + 1 ) 1 ˆΣ] ( n 1 n X 1 X 2 ) 2 Deze teststatistiek wordt Hotelling s T 2 genoemd. T 2 refereert naar het kwadraat van een t-teststatistiek in het univariate geval; indien p = 1 is dit inderdaad zo. ( ) 1 Merk ook op dat n n 2 ˆΣ de geschatte variantie-covariantie matrix is van X1 X 2. Multivariate Dataverwerking Hoofdstuk 2 p. 10

34 Hoofdstuk 3 Principale Componenten Analyse Principale Componenten Analyse (PCA) is een multivariate methode die dikwijls gebruikt wordt voor dimensiereductie, Het is een methode die de p oorspronkelijke variabelen X 1,..., X p transformeerd naar een p principale componenten (PC s) Z 1,..., Z p zonder informatieverlies. Door de specifieke constructie van de PC s volstaat het vaak om slechts q < p PC s te weerhouden voor verdere analyse zonder veel informatieverlies. We zullen ook zien dat PC s niet zomaar statistische constructies zijn, maar dat dat ze daarentegen ook geïnterpreteerd kunnen worden; op deze wijze kan de variabiliteit die aanwezig is in de steekproef met meer inzicht geïnterpreteerd worden. PCA wordt overwegend als een exploratieve statistische methode gebruikt, i.e. statistische inferentie (testen en betrouwbaarheidsintervallen) komen er bijna niet aan te pas. Om deze reden zullen we in dit hoofdstuk steeds werken met de werkelijke gemiddelden µ en variantie-covariantiematrix Σ. In de praktijk worden deze uiteraard vervangen door hun schatters ˆµ en ˆΣ. Deze substitutie heeft wel degelijk gevolgen voor de eigenschappen van de PCA, maar hier gaan we niet verder op in. 3.1 Informatie versus Variantie In de cursus Proefopzet hebben we gezien dat variantie op een parameterschatter omgekeerd evenredig is met de informatie over de parameter. Hier zullen we net omgekeerd redeneren: indien er geen variabiliteit is in de dataset, bevat de dataset geen informatie! We geven een eenvoudig voorbeeld: stel dat je een dataset verzameld met gegevens over bomen (bv. 1

35 de hoogte) en over de habitat (bv. hoogte boven de zeespiegel). Indien er geen variantie in de dataset aanwezig is (i.e. alle bomen zijn even groot en alle habitats zijn even hoog), dan kan je niet leren uit deze data: de data heeft geen informatie-inhoud. Stel hetzelfde voorbeeld als in de vorige paragraaf, maar stel dat er nu wel variabiliteit is en dat er een negatieve correlatie is tussen de twee variabelen. In dat geval kan één van beide variabelen voorspeld worden op basis van de andere (met predictievariantie evenwel). Dit impliceert dat de ene variabele informatie over de andere variabele bezit en vice versa. We spreken dan over informatie-overlapping. Indien daarentegen beide variabelen onafhankelijk zijn, dan is de correlatie gelijk aan nul en hebben de variabelen geen onderlinge predictiekracht. 3.2 Bepalen van de Principale Componenten Zoals in de inleiding reeds vermeld, is PCA mathematisch eigenlijk een transformatie van p oorspronkelijke variabelen naar p nieuwe variabelen die we de PC s noemen. We gaan eerst in op de berekening van de eerste PC, daarna tonen we hoe de volgende bepaald worden De Eerste Principale Component Een PC is een lineaire combinatie van de p variabelen X t = (X 1,..., X p ). De multivariate variabele X heeft variantie-covariantiematrix Σ. We stellen de PC voor als Z = a 1 X 1 + a2x a p X p = a t X, met a t = (a 1,..., a p ) de vector met de coëfficiënten. We wensen dat de PC zo veel mogelijk informatie bevat, i.e. we wensen dat Z een maximale variantie heeft. Aangezien Z een lineaire combinatie is van een multivariate variabele, kunnen we de variantie van Z eenvoudig berekenen: Var {Z} = Var { a t X } = a t Σa. Als we de probleemstelling niet strenger maken, is de oplossing triviaal: maak alle coëfficiënten gelijk aan + en de variantie van Z is ook +. Dit is vanzelfsprekend geen interessante oplossing. Daarom introduceren we een extra conditie: de norm van a is één, i.e. p a t a = a 2 i = 1. i=1 Multivariate Dataverwerking Hoofdstuk 3 p. 2

36 Om tot de oplossing te komen, substitueren we Σ door de SD voorstelling (Vergelijking 1.4), ( p ) Var {Z} = a t λ i e i e t i a i=1 = = p λ i (a t e i )(e t ia) i=1 p λ i (a t e i ) 2. i=1 We nemen de conventie aan dat de eigenwaarden geordend zijn, λ 1 > λ 2 >... > λ p > 0. Aangezien a t a = 1 en e t ie i = 1 geldt p (a t e i ) 2 = 1. i=1 Bijgevolg is Var {Z} max i λ i = λ 1 met gelijkheid enkel en alleen als a = e 1. Dit geeft meteen de oplossing van het vraagstuk: a = e 1 en met deze keuze is de maximaal bereikbare variantie van de lineaire combinatie van X, Var {Z} = λ Meetkundige Interpretatie We beschouwen X en a als punten of vectoren in een p dimensionale Euclidische ruimte. Dan is a t X een orthogonale projectie van X op a. Om een verdere meetkundige betekenis te kunnen geven aan de PC Z, beschouwen we de kwadratische vorm a t Σ 1 a. Multivariate Dataverwerking Hoofdstuk 3 p. 3

37 Dit is exact de Mahalanobis-afstand van het punt a tot het middelpunt 0 t = (0... 0) van de p-dimensionale ruimte. We kunnen dan terug de verzameling punten a beschouwen waarvoor a t Σ 1 a = c, met c een constante. We weten uit Sectie dat de punten a op een ellips met centrum 0 liggen. Vervolgens substitueren we Σ 1 door haar SD voorstelling (Vergelijking 1.6), c = a t Σ 1 a = = = p 1 (a t e i ) 2 λ i p ( ) a t 2 e i λi i=1 i=1 p i=1 ( yi λi ) 2 met y i = a t e i. In deze laatste vergelijking herkennen we onmiddellijk de vergelijking van een ellips met assen evenwijdig aan het assenstelsel (e 1, e 2..., e p ) waarin y i de coördinaten zijn. De keuze a = e 1 (eerste PC) resulteert in y 1 = 1, y 2 = 0, y 3 = 0,..., y p = 0; dit is een punt op de hoofdas van de ellips. Dit resultaat geeft tevens een interpretatie aan de eigenvectoren: het zijn de vectoren die de assen van de constante densiteitsellips vormen; dus e 1 wijstïn de richting van de grootste variantie in de data Meerdere Principale Componenten Eens de eerste principale component gevonden is (we noemen deze Z 1 ), kunnen we naar een tweede PC zoeken. De finale doelstelling is om met zo weinig mogelijk PC s zo veel mogelijk informatie uit de oorspronkelijke data te vatten. Indien de tweede PC gecorreleerd zou zijn met de eerste, hebben we zogenaamde informatie-overlapping (zie Sectie 3.1); dit lijkt dus niet de meest efficiënte aanpak. Daarom stellen we als voorwaarde bij de zoektocht naar de tweede PC dat Cov {Z 2, Z 1 } = 0. Eigenlijk wensen we onafhankelijkheid, maar dit is technisch een hele moeilijke conditie. Daarom eisen we enkel een covariantie gelijk aan nul (beide zijn equivalent indien de PC s bivariaat normaal verdeeld zijn). De tweede PC is gedefinieerd als Z 2 = a 21 X 1 + a 22 X a 2p X p = a t 2X Multivariate Dataverwerking Hoofdstuk 3 p. 4

38 zodanig dat Z 2 een maximale variantie heeft onder alle mogelijke lineaire combinaties van X met de restricties dat (1) a t 2a 2 = 1 en Cov {Z 2, Z 1 } = 0. De uitdrukking voor de variantie van Z 2 is weer via de substitutie van de SD representatie van Σ, Var {Z 2 } = p λ i (a t 2e i ) 2 (3.1) i=1 Ook de covariantie is een eenvoudige uitdrukking, Cov {Z 2, Z 1 } = Cov { a t 2X, X t a 1 } = a t 2Σa 1 p = λ i (a t 2e i )(e t ia 1 ). i=1 Uit deze laatste uitdrukking volgt onmiddellijk de oplossing: de covariantie kan enkel nul zijn indien a 2 loodrecht staat op iedere eigenvector e i, behalve deze eigenvectoren waarop a 1 loodrecht op staat. Aangezien a 1 = e 1 en omdat de eigenvectoren een orthonormale basis vormen, staat a 1 loodrecht op de eigenvectoren e i (i 1). Bijgevolg moet a 2 gelijk zijn aan één van de eigenvectoren e i (i = 2,..., p). Anderzijds moet de variantie van Z 2 ook maximaal zijn. Uit vergelijking 3.1 volgt dan onmiddellijk dat de keuze a 2 = e 2 de gewenste oplossing geeft. De bereikte variantie is dan Var {Z 2 } = λ 2. De oplossing voor de volgende PC s is analoog. Voor de j-de PC, Z j = a j1 X a jp X p = a t jx zoeken we de coëfficiënten a j die de variantie van Z j maximaliseert onder alle lineaire combinaties waarvoor Cov {Z j, Z 1 } = 0 en Cov {Z j, Z 2 } = 0... Cov {Z j, Z j 1 } = 0 (j = 3,..., p). De oplossing is steeds a j = e j, waarvoor Var {Z j } = λ j. Multivariate Dataverwerking Hoofdstuk 3 p. 5

39 We hebben dus aangetoond dat de PC s volledig bepaald worden door de eigenwaarden en eigenvectoren van Σ. De meetkundige interpretatie van de PC s volgt onmiddellijk uit de resultaten van Sectie 3.2.2: de eigenvectoren vormen de assen van de constante densiteitsellips Covariantie of Correlatie? Eenvoudig gesteld, is de wijst de eerste PC in de richting van de grootste variantie. Het is eenvoudig in te zien dat indien één van de p oorspronkelijke variabelen een relatief grote variantie heeft t.o.v. de andere, dat Z 1 gedomineerd zal zijn door deze variabele. In sommige datasets is dit belangrijk om te detecteren en is er helemaal geen conflict met de doelstelling van PCA (bv. wanneer X 1 het gewicht (in kg) is op dag 1, X 2 is het gewicht (in kg) op dag 2, enz.). Wanneer echter de variabelen verschillende grootheden voorstellen (bv. X 1 is het gewicht (in kg) en X 2 is de lengte (in cm)), is de onderlinge verhouding tussen de variantie sterk afhankelijk van de eenheden waarin de metingen gebeurd zijn (bv. door het gewicht X 1 in g uit te drukken en de lengte X 2 in m). Bijgevolg zal de PCA oplossing sterk bepaald worden door de keuze van de eenheden, wat later de interpretatie bemoeilijkt. In dit laatste geval is het beter om met de gestandardiseerde variabelen te werken: X is = X i σ i (i = 1,..., p). Hiervoor geldt Var {X is } = Var {X i} σ 2 i = 1 en Cov {X is, X js } = Cov {X i, X j } σ i σ j = σ ij σ i σ j = ρ ij. Bijgevolg is de variantie-covariantie matrix van de gestandardiseerde variabelen gelijk aan de correlatie matrix. Een PCA kan dus zowel uitgevoerd worden op de variantie-covariantiematrix als op de correlatiematrix. Multivariate Dataverwerking Hoofdstuk 3 p. 6

40 AGR MIN MAN PS CON SER FIN SPS TC Figuur 3.1: Scatter plot matrix van de industrie dataset Voorbeeld Alvorens verder te gaan met methoden om een meer doorgedreven interpretatie te bekomen, tonen we reeds hoe in S-Plus een PCA uitgevoerd kan worden en hoe PC s ge ınterpreteerd kunnen worden binnen de context van een dataset. We introduceren eerst een nieuwe dataset: industrie. Deze dataset bevat van 26 Europese landen de percentuele werkgelegenheidcijfers in 9 sectoren. Dus we hebben p = 9 variabelen en n = 26 observaties. Figuur 3.1 toont de scatter plot matrix. De variabelen zijn: AGR (landbouw), MIN (mijnbouw), MAN (productie), PS (krachtcentrales), CON (bouw), SER (diensten), FIN (financiën), SPS (sociale sector) en TC (transport en communicatie). 9 Variabelen zijn moeilijk te interpreteren wanneer we algemene conclusies over de landen wensen te maken, daarom zullen we een PCA toepassen in de hoop de dimensionaliteit te kunnen reduceren en om inzicht in de variabiliteit van de data te krijgen. 1. De p = 9 PC s worden berekend op basis van de gestandardiseerde variabelen. > industrie.pca <- princomp(industrie[, 2:10], cor = T) Multivariate Dataverwerking Hoofdstuk 3 p. 7

41 > industrie.pca Standard deviations: Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp Comp. 7 Comp. 8 Comp The number of variables is 9 and the number of observations is 26 Component names: "sdev" "loadings" "correlations" "scores" "center" "scale" "n.obs" "call" "factor.sdev" "coef" Call: princomp(x = industrie[, 2:10], cor = T) De output start met de standaarddeviaties van de 9 PC s. Dus het kwadraat zijn de varianties van de PC s die ook gelijk zijn aan de eigenwaarden. De standaard output is erg kort, maar in de output staat reeds het resultaat van de names functie. Hierin lezen we bv. loadings ; dit zijn de coëfficiënten van de PC s, i.e. de eigenvectoren. 2. de loadings worden als volgt bekomen. > industrie.pca$loadings Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6 Comp. 7 AGR MIN MAN PS CON SER FIN SPS TC Multivariate Dataverwerking Hoofdstuk 3 p. 8

42 Comp. 8 Comp. 9 AGR MIN MAN PS CON SER FIN SPS TC Onmiddellijk valt op dat er hier en daar gaten zijn. Dit is omdat er in S-Plus een interne cutof waarde van 0.1 zit, i.e. coëfficiënten kleiner dan 0.1 worden niet getoond. Dit kan omzeild worden met het commando print(industrie.pca$loadings,cutof=0) (resultaten niet getoond). Volgens de output wordt de eerste PC gegeven door (coëfficiënten kleiner dan 0.1 gelijk aan nul gesteld) Z 1 = 0.52AGR MAN PS CON SER SPS TC. Merk op dat enkel AGR een negatieve coëfficiënt heeft; alle andere hebben een positieve coëfficiënt van ongeveer gelijke grootte. We noemen dit een contrast: Z 1 contrasteert de werkgelegenheid in de landbouwsector (AGR) tegenover alle andere sectoren (behalve mijnbouw en financiën). Het is dus voornamelijk volgens dit contrast dat de Europese landen van elkaar verschillen. De tweede PC is Z 2 = 0.62MIN MAN PS 0.35SER 0.45FIN 0.22SPS TC. Het is terug een contrast. Ditmaal tussen enerzijds mijnbouw, productie, krachtcentrales en transport, en anderzijnds diensten, financiën en de sociale sector. We zouden dit kunnen zien als een contrast tussen zware industrie t.o.v. de zachtere sectoren. We komen verder nog terug op dit voorbeeld. Multivariate Dataverwerking Hoofdstuk 3 p. 9

43 3.3 Aantal PC s Bepalen Reeds in de inleiding hebben we vermeld dat één van de doelstellingen van een PCA een dimensiereductie kan zijn, maar tot nog toe hebben we enkel aangetoond dat een PCA eigenlijk een transformatie is van de p oorspronkelijke variabelen naar p nieuwe variabelen (PC s). We hebben wel al aangehaald dat de eerste PC de grootste variantie heeft, en dus de grootste informatie-inhoud bezit. In deze sectie bespreken we enkele hulpmiddelen die aangewend kunnen worden ter ondersteuning naar de zoektocht van een gepast aantal te weerhouden PC s. Enerzijds willen we dus voldoende PC s weerhouden om niet te veel informatie te verliezen, maar anderzijds wensen we dit met zo weinig mogelijk PC s bereiken om de interpretatie eenvoudig te houden Eigenwaarden Vanuit de redenering dat variantie evenredig is met informatie-inhoud, stellen we de totale informatie-inhoud voor als de totale variantie, p σi 2. i=1 Anderzijds is er de eigenschap van de eigenwaarden van Σ, tr(σ) = p σi 2 = i=1 p i=1 λ i en omdat λ i = Var {Z i } bekomen we p σi 2 = i=1 p Var {Z i }. i=1 Ten eerste toont dit aan dat de PCA transformatie tot geen verlies van informatie-inhoud leidt, maar ten tweede leren we hieruit ook dat λ i p j=1 λ j aangeeft hoe belangrijk de i-de PC is met betrekking tot de totale informatie-inhoud. Multivariate Dataverwerking Hoofdstuk 3 p. 10

44 Op basis van deze argumentatie, wordt in de praktijk dikwijls de volgende vuistregel gehanteerd: weerhoud voldoende PC s opdat er minstens 80% van de totale variantie behouden blijft. Voorbeeld: In S-Plus bekomen we de nodige informatie als volgt: > summary(industrie.pca) Importance of components: Comp. 1 Comp. 2 Comp. 3 Comp. 4 Standard deviation Proportion of Variance Cumulative Proportion Comp. 5 Comp. 6 Comp. 7 Comp. 8 Standard deviation Proportion of Variance Cumulative Proportion Comp. 9 Standard deviation e-003 Proportion of Variance e-006 Cumulative Proportion e+000 S-Plus geeft voor iedere PC Z i zowel zouden we 4 componenten moeten weerhouden. λ i p, als i j=1 λ j. Volgens de vuistregel van 80% j=1 λ j p j=1 λ j Scree Plot De Scree plot is een grafische voorstelling van de eigenwaarden. Het nut ervan kan best via een voorbeeld ge ıllustreerd worden. Voorbeeld: In S-Plus bekomen we de scree plot als volgt: > screeplot(industrie.pca) Multivariate Dataverwerking Hoofdstuk 3 p. 11

45 industrie.pca Variances Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6 Comp. 7 Comp. 8 Comp. 9 Figuur 3.2: Scree plot van de industrie dataset De scree plot is weergegeven in Figuur 3.2. In een scree plot wordt voornamelijk gezocht naar het knikpunt of de ëllenboog, dit is het punt waar de daling plots niet meer stijl verloopt. In dit voorbeeld is dit ofwel tussen PC2 en PC3, ofwel tussen PC4 en PC5. De redenering is: indien bv. beslist wordt om PC3 toch nog op te nemen, dan moeten we PC4 eigenlijk ook nog weerhouden want PC3 en PC4 hebben bijna een gelijke eigenwaarde. Daarom is het beter bij PC2 te stoppen; daar treedt dit probleem niet op. (Dezelfde redenering geldt bij PC4-PC5.) 3.4 Biplot Scores We hebben de PCA behandeld als een transformatie. Dit betekent dat alle n observaties getransformeerd kunnen worden naar de observaties op de PC s. De getransformeerde observaties noemen we de scores. Deze kunnen als gewone variabelen behandeld worden. In het voorbeeld van Sectie hebben we gezien dat één van de objecten binnen het industrie.pca object de naam scores draagt. Deze kunnen dus opgevraagd worden in S-Plus. Hieronder tonen we hoe de scores bekomen worden en hoe deze als nieuwe variabelen aan de oorspronkelijke dataset toegevoegd worden. > industrie.pca$scores Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Multivariate Dataverwerking Hoofdstuk 3 p. 12

46 We voegen de eerste 2 PC s als nieuwe variabelen toe aan de industrie dataset en we noemen de uitgebreide dataset industrie2. Vervolgens kijken we naar de namen van de variabelen en passen we deze aan. > industrie2<-cbind(industrie,industrie.pca$scores[,1:2]) > names(industrie2) [1] "COUNTRY" "AGR" "MIN" "MAN" "PS" "CON" [7] "SER" "FIN" "SPS" "TC" "Comp..1" "Comp..2" > names(industrie2)[11:12] <- c("pc1", "PC2") > names(industrie2) [1] "COUNTRY" "AGR" "MIN" "MAN" "PS" "CON" [7] "SER" "FIN" "SPS" "TC" "PC1" "PC2" Aangezien PC1 en PC2 nu gewone variabelen zijn die 62% van de totale variantie van de dataset dragen, kunnen we proberen hieruit iets te leren door bv. een scatter plot van PC1 en PC2 te maken. Dit is weergegeven in Figuur 3.3. Gezien de interpreteerbaarheid van de PC s, is het eenvoudig om op basis van deze ene figuur verregaande conclusies te trekken i.v.m. de werkgelegenheid in de weergegeven 26 landen Biplot De biplot is een figuur die de volledige PCA samenvat. Haar constructie steunt op de Singular Value Decomposition van de n p datamatrix X. Eigenlijk werken we in deze Multivariate Dataverwerking Hoofdstuk 3 p. 13

47 3 Hungary Czechoslovakia E. Germany Poland 1 Romania Bulgaria USSR Luxembourg PC2 Austria W. Germany -1 Turkey Yugoslavia Greece Ireland UK Portugal Spain ItalySwitzerland Finland France Norway Belgium Sweden Netherlands Denmark PC1 Figuur 3.3: Scatter plot van de twee eerste PC s van de industrie dataset sectie met de gecentreerde datamatrix, i.e. iedere kolom j van X wordt verminderd met het overeenkomstige kolomgemiddelde X j (i = j,..., p). We voeren hiervoor echter geen nieuwe notatie in. Voor deze matrix vinden we [ n ] X t X = (X ij X j )(X ik X k ) = (n 1) ˆΣ i=1 (jk) (j, k = 1,..., p). Met zoals steeds ˆΣ een niet-singulier matrix. De rank van ˆΣ en van X is dus p. Singular Value Decomposition De Singular Value Decomposition (SVD) is een stelling die zegt dat voor iedere n p matrix X met rank p er hetvolgde bestaat: p orthonormale vectoren l i van lengte n p orthonormale vectoren m i van lengte p p positieve reële getallen δ 1... δ p (zogenaamde singular values van de matrix X) Multivariate Dataverwerking Hoofdstuk 3 p. 14

48 zodanig dat X = p δ i l i m t i i=1 (3.2) Stel M de p p matrix met als i-de kolom m i, en L de n p matrix met als i de kolom l i, en de p p diagonaalmatrix met i-de diagonaalelement gelijk aan δ i, dan is Vergelijking 3.2 equivalent met X = L M t. (3.3) De kolommen van M kunnen nog op een andere (equivalente) manier bekomen worden. Hiertoe berekenen we X t XM door de twee X matrices te substitueren met de SVD uit Vergelijking 3.3: X t XM = M L t L M t M = M 2 (3.4) (L t L = I en M t M = I wegens de orthonormaliteit van de kolommen, en = 2 wegens de diagonaliteit). Dit is hetzelfde als X t Xm i = δi 2 m i. Dus δi 2 en m i zijn de eigenwaarden en eigenvectoren van X t X = (n 1) ˆΣ; op de constante factor n 1 na, is dit de oplossing van een PCA! Wegens de orthonormaliteit van zowel m i als van e i, is δi 2 = (n 1)λ i en m i = e i. Op analoge wijze vinden we dat de l i (i = 1,..., p) de eigenvectoren zijn van de matrix XX t (deze is ook maar van rank p). Of, nog eenvoudiger, uit Vergelijking 3.3 volgt rechtstreeks door beide leden met M 1 te vermenigvuldigen L = XM 1. (3.5) De Factorisatie van Gabriel Iedere n p matrix X van rank r kan gefactoriseerd worden als (niet unieke factorisatie) X = GH t (3.6) met G en H respectievelijk een n r en een p r matrix, beide van rank r. Voor onze toepassing is r = p. Multivariate Dataverwerking Hoofdstuk 3 p. 15

49 Door een gepaste keuze van G en H bekomen we terug de SVD uit Vergelijking 3.3: G = (n 1) 1/2 L en H = (n 1) 1/2 M (de factoren (n 1) 1/2 en (n 1) 1/2 zullen later duidelijk worden). Merk op dat ieder element X ij van matrix X gelijk is aan g t ih j (g i en h j zijn respectievelijk de i-de en de j-de kolom van de matrices G en H). De meetkundige interpretatie is dat X ij de orthogonale projectie is van g i op h j (of omgekeerd). Door onze keuze van G en H vinden we (gebruik makend van Vergelijking 3.4 en van de orthonormaliteit van M) HH t = 1 n 1 M 2 M t = 1 n 1 Xt XMM t = 1 n 1 Xt X = ˆΣ. (3.7) Alsook (gebruik makend van Vergelijkingen 3.5 en 3.4) GG t = (n 1)LL t = (n 1)XM 1 1 M t X t = (n 1)XM 1 M t X t = X ˆΣ 1 X t. (3.8) p-dimensionale Biplot Uit de orthonormaliteit van M volgt ook, M 1 = M t, (3.9) immers M t M = I. Stel Z de n p matrix met als i-de kolom de scores de op i-de PC, i.e. Z ij = a j1 X i a jp X ip met a j = e j = m j. De transformatie laat zich ook schrijven als Z = XM. Dankzij de eigenschap uit Vergelijking 3.9 bekomen we eenvoudig de inverse transformatie, X = ZM t. Dus, de rijen van de matrix M zijn de coëfficiënten voor de inverse transformatie (merk op dat dit een orthonormale transformatie is). De vectoren gevormd door de rijen van M stellen dus de oorspronkelijke variabelen voor in de p-dimensionale PC-ruimte! Multivariate Dataverwerking Hoofdstuk 3 p. 16

50 In een biplot worden de p rijen van H en de n rijen van G getekend als respectievelijk vectoren en punten. Stel g t i en h t j de i-de en de j-de rij uit de matrices G en H. En X t i is de i-de rij (observatie) uit de datamatrix X. De interpretatie steunt op de volgende eigenschappen: 1. De projectie van de vectoren h i (i = 1,..., p) op de j-de as van het assenstelsel zijn de loadings van de j-de PC (op een evenredigheidsfactor λ j (n 1) na). Dus de interpretatie van de PC s kan afgelezen worden. 2. Uit Vergelijking 3.7 volgt onmiddellijk dat en h i 2 = ˆσ 2 i h t ih j = ˆσ ij (dit laatste is de orthogonale projectie van vector h i op vector h j of vice versa). Het is echter eenvoudiger om naar de correlatie te kijken: ˆρ ij = ˆσ ij ˆσ iˆσ j = ht ih j h i h j = cos(h i, h j ). Dus de cosinus van de hoek tussen twee vectoren geeft de correlatie tussen de twee overeenkomstige oorspronkelijke variabelen. 3. Uit Vergelijking 3.8 volgt Dan is g t ig j = X t i ˆΣ 1 X i. g i g j 2 = (g t ig i + g t jg j 2g t ig j ) = (X i X j ) t ˆΣ(Xi X j ) en deze laatste uitdrukking blijft correct wanneer de observaties X i uit de nietgecentreerde datamatrix komen. Euclidische afstanden tussen de punten in de biplot zijn dus gelijk aan de Mahalanobisafstanden tussen de overeenkomstige observaties. 4. Tenslotte herhalen we nogmaals dat iedere oorspronkelijke observaties X ij gereconstrueerd wordt door g i te projecteren op h j. Multivariate Dataverwerking Hoofdstuk 3 p. 17

51 Gereduceerde Biplot In de vorige sectie hebben we een p-dimensionale biplot geconstrueerd. Dit is in de praktijk echter enkel mogelijk als p 3. Voor hogere dimensies, wordt een biplot in lagere dimensies geconstrueerd. Hierdoor zal wel wat informatie verloren gaan en zijn de interpretaties die in de vorige sectie besproken zijn, slechts bij benadering correct. De reductie naar q < p dimensies gebeurt als volgt. In de Gabriel factorisatie (Vergelijking 3.6) nemen we een n q matrix G en een q p matrix H, zodat we een bandering X q van de datamatrix X bekomen, X q = GH t. Zonder verder in detail te treden, vermelden we enkel nog dat er methoden bestaan om G en H te bepalen zodat X q zo goed mogelijk X benadert. Hoe beter de benadering, hoe nauwkeuriger de gereduceerde biplot interpreteerbaar is. Voorbeeld In S-Plus wordt de biplot als volgt geconstrueerd. > biplot(industrie.pca,olab=industrie$country) Het resultaat is in Figuur 3.4 weergegeven. Multivariate Dataverwerking Hoofdstuk 3 p. 18

52 Comp Turkey MIN Hungary Czechoslovakia E. Germany Poland MAN Romania Bulgaria USSR PS TC Luxembourg AGR W. Germany Austria CON Greece Ireland UK Portugal Spain Yugoslavia Switzerland Italy Finland France Belgium Norway SPS Sweden SER Denmark Netherlands FIN Comp. 1 Figuur 3.4: Biplot van de PCA Multivariate Dataverwerking Hoofdstuk 3 p. 19

53 Hoofdstuk 4 Afstanden: Simulariteit en Dissimulariteit In de volgende hoofdstukken hebben we behoefte aan het kwantificeren van gelijkaardigheid (simulariteit) of verschil (dissimulariteit) tussen multivariate observaties. We zullen zien dat afstanden speciale gevallen zijn van dissimulariteiten. Een voornaam argument om afstanden te veralgemenen tot dissimulariteiten is dat bv. de Euclidische afstand tussen twee multivariate observaties zinloos is indien de univariate componenten nominale variabelen zijn. 4.1 Dissimulariteit Dissimulariteitsmatrix Beschouw de dataset met n p-variate observaties x t i = (x i1... x ip ) (i = 1,..., n). We stellen de dissimulariteit tussen observaties x i en x j voor als d(x i, x j ) = d(i, j). De dissimulariteitsmatrix is dan de n n matrix D = [d(i, j)] (i,j) (i, j = 1,..., n). 1

54 4.1.2 Dissimulariteit versus Afstand Een dissimulariteitsmaat kan heel losjes gedefinieerd worden. Intuïtief moet het een maat zijn voor de ongelijkheid. Meer formeel voldoet d(.,.) aan de volgende eigenschappen (i, j = 1,..., n): 1. d(i, j) 0 2. d(i, i) 0 3. d(i, j) = d(j, i) Indien d(.,.) tevens voldoet aan (i, j, k = 1,..., n) 4. d(i, k) d(i, j) + d(j, k) dan is d(.,.) een afstandsmaat. (Deze laatste eigenschap is de zogenaamde driehoeksongelijkheid.) Indien er aan deze laatste eigenschap voldaan is, kan er aangetoond worden dat de afstandsmatrix D positief definiet is, en omgekeerd Enkele Dissimulariteitsmaten In deze sectie geven we enkele van de meest gebruikte dissimulariteitsmaten, geordend volgens het type variabele waarvoor het gebruikt kan worden. Interval Variabelen Een interval variabele wordt gemeten op een continue meetschaal met een nulpunt, zodanig dat er een fysische betekenis kan gegeven worden aan uitspraken zoals observatie 1 is dubbel zo groot als observatie 2. We beschouwen twee afstanden die gebruikt worden voor de afstand tussen twee observaties op multivariate interval variabelen: Multivariate Dataverwerking Hoofdstuk 4 p. 2

55 Euclidische afstand: d(i, j) = p (x ik x jk ) 2 k=1 De Minkowsky afstand is een familie van afstandsmaten, geïndexeerd door r: ( p d(i, j) = k=1 x ik x jk r ) 1/r Merk op dat voor r = 2 dit de Euclidische afstand geeft. Als r = 1 wordt de afstand ook wel de Manhatten of de city block afstand genoemd. Het is duidelijk dat beide afstandsmaten gevoelig zijn aan de eenheid waarin de variabelen uitgedrukt zijn. Indien bijvoorbeeld één van de p univariate variabelen een erg grote variantie heeft t.o.v. de anderen, dan zal deze variabele de afstandsmaat domineren en kan de relevantie van de maat in vraag gesteld worden. Een oplossing om dit probleem te omzeilen, bestaat erin iedere component te standaardiseren, i.e. x ij te vervangen door x ij ˆσ j. Op deze wijze is de steekproefvariantie van iedere component gelijk aan één. Ordinale Variabelen Een ordinale variabele wordt gemeten op een meetschaal waar enkel de ordening een betekenis heeft, maar de numerieke waarde heeft geen betekenis op zich. Dus uitspraken als observatie 1 is dubbel zo groot als observatie 2 zijn betekenisloos. Indien op zulke variabelen een echte afstandsmaat toegepast zou worden, is de driehoeksongelijkheid eveneens zonder betekenis. We stellen voor om de dissimulariteiten als volgt te berekenen. 1. bereken de rang R ij van x ij (de rang R ij = #{x {x 1j,..., x nj } : x x ij }; indien m observaties eenzelfde rank R toegekend krijgen, wordt deze voor deze m observaties vervangen door (2R m + 1)/m). Stel m j gelijk aan de maximale rang van de observaties op variabele j. Multivariate Dataverwerking Hoofdstuk 4 p. 3

56 2. transformeer de rang naar een schaal van 0 tot 1, Z ij = R ij 1 m j 1 3. bereken dissimulariteiten zoals voor de interval variabelen Nominale Variabelen Nominale variabelen zijn discrete variabelen die een eindig aantal waarden aannemen, zonder ordening. De dissimulariteit tussen observaties i en j van een p-variate nominale variabele wordt berekend als d(i, j) = # variabelen met verschillende waarde voor i en j. p Symmetrische Binaire Variabelen Een binaire variabele is een variabele die slechts twee waarden aanneemt (0 en 1). Bij symmetrische binaire variabele zijn de twee waarden 0 en 1 even belangrijk (bv. man/vrouw). De resultaten van 2 observaties i en j op een p-variate variabele kunnen weergegeven worden in een kruistabel: Met a + b + c + d = p. De dissimulariteit tussen observatie i en j is d(i, j) = i/j a b 0 c d b + c a + b + c + d. (4.1) Asymmetrische Binaire Variabelen Een asymmetrische binaire variabele is een binaire variabele waarbij de ene waarde (1) belangrijker is dan de andere (0). Veelal staat 1 voor de aanwezigheid van een kenmerk, en 0 voor de afwezigheid (bv. van een bepaalde ziekte). Multivariate Dataverwerking Hoofdstuk 4 p. 4

57 De twee p-variate observaties i en j kunnen weer in dezelfde kruistabel samengevat worden. De dissimulariteit is d(i, j) = b + c a + b + c, i.e. in de noemer staat enkel nog het aantal zinvolle vergelijkingen (0/0 is hier niet zinvol beschouwd) 4.2 Simulariteit Simulariteitsmatrix Beschouw de dataset met n p-variate observaties x t i = (x i1... x ip ) (i = 1,..., n). We stellen de simulariteit tussen observaties x i en x j voor als s(x i, x j ) = s(i, j). De simulariteitsmatrix is dan de n n matrix S = [s(i, j)] (i,j) (i, j = 1,..., n). Een simulariteitsmaat kan heel losjes gedefinieerd worden. Intuïtief moet het een maat zijn voor de gelijkheid. Meer formeel voldoet s(.,.) aan de volgende eigenschappen (i, j = 1,..., n): 1. s(i, j) 0 2. s(j, j) = s(i, i) = max i,j s(i, j) > 0 3. s(i, j) = s(j, i) De meeste statistische methode die observaties naar gelijkheid of ongelijkheid moeten beoordelen, maken gebruik van dissimulariteiten. Om deze reden, is het belangrijk dat we simulariteiten kunnen omzetten in simulariteiten. We geven hier een algemene formule. Stel s max = max i,j s(i, j) = s(1, 1). Dan is d(i, j) = s max s(i, j) een maat voor de dissimulariteit tussen observatie i en j. d(i, j) is slechts een afstandsmaat indien de matrix [d(i, j)] (i,j) positief definiet is. Multivariate Dataverwerking Hoofdstuk 4 p. 5

58 4.2.2 Enkele Simulariteitsmaten De simulariteitsmaten die we in deze sectie geven, zijn toepasbaar op binaire variabelen. Naar analogie met de dissimulariteitsmaat in Vergelijking 4.1 is er de simple matching coefficient: s(i, j) = a + d a + b + c + d, wat een symmetrische maat is. Een asymmetrische maat is bv. de Jaccard coëfficiënt: s(i, j) = a a + b + c. De Jaccard coëfficiënt wordt dikwijls in abundantiestudies gebruikt. Wanneer op verschillende plots (=observaties) aantallen plantenspecies (=variabelen) geteld worden, dan is a het aantal gemeenschappelijke soorten in plot i en plot j; b en c zijn het aantal plantenspecies uniek voor plot i en j, respectievelijk. Dan is a + b + c het aantal soorten in plots i en j tesamen. Een andere asymmetrische simulariteitsmaat is de Sørensen index, s(i, j) = 2a 2a + b + c = a (a + b + c + a)/2, wat geïnterpreteerd kan worden als het aantal gemeenschappelijke soorten op het gemiddelde aantal soorten in beide plots Correlatie Zoals eerder vermeld, kunnen ook dissimulariteiten of simulariteiten tussen variabelen gespecificeerd worden. De bekendste simulariteitsmaat tussen een continue variabele X i en een andere continue variabele X j is de geschatte correlatiecoëfficiënt r ij. Deze voldoet inderdaad aan de voorwaarden voor een simulariteitsmaat. Multivariate Dataverwerking Hoofdstuk 4 p. 6

59 4.3 Mantel s Test Voorbeeld Dataset: vlinder Het betreft een studie van 16 verschillende kolonies van de vlinder soort Euphydryas editha die geobserveerd zijn op 16 verschillende locaties in Californië en Orgegon. Er zijn voor iedere kolonie twee soorten variabelen geobserveerd: de coördinaten genetische variabelen: gen frequenties Aan de hand van de genetische data kan een dissimulariteitsmatrix opgesteld worden die de genetische verschillen tussen de 16 kolonies kwantificeert. Door gebruik te maken van de coördinaten, kunnen tevens de Euclidische afstanden tussen de habitats van de 16 kolonies bepaald worden. De vraag die we wensen te beantwoorden is: zijn de genetische verschillen gerelateerd tot de geografische verschillen tussen de habitats? Mantel s Test De test die we hiervoor ontwikkelen is een zogenaamde randomizatie test. Dit is een exacte niet-parametrische test, waarmee we bedoelen dat er geen distributionele veronderstellingen gemaakt moeten worden en dat het resultaat van de test conditioneel is op de observaties (dit zal later duidelijk worden). Teststatistiek Stel D = [d ij ] (i,j) en E = [e ij ] (i,j) de twee n n dissimulariteitsmatrices. De nulhypothese (H 0 ) is: de matrices D en E geven niet dezelfde dissimulariteitsstructuur tussen de n observaties. We beschouwen de teststatistiek n i 1 T = d ij e ij, i=2 j=1 Multivariate Dataverwerking Hoofdstuk 4 p. 7

60 i.e. T is de som van de producten van de overeenkomstige dissimulariteiten (slechts n(n 1)/2 verschillende dissimulariteiten wegens de symmetrie van de matrices). Om in te zien dat T inderdaad een goede teststatistiek is, kan de analogie gemaakt worden met de correlatiecoëfficiënt. De maximale waarde van T wordt bereikt indien het grootste element van D vermenigvuldigd wordt met het grootste element van E, het tweede grootste element van D met het tweede grootste van E, enz, tot de vermenigvuldiging van het kleinste element van D met het kleinste element van E. Dit is exact de situatie waarbij beide dissimulariteitsmatrices dezelfde ordening vertonen. Dus voor grote waarden van T zullen we de nulhypothese willen verwerpen. De vraag rest nog vanaf welke kritische T -waarde verwerpen we de nulhypothese. Hiertoe berekenen we de randomizatiedistributie van T onder de nulhypothese. Randomizatiedistributie Bij het opstellen van een randomizatiedistributie vertrekken we steeds van een gegeven dataset, i.e. we beschouwen de data niet als random! In dit specifieke geval bestaan de data uit de dissimulariteiten in de matrices D en E. Stel (r 1,..., r n ) een permutatie P van 1,..., n. Dan geldt onder de nulhypothese dat iedere dergelijke permutatie leidt tot T (P) = n i 1 d ij e ri r j i=2 j=1 een even grote kans tot voorkomen heeft. De randomizatiedistributie wordt dan bekomen door T (P) te berekenen voor iedere permutatie P. Er zijn n! dergelijke permutaties. De randomizatiedistributie wordt ook wel de permutatiedistributie genoemd. Mantel s Test Tenslotte moeten we nog de kritische waarde vinden waarmee de geobserveerde T -waarde vergeleken moet worden opdat de nulhypothese al-dan-niet aanvaard wordt. Uit voorgaande argumentatie volgt dat we de nulhypothese zullen verwerpen voor grote waarde van T. Zoals voor de constructie van alle statistische testen, halen we de kritische waarde t c uit de nuldistributie, die hier een randomizatiedistributie is: op het α-significantieniveau Multivariate Dataverwerking Hoofdstuk 4 p. 8

61 moet t 0 voldoen aan P {T > t 0 H 0 } = P P {T (P) > t 0 H 0 } = α. Aangezien de permutatiedistributie van T een discrete distributie is (slechts n! permutaties), is het mogelijk dat geen enkele waarde t 0 de oplossing is van bovenstaande vergelijking. Daarom passen we het aan tot t 0 = inf{t : P P {T (P) < t H 0 } α}. Indien T > t 0 wordt de nulhypothese op het α significantieniveau verworpen. Voorbeeld We passen de Mantel test toe op de vlinders data. > mantel.test(e, M, N = 10000) $t.obs: [1] $p: [1] De p-waarde (berekend op basis van N=10000 random permutaties; zie Figuur 4.1) is < Bijgevolg concluderen we dat er een significant verband is tussen de Euclidische afstanden tussen de habitats enerzijds, en de dissimulariteiten (hier ook Euclidische afstanden) tussen de gen frequenties anderzijds. Deze vaststelling ondersteunt de stelling dat de vlinderkolonies zich traag verplaatsen en dat de onderzochte kolonies vermoedelijk genetische afstammelingen zijn van elkaar. Multivariate Dataverwerking Hoofdstuk 4 p. 9

62 nd Figuur 4.1: Permutatienuldistributie van de Mantel teststatstiek. De vertikale lijn duidt de geobserveerde waarde van de teststatistiek aan Multivariate Dataverwerking Hoofdstuk 4 p. 10

63 Hoofdstuk 5 Pam, Clara, Agnes, Mona en Andere Schoonheden 5.1 Inleiding De doelstelling van een clusteranalyse is observaties in een beperkt aantal groepen (clusters) in te delen, zodanig dat de observaties in eenzelfde cluster gelijkaardig zijn en observaties in verschillende clusters verschillend zijn. Het is evident dat de definitie van gelijkaardigheid en verschil hier erg bepalend zijn voor het finale resultaat van de clusteranalyse. We geven enkele voorbeelden: Data afkomstig van DNA micro-arrays kan voorgesteld worden als een n p matrix waarvan iedere rij de expressieniveaus veroorzaakt door p cdna probes weergeeft. Iedere rij komt overeen met een ander experiment (bv. cellen afkomstig van cellen in een ander stadium, of van een ander orgaan of van een ander species). Het aantal variabelen (expressieniveau op een cdna probe) kan erg groot zijn (typisch enkele duizenden!). Een belangrijke vraagstelling is: zoek groepen in de experimenten met gelijke expressiepatronen. Maar de vraagstelling kan ook omgekeerd worden: zoek groepen van genen die een gelijk expressieniveau hebben over de verschillende experimenten heen. Dit kan een inzicht geven in de regulatie en de functie van de genen. In abundatiestudies worden van n plantenspecies de abundaties (aantal van voorko- 1

64 men) geteld op p verschillende plots (habitats). Hier is de vraagstelling: groepeer de species in groepen die op gelijke plaatsen voorkomen, of groepeer de plots volgens gelijke plantensamenstelling. Dit kan leiden tot een taxonomische samenstelling van levensgemeenschappen. Uit enkele van deze voorbeelden blijkt dat niet enkel de n observaties in groepen opgedeeld moeten kunnen worden, maar dat het eveneens interessant kan zijn om de p variabelen te groeperen. In Hoofdstuk 4 hebben we enkele mogelijkheden gezien om simulariteiten of dissimulariteiten te berekenen tussen variabelen. De meeste methoden die in dit hoofdstuk besproken worden, gebruiken als input enkel een dissimulariteitsmatrix; deze methoden kunnen dus voor zowel het clusteren van observaties als van variabelen gebruikt worden. Desalniettemin zullen we toch de methoden steeds besprekenen in termen van het groeperen van observaties. Clusteranalyse is een hele familie van algoritmen die in twee grote groepen ingedeeld wordt: Hiërarchische methoden: We maken hier een verdere opdeling in agglomeratieve en divisieve methoden. De agglomeratieve methoden starten vanuit de situatie waarbij iedere observatie een eigen cluster vormt (startsituatie: n clusters). Vervolgens worden sequentieel clusters samengevoegd totdat er finaal slechts 1 cluster met n observaties is. Bij divisieve methoden is de sequentie net omgekeerd. De oplossing van een Hiërarchische clustering is dus een sequentie van n 1 geneste clusterconfiguraties. Partitie-gebaseerde methoden: Partitie-gebaseerde methoden starten typisch met een opgegeven aantal clusters k, alsook met een initiële clusterconfiguratie. De p-dimensionale ruimte waarin de n observaties liggen, wordt vervolgens volgens een gegeven criterium gepartitioneerd in k deelruimten die corresponderen met k clusters. 5.2 Grafische Diagnostische Tools Aangezien geen enkele clustermethode garandeert dat de clusterconfiguratie goed is, is er grote behoefte aan diagnostische hulpmiddelen. We beschrijven er hier twee: de clusplot en de silhouette plot. Multivariate Dataverwerking Hoofdstuk 5 p. 2

65 Figuur 5.1: Voorbeeld van een clusplot We beschrijven de twee grafische methoden aan de hand van een voorbeeld (dataset: euro) waarbij 12 Europese landen geclusterd worden in 2 groepen. De twee variabelen in de dataset zijn: het bruto binnenlands product (bbp) en het percentage van het bbp dat aan landbouw toe te schrijven is (data uit 1994) Clusplot De clusplot is eigenlijk een scatter plot van de observaties in het vlak van de twee eerste principale componenten (scores op twee eerste PC s). De idee is dat dit de 2-dimensionale voorstelling is waarin de maximale informatie uit de oorspronkelijke dataset weerhouden is. Voor het voorbeeld levert dit Figuur 5.1 op. Op basis van deze laag-dimensionale voorstelling kan een eerste beeld over de clusterkwaliteit gevormd worden (wanneer p > 3 is dit meestal niet meer mogelijk op basis van de oorspronkelijke variabelen) Silhouette Plot Alvorens de silhouette plot te illustreren, definiëren we de silhouette-waarde voor observatie i welke tot cluster A behoort. Stel d(i) de gemiddelde dissimulariteit van observatie i tot de andere observaties in A. observaties in cluster C A. Stel d min (i) = min d(i, C), C A Stel d(i, C) de gemiddelde afstand van observatie i tot de Multivariate Dataverwerking Hoofdstuk 5 p. 3

66 D B NL F L DK UK I P GR IRL E Silhouette width Average silhouette width : 0.63 Figuur 5.2: Voorbeeld van een silhouette plot Dan definiëren we de silhouette-waarde van observatie i als s(i) = d min (i) d(i) max{ d(i), d min (i)}. De extremen zijn duidelijk te interpreteren: s(i) +1 i duidelijk in cluster A s(i) 0 i tussen cluster A en B s(i) 1 i dichter bij cluster B In de silhouette plot wordt de silhouette-waarde voor iedere observatie als een staafje uitgezet. De observaties zijn geordend: observaties behorende tot eenzelfde cluster staan onder elkaar. Binnen eenzelfde cluster zijn de observaties geordend van grootte silhouettewaarde (boven) tot kleine silhouette-waarde (onder). Een voorbeeld is gegeven in Figuur 5.2. Een goede clustering laat zich herkennen door observaties die allemaal een grote silhouettewaarde hebben. Indien er nog een cluster is met een negatieve silhouette-waarde, dan is dit een indicatie voor een slechte clustering. 5.3 Partitie-gebaseerde Clusteranalyse Voor alle partitie-gebaseerde methoden moet het aantal clusters (k) vooraf gespecificeerd worden. Later zien we methoden om een gepast aantal k te bepalen. Multivariate Dataverwerking Hoofdstuk 5 p. 4

67 5.3.1 K-means Methode Algoritme Het algoritme start met k initiële clustercentra c (0) 1,..., c (0) k in de p-dimensionale variabeleruimte. Vervolgens start een iteratief algoritme met als s-de stap (s = 1,... ) 1. ken iedere observatie x i toe aan de cluster j waarvoor d(x i, c (s 1) j ) d(x i, c (s 1) k ) (k j). Stel m i = j als observatie i toegekend is aan cluster j; we noemen m i het cluster membership. 2. herreken de clustercentra, c (s) j, als het multivariate steekproefgemiddelde van de toegekende observaties. 3. indien de clustercentra gelijk zijn van deze uit de vorige iteratiestap, dan is de oplossing geconvergeerd en stopt het algoritme, anders wordt s met één verhoogd. Voorbeeld Als voorbeeld dataset nemen we de euro dataset uit Sectie 5.2. > euro.kmeans <- kmeans(euro, centers = 2) > summary(euro.kmeans) Centers: landbouw bbp [1,] [2,] Clustering vector: [1] Within cluster sum of squares: [1] Multivariate Dataverwerking Hoofdstuk 5 p. 5

68 21 16 bbp landbouw Figuur 5.3: Scatter plot van de Euro dataset met aanduiding van de twee clusters Cluster sizes: [1] 4 8 Available arguments: [1] "cluster" "centers" "withinss" "size" > euro.clust <- cbind(euro, euro.kmeans$cluster) > names(euro.clust) <- c("landbouw", "bbp", "cluster") Op basis van de dataset euro.clust construeren we een scatter plot van de twee variabelen bbp en landbouw met de aanduiding van het clustermembership: Figuur Pam Algoritme Pam is een acroniem voor Partitioning Around Mediods. Het is vrij analoog aan de voorgaande procedure. De voornaamste verschillen zijn: in plaats van clustercentra (centroïeden) worden medioden gebruikt; een mediode van cluster j is één van de observaties behorende tot cluster j (de meest representatieve observatie). de methode is minder gevoelig aan outliers dan de k-means methode. De gevoeligheid van de k-means methode aan outliers is te verklaren doordat de centroïeden als gemiddelden bepaald worden en gemiddelden zijn gevoelig aan outliers. Multivariate Dataverwerking Hoofdstuk 5 p. 6

69 Het algoritme start met k initiële representatieve observaties die als mediode dienen: c (0) 1,..., c (0). Vervolgens start een iteratief algoritme met als s-de stap (s = 1,... ) k 1. ken iedere observatie x i toe aan de cluster j waarvoor d(x i, c (s 1) j ) d(x i, c (s 1) k ) (k j). Met de cluster membership notatie m i, is dit dus equivalent met d(x i, c (s 1) m i ) d(x i, c (s 1) j ) voor alle j = 1,..., k. 2. zoek nieuwe medioden c (s) j (j = 1,..., k) uit de n observaties zodanig dat Q (s) = n i=1 d(x i, c (s) m i ) (5.1) minimaal is. Deze functie is de doelfunctie die geminimaliseerd wordt. 3. het algoritme stopt als de medioden geconvergeerd zijn. Merk op dat Pam inderdaad nagenoeg hetzelfde is als k-means; het enige conceptuele verschil is de doelfunctie in stap 2 van de iteraties: in Pam is de te minimaliseren doelfunctie gebaseerd op de een dissimulariteitsmaat naar keuze, en is er de restrictie dat de medioden uit de observaties gekozen moeten worden. Bij de k-means methode, daarentegen, is de doelfunctie het least-squares criterium (i.e. de kwadratische Euclidische afstand); de clustercentra worden immers berekend als het steekproefgemiddelde, wat de analytische oplossing is van een least-squares minimalisatieprobleem. Voorbeeld Dataset: abundance De dataset bevat de abundanties van 50 plantensoorten op 17 verschillende plots of habitats. De data komt uit het Steneryd Natuurreservaat in het zuiden van Zweden. We wensen de 17 vindplaatsen te clusteren. Vindplaatsen in eenzelfde cluster zijn min of meer homogeen met betrekking tot de speciessamenstelling. Multivariate Dataverwerking Hoofdstuk 5 p. 7

70 > abundance.pam <- pam(abundance[, 2:51], k = 3) > summary(abundance.pam) Call: pam(x = abundance[, 2:51], k = 3) Medoids: Airpra Teenud Rumtun Viciangus Trifdub Visvul Galver Hiepil S S S AchMil Stegram Fesovi Plalan Trirep Tripra Tarasp Ranbul S S S Camrot Cerfon Filvul Luzcam Cyncri Alchesp. Agrten Antodo S S S Saxgra Hypmac Latpra Rumace Fesrub Conmaj Poapra Vercha Latmon S S S Desfle Camper Vioriv Antsil Stahol Dacglo Anenem Hepnob Priver S S S Alliusp Poanem Moetrin Fraexc Geuurb Verhed Ranfic Merper S S S Clustering vector: S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13 S14 S15 S16 S Objective function: build swap Multivariate Dataverwerking Hoofdstuk 5 p. 8

71 Numerical information per cluster: size max_diss av_diss diameter separation [1,] [2,] [3,] Isolated clusters: L-clusters: NULL L*-clusters: [1] 3 Silhouette plot information: cluster neighbor sil_width S S S S S S S S S S S S S S S S S Average silhouette width per cluster: [1] Average silhouette width of total data set: [1] Dissimilarities : [1] Multivariate Dataverwerking Hoofdstuk 5 p. 9

72 [8] [15] [22] [29] [36] [43] [50] [57] [64] [71] [78] [85] [92] [99] [106] [113] [120] [127] [134] Metric : euclidean Number of objects : 17 Available arguments: [1] "medoids" "clustering" "objective" "isolation" "clusinfo" [6] "silinfo" "diss" "data" "call" > plot(abundance.pam) De clusplot en de silhouette plot zijn weergegeven in Figuur Clara Clara is een acroniem voor Clustering Large Applications, i.e. Clara is een methode die gebruikt kan worden voor hele grote datasets. Het probleem met erg grote datasets is dat Multivariate Dataverwerking Hoofdstuk 5 p. 10

73 Component S3 S2 S4 S1 S5 S12 S10 S8 S11 S9 S13 S14 S7 S15 S6 S17 S16 Component 1 These two components explain % of the point variability Silhouette width Average silhouette width : 0.32 Figuur 5.4: Clusplot en silhouette plot van de Pam analyse op de abundance dataset met k = 3 vele clustermethoden rechtstreeks op de dissimulariteitsmatrix werken. De dimensie van deze matrix is n n met daarin n(n 1)/2 verschillende elementen. Met bijvoorbeeld n = 1000 (dit is zelfs niet extreem groot), moeten we al geheugen voorzien om getallen te onthouden. Naast het geheugenprobleem is het rekentijd-probleem ook niet te onderschatten. Het algoritme is eveneens een iteratief algoritme dat herhaaldelijk at random subsets uit de datamatrix selecteert, waarop Pam toegepast wordt. Stel n 0 de grootte van de subsets (hiervoor wordt wel een volledige n 0 (n 0 1)/2 dissimulariteitsmatrix berekend). Stel N het totaal aantal random subsets dat geselecteerd wordt uit de datamatrix. Stel c (s 1) 1,..., c (s 1) k de cluster medioden uit de (s 1)-de stap in het algoritme (s = 1,..., N). De s-de stap: 1. selecteer n 0 k observaties at random uit de volledige datamatrix. De subset waarmee verder gewerkt wordt, wordt gevormd door deze n 0 k geselecteerde observaties, aangevuld met de k medioden uit de iteratie s 0 (s 0 s) met de voorlopige minimale doelfunctiewaarde (Vergelijking 5.1), i.e. Q (s 0) Q (t) (t = 0,..., s 1). (Q wordt berekend op basis van de volledige dataset!) 2. op de subset wordt Pam losgelaten. Pam geeft nieuwe medioden c (s) 1,..., c (s) k. 3. De doelfunctie Q wordt berekend op basis van de volledige dataset en ALLE observaties worden toegekend aan de cluster met de dichtst bijgelegen mediode. Op kleine datasets (n < 200) komt Pam sneller klaar dan Clara. Multivariate Dataverwerking Hoofdstuk 5 p. 11

74 5.4 Hiërarchische Clusteranalyse: Agnes Algemeen Algoritme In deze cursus behandelen we voornamelijk agglomeratieve methoden. In het algemeen werkt het algoritme voor een agglomeratieve methode als volgt. In stap 0 is iedere observaties een cluster (dus n clusters). Vervolgens bestaat iedere stap uit: 1. fuseer de twee clusters met de kleinste inter-cluster dissimulariteit 2. herbereken de inter-cluster dissimulariteiten In stap 0 is de inter-cluster dissimulariteit uiteraard gelijk aan de dissimulariteit tussen de overeenkomstige observaties, maar zodra een cluster meerdere observaties bevat, moet de definitie van dissimulariteit uitgebreid worden naar inter-cluster dissimulariteit. We zullen verscheidene dergelijke definities zien; iedere definitie bepaalt een andere type clusteranalyse Inter-Cluster Dissimulariteiten We stellen clusters (bv. C 1 en C 2 ) voor als de verzameling punten x i die tot die cluster behoren. De inter-cluster dissimulariteit tussen C 1 en C 2 stellen we voor als d(c 1, C 2 ). We beschouwen de volgende inter-cluster dissimulariteitsdefinities: Single Linkage = Nearest Neighbor: d(c 1, C 2 ) = min d(x 1, x 2 ), x 1 C 1 ;x 2 C 2 i.e. de dissimulariteit tussen C 1 en C 2 is bepaald door de kleinste dissimulariteit die gevormd kan worden tussen een punt van C 1 en een punt van C 2. Zie ook Figuur 5.5. Single Linkage clustering is gevoelig aan chaining. Multivariate Dataverwerking Hoofdstuk 5 p. 12

75 Figuur 5.5: Single Linkage (dissimulariteit = Euclidische afstand) Complete Linkage = Furthest Neighbor: d(c 1, C 2 ) = max d(x 1, x 2 ), x 1 C 1 ;x 2 C 2 i.e. de dissimulariteit tussen C 1 en C 2 is bepaald door de grootste dissimulariteit die gevormd kan worden tussen een punt van C 1 en een punt van C 2. Zie ook Figuur 5.6. Average Linkage = Group Average: d(c 1, C 2 ) = 1 C 1 C 2 x 1 C 1 ;x 2 C 2 d(x 1, x 2 ), i.e. de dissimulariteit tussen C 1 en C 2 is bepaald als het gemiddelde van alle dissimulariteit die gevormd kunnen worden tussen een punt van C 1 en een punt van C 2. Zie ook Figuur Clusterboom Gezien de hiërarchische natuur van het algoritme, levert deze clustermethode een geneste sequentie van clusters, i.e. de clusterconfiguratie met c clusters is ontstaan uit deze met c + 1 cluster door in deze laatste twee clusters te laten samengaan. Omwille van deze restrictieve structuur kan de oplossing van een hiërarchische clusteranalyse eenvoudig in een boomstructuur weergegeven worden. De hoogte van de vertakkingen geven aan bij welke inter-cluster dissimulariteit de overeenkomstige clusters samengevoegd worden. Dit Multivariate Dataverwerking Hoofdstuk 5 p. 13

76 Figuur 5.6: Complete Linkage (dissimulariteit = Euclidische afstand) Figuur 5.7: Average Linkage (dissimulariteit = Euclidische afstand) Multivariate Dataverwerking Hoofdstuk 5 p. 14

77 kan als hulpmiddel gebruikt worden bij de keuze voor het aantal werkelijke clusters in de data. We illustreren dit hier aan de hand van een synthetisch voorbeeld: X 1 X In dit voorbeeld is de dissimulariteitsmatrix tussen de 5 observaties gelijk aan de Euclidische afstandsmatrix: D = In stap 0 zijn dit dus ook de inter-cluster dissimulariteiten, ongeacht de specifieke definitie. Vervolgens tonen we de oplossingen van de hiërarchische clustering volgens de drie verschillende inter-cluster afstandsdefinities: Single Linkage = Nearest Neighbor: > vb.agnes <- agnes(vb, method = "single") > vb.agnes Call: agnes(x = vb, method = "single") Merge: [,1] [,2] [1,] -4-5 [2,] -2 1 [3,] -1 2 Multivariate Dataverwerking Hoofdstuk 5 p. 15

78 [4,] 3-3 Order of objects: [1] Height: [1] Agglomerative coefficient: [1] Available arguments: [1] "order" "height" "ac" "merge" "order.lab" [6] "diss" "data" "call" > plot(vb.agnes, which = 2) Zie ook Figuur 5.8. Complete Linkage = Furthest Neighbor: > vb.agnes <- agnes(vb, method = "complete") > vb.agnes Call: agnes(x = vb, method = "complete") Merge: [,1] [,2] [1,] -4-5 [2,] -1-2 [3,] -3 1 [4,] 2 3 Order of objects: [1] Height: [1] Agglomerative coefficient: [1] Available arguments: Multivariate Dataverwerking Hoofdstuk 5 p. 16

79 [1] "order" "height" "ac" "merge" "order.lab" [6] "diss" "data" "call" > plot(vb.agnes, which = 2) Zie ook Figuur 5.9. Average Linkage = Group Average: > vb.agnes <- agnes(vb, method = "average") > vb.agnes Call: agnes(x = vb, method = "average") Merge: [,1] [,2] [1,] -4-5 [2,] -1-2 [3,] 2 1 [4,] 3-3 Order of objects: [1] Height: [1] Agglomerative coefficient: [1] Available arguments: [1] "order" "height" "ac" "merge" "order.lab" [6] "diss" "data" "call" > plot(vb.agnes, which = 2) Zie ook Figuur Multivariate Dataverwerking Hoofdstuk 5 p. 17

80 4 5 Height Figuur 5.8: Clusterboom met Single Linkage 4 5 Height Figuur 5.9: Clusterboom met Complete Linkage 4 5 Height Figuur 5.10: Clusterboom met Average Linkage Multivariate Dataverwerking Hoofdstuk 5 p. 18

81 5.4.4 Ward s Methode Ward s clustermethode is een agglomeratieve hiërarchische clustermethode die niet op intercluster dissimulariteiten gebaseerd is. De methode is ook gekend onder de naam trace methode. Het samenvoegen van 2 clusters is gebaseerd op de kwadratensom binnen een cluster C. Stel x = (x 1... x p ) C, dan is de kwadratensom S(C) = x C p (x i x Ci ) 2 i=1 met x Ci het gemiddelde van variabele i binnen de cluster C. In het bijzonder worden in iedere stap twee clusters C i en C j samengevoegd waarvoor de toename in de kwadratensom, S(C i C j ) (S(C i ) + S(C j )), minimaal is. Voorbeeld in S-Plus: vb.agnes<-agnes(vb,method="ward") Mona Mona is de enige divisieve methode die we in deze cursus bespreken. Het is een methode die toepasbaar is op data met p binaire variabelen. Het is tevens een monothetische methode. Dit betekent dat in iedere stap van de hiërarchie er slechts één variabele gebruikt wordt om een cluster verder op te delen in twee nieuwe clusters. (De methoden die we tot hier toe gezien hebben, zijn alle polythetische methoden.) Stel dat in stap s de variabele X i gebruikt wordt voor de opsplitsing van een cluster. Aangezien iedere variabele binair is, gebeurt het splitsen van een cluster, C j, steeds door de observaties waarvoor X i = 1 een nieuwe cluster te laten vormen; de overige observaties hebben alle X i = 0 en vormen ook een nieuwe cluster. Het is dus evident dat voor deze nieuwe clusters, vanaf stap s + 1 de variabele X i niet meer aangewend kan worden voor Multivariate Dataverwerking Hoofdstuk 5 p. 19

82 verdere opsplitsing; vanaf stap s zijn de nieuwe clusters die gevormd zijn uit C j immers volledige homogeen in X i. Het algoritme werkt als volgt. Stel dat er in stap s nog c clusters zijn: C 1,..., C c. Ieder van deze c clusters wordt recursief verder opgesplitst tot enkel clusters met één observatie gevormd zijn. Voor ieder cluster C j (j = 1,..., c) worden de observaties op variabelen u en v (u v = 1,..., p) samengevat in een 2 2 kruistabel: u/v a uv b uv 0 c uv d uv (Dus a uv + b uv + c uv + d uv = C j.) Een maat voor de sterkte van het verband tussen variabele u en v binnen cluster j wordt gegeven door A uv = a uv d uv b uv c uv. De variabele die gebruikt wordt voor het verder opsplitsen van cluster C j in stap s is deze die de grootste totale associatie vertoont met alle andere variabelen. De totale associatie tussen variabele u en de andere variabelen wordt berekend als A u = v u A uv De splitsingsvariabele is dus X i waarvoor A i = max u A u. Voorbeeld: Dataset: animals Van 20 diersoorten werden de volgende indicatoren opgenomen in de dataset: war: warm- (1) of koudbloedig (0) fly: vliegen (1) of niet-vliegen (0) ver: vertebraat (1) of invertebraat (0) end: bedreigd (1) of niet-bedreigd (0) gro: in grote sociale groepen levend (1) of niet (0) Multivariate Dataverwerking Hoofdstuk 5 p. 20

83 hai: sterk behaard (1) of niet sterk behaard (0) De 20 diersoorten zijn: mier (ant), bei (bee), kat (cat), chimpansee (chi), koe (cow), rups (cpl), eend (duc), arend (eag), olifant (ele), vlieg (fly), kikker (frog), hermietcrab (her), leeuw (lio), hagedis (liz), kreeft (lob), mens (man), konijn (rab), salamander (sal), spin (spi) en walvis (wha). De doelstelling is de 20 diersoorten te clusteren. > animals.mona <- mona(animals) > animals.mona Call: mona(x = animals) Revised data: war fly ver end gro hai ant bee cat cpl chi cow duc eag ele fly fro her lio liz lob man rab sal spi wha Order of objects: Multivariate Dataverwerking Hoofdstuk 5 p. 21

84 [1] ant cpl spi lob bee fly fro her liz sal cat cow rab chi lio man [17] ele wha duc eag Variable used: [1] gro NULL hai fly gro ver end gro NULL war gro NULL [13] end NULL NULL hai NULL fly end Separation step: [1] Available arguments: [1] "data" "order" "variable" "step" "order.lab" [6] "call" > plot(animals.mona) Een banner plot is gegeven in Figuur De plot interpreteren we als volgt. We starten links (alle observaties nog in 1 cluster). Op de horizontale as lezen we de splitsingsstap. In iedere splitsingsstap worden clusters die nog minstens 2 observaties bevatten verder opgesplitst in twee; dit is gevisualiseerd door een splitsing van de overeenkomstige banners. Op de plaats van de banner-splitsing staat de splitsingsvariabele aangeduid. De banners van de observaties waarvoor de splitsingsvariabele gelijk is aan 1 staan onder de splitsing en de observaties waarvoor de splitsingsvariabele gelijk is aan 0 staan boven de splitsing. 5.5 Bepalen van het Aantal Clusters Inleiding De doelstelling van een cluster-analyse is het vinden van clusters in de data. Dit impliceert dat het aantal clusters ook een deel van de oplossing is. Bij een hiërarchische cluster-analyse vinden we in de oplossing een reeks clusterconfiguraties, gaande van 1 cluster t.e.m. n clusters. Afhankelijk van de boomstructuur, kunnen we hier één oplossing uit kiezen. We zien in deze sectie nog enkele tools om de kwaliteit van de oplossing verder op evalueren. Bij een partitie-gebaseerde cluster-analyse, moet het aantal clusters vooraf opgegeven worden. Niets houdt ons echter tegen om een oplossing te laten doorrekenen voor verscheidene keuzes van k. De oplossingen kunnen achteraf met elkaar vergeleken worden door middel Multivariate Dataverwerking Hoofdstuk 5 p. 22

85 ant cpl spi lob bee fly fro her liz sal cat cow rab chi lio man ele wha duc eag war ver fly fly end end end gro gro gro gro hai hai Separation step Figuur 5.11: Banner plot van de Monalisa, euh Mona-analyse op de animal data van bv. clusplots en silhouette plots. In deze sectie zien we nog een ander hulpmiddel om clusterconfiguraties met elkaar te vergelijken m.b.t. het aantal clusters. De methode is gebaseerd op Wilks Lambda (Zie Sectie 2.3.1). Een algemeen gangbare procedure bestaat erin om eerst enkele hiërarchische clusteranalyse toe te passen omdat deze voor verscheidene k onmiddellijk een beeld geven over de kwaliteit van de clustering. Op basis hiervan wordt een reeks van aanvaardbare k geselecteerd, waarvoor vervolgens met partitie-gebaseerde methoden naar de clusterconfiguratie gezocht wordt Scree Plot a.d.h.v. Wilks Lambda In Hoofdstuk 2 hebben we Wilks Lambda besproken als een grootheid (teststatistiek) voor het detecteren van ongelijkheid tussen multivariate gemiddelden. Een mogelijke redenering in het evalueren van een clusterconfiguratie is dat we verwachten dat de clustercentra (gemiddelden) relatief ver van elkaar liggen. Anders gesteld: de variabiliteit van de observaties binnen een cluster is klein t.o.v. de variabiliteit tussen de clustercentra. Dit is exact Multivariate Dataverwerking Hoofdstuk 5 p. 23

86 wat gemeten wordt met Wilks Lambda, ( ) 2/n E Λ =, B + E met E en B de matrices van kwadraten en kruisproducten respectievelijk binnen en tussen de clusters (de exponent 2/n is niet noodzakelijk). Indien we beschikken over een reeks clusteroplossingen, k = 1,..., K, dan kunnen we voor iedere k Wilks Lambda (Λ k ) berekenen en een scree plot construeren van Λ k t.o.v. k. We illustreren dit aan de hand van een voorbeeld Voorbeeld We beschouwen de abundance dataset uit Sectie 5.3.2, maar dan getransponeerd zodat we eenvoudig de plantenspecies kunnen clusteren (dataset: abundancet). Plantenspecies die in eenzelfde cluster voorkomen, zijn min of meer homogeen met betrekking tot hun habitats. In een eerste fase voeren we een hiërarchische clustering uit. We beschouwen zowel de complete linkage als de average linkage methode. > abundance.agnes.ave <- agnes(abundancet[, 2:18], method = "average" ) > plot(abundance.agnes.ave) > abundance.agnes.com <- agnes(abundancet[, 2:18], method = "complete") > plot(abundance.agnes.com) De clusterbomen zijn weergegeven in Figuur Beide clusterbomen vertonen onderaan vertakkingen die elkaar snel opvolgen (i.e. kleine verschillen in inter-cluster afstanden). Meer naar boven toe onderscheiden zich enkele grotere takken, maar het is zeker niet duidelijk hoeveel clusters een goede oplossing zullen geven (omdat de vertikale vertakkingen tussen de vertakkingen ongeveer even groot zijn). Op basis van deze figuren besluiten we Wilks Lambda te berekenen voor k = 2,..., 10 clusters. We zullen dus 9 partitie-gebaseerde clusteranalyses met bijhorende MANOVA s uitvoeren om de Wilks Lambda s te bekomen. Dit proces automatiseren we. Vooreerst Multivariate Dataverwerking Hoofdstuk 5 p. 24

87 Height Airpra Teenud Rumtun Viciangus Galver Trifdub Stegram Camrot Visvul Hiepil AchMil Luzcam Plalan Saxgra Trirep Cyncri Tripra Cerfon Ranbul Antodo Tarasp Alchesp. Filvul Hypmac Latmon Hepnob Alliusp Fraexc Geuurb Latpra Priver Poanem Camper Vioriv Conmaj Antsil Verhed Rumace Poapra Vercha Moetrin Dacglo Fesrub Desfle Agrten Stahol Anenem Ranfic Merper Fesovi Height Airpra Teenud Rumtun Viciangus Galver Trifdub Stegram Camrot Conmaj Antsil Verhed Latpra Camper Vioriv Priver Poanem Hepnob Alliusp Fraexc Geuurb Hypmac Latmon Hiepil AchMil Luzcam Plalan Saxgra Trirep Cyncri Tripra Cerfon Ranbul Antodo Tarasp Alchesp. Filvul Rumace Poapra Vercha Visvul Dacglo Fesrub Moetrin Desfle Agrten Stahol Anenem Ranfic Merper Fesovi Figuur 5.12: Clusterbomen bekomen met Average Linkage (boven) en Complete Linkage (onder) op de abundancet dataset Multivariate Dataverwerking Hoofdstuk 5 p. 25

88 initialiseren we een matrix abundance.scree waarin de data voor de scree plot bewaard wordt. abundance.scree<-as.data.frame(matrix(ncol=2,nrow=9)) names(abundance.scree)<-c("k","lambda") abundance.scree$k<-2:10 Vervolgens voeren we de 9 clusteranalyse s uit (we verkiezen hier Pam) met bijhorende MANOVA s. > for(k in 2:10) { abundance.pam <- pam(abundancet[, 2:18], k = k) abundancet$clust <- as.factor(abundance.pam$clust) tmp <- manova(cbind(site1, Site2, Site3, Site4, Site5, Site6, Site7, Site8, Site9, Site10, Site11, Site12, Sit13, Site14, Site15, Site16, Site17) ~ clust, data = abundancet) abundance.scree$lambda[k - 1] <- summary(tmp, test = "wilk" )$Stats[2] } De scree plot is weergegeven in Figuur De scree plot laat duidelijk een hele scherpe daling van Λ k zien. Vanaf k = 4 daalt Wilks Lambda nog nauwelijks. Hieruit besluiten we te kiezen voor k = 3 of k = 4. Tenslotte construeren we de clusplots en de silhouette plots van de Pam oplossingen voor k = 3 en k = 4 clusters. > abundance.pam <- pam(abundancet[, 2:18], k = 3) > plot(abundance.pam) > abundance.pam <- pam(abundancet[, 2:18], k = 4) > plot(abundance.pam) Figuren 5.14 en 5.15 tonen de plots. De figuren tonen duidelijk dat we geen goede clustering bekomen; er blijkt een overlapping tussen clusters te bestaan. Een overlapping betekent in de context van het voorbeeld dat er species zijn die in meerdere Multivariate Dataverwerking Hoofdstuk 5 p. 26

89 Lambda k Figuur 5.13: Scree plot van Wilks Lambda voor k = 2,..., 10 clusterconfiguraties volgende de Pam methode Component Component 1 These two components explain % of the point variability Silhouette width Average silhouette width : 0.27 Figuur 5.14: Clusplot en Silhouette plot van de Pam oplossing met k = 3 plots voorkomen. Door een verdere gedetailleerde analyse van de species met bv. een negatieve silhouette waarde kunnen deze niet-unieke plantensoorten opgespoord worden. Een slechte clustering betekent dus niet noodzakelijk dat de studie mislukt is. Ook uit een niet-perfecte clustering kunnen we leren. Multivariate Dataverwerking Hoofdstuk 5 p. 27

90 Component Component 1 These two components explain % of the point variability Silhouette width Average silhouette width : 0.29 Figuur 5.15: Clusplot en Silhouette plot van de Pam oplossing met k = 4 Multivariate Dataverwerking Hoofdstuk 5 p. 28

91 Hoofdstuk 6 Discriminatie en Classificatie 6.1 Inleiding Discriminatie en Classificatie zijn twee technieken die heel nauw verwant zijn met elkaar. Bij discriminatie bestaat de dataset uit p-variate observaties die in k groepen ingedeeld zijn (gekende groepsindeling). Op basis van deze dataset (trainingsdata) worden classificatieregels opgesteld; een classificatieregel is een functie van een p-variate observatie met als resultaat één van de k groepen. Classificatie is de toepassing van de classificatieregel. Als voorbeeld doorheen dit hoofdstuk beschouwen we de possum dataset. Een possum is een klein buideldiertje dat heel frequent voorkomt in Australië. De dataset bestaat uit morfologische metingen op 104 beestjes die gevangen zijn in 7 verschillende regio s in het zuid-oosten van Australië. De 8 morfologische variabelen zijn: hoofdlengte (hdlngth), schedelbreedte (skullw), totale lengte (totlngth), staartlengte (taill), voetlengte (pes), oorlengte (earconch), ooggrootte (eye) en borstomtrek (chest). Een scatter plot matrix wordt weergegeven in Figuur 6.1. We wensen een discriminantanalyse uit de voeren op deze data met de volgende doelstellingen: we zijn geïnteresseerd om na te gaan in welke mate de 7 geografische groepen van elkaar verschillen. Uiteraard zouden we hiertoe de multivariate gemiddelden met elkaar kunnen vergelijken (MANOVA), maar zoals zal blijken uit dit hoofdstuk krijgen we via een discriminantanalyse extra informatie over de verschillen tussen de groepen. 1

92 hdlngth skullw totlngth taill pes earconch eye chest Figuur 6.1: De scatter plot matrix van de possum data In het bijzonder komen we te weten hoe de groepen van elkaar verschillen in een beperkter aantal dimensies (dimensiereductie; dus een vereenvoudiging) we wensen een classificatieregel op te stellen zodat we possums op basis van enkele morfologische kenmerken kunnen toekennen aan één van de 7 geografische gebieden. 6.2 Beslissingstheorie Twee Groepen Stel dat we een object moeten toekennen aan één van twee mogelijke groepen, dan wensen we dit te doen zodanig dat de kans op een misclassificatie minimaal is. We tonen in deze sectie hoe dit in het algemeen bereikt kan worden. We stellen een observatie voor als Z = (X, I) met X een p-variate continue observatie en met de variabele I de groepsindicator. Hier kan I enkel de waarden 1 en 2 aannemen en is I dus een binomiale variabele. Stel dat we a priori weten dat de kans dat een observatie tot groep 1 behoort, gelijk is aan π 1 = P {I = 1} en de kans dat een observatie tot groep 2 behoort, gelijk is aan π 2 = P {I = 2}. π 1 en π 2 noemen we de priors of de a priori probabiliteiten. Uiteraard geldt π 1 + π 2 = 1. Dus π 1 (of π 2 ) is de parameter van de binomiale distributie van I. Multivariate Dataverwerking Hoofdstuk 6 p. 2

93 Afhankelijk van de groep waartoe de observatie behoort, zal X een andere p-variate distributie hebben. respectievelijk de groepen 1 en 2. Stel f 1 (x) en f 2 (x) de densiteitsfuncties van de distributie van X in In het algemeen kan de classificatieregel als volgt gedefinieerd worden. Aangezien de classificatie moet gebeuren op basis van de p componenten van x, zal het zeker een functie zijn van x. De vector x is een punt in een p-dimensionele ruimte. Stel {R 1, R 2 } een partitie van deze ruimte, dan zullen we de observatie toekennen aan groep 1 indien x R 1 en toekennen aan groep 2 indien x R 2. Classificatiefouten treden dus op wanneer x R 1 maar I = 2 en wanneer x R 2 maar I = 1. De kans op een classificatiefout laat zich nu eenvoudig berekenen: P {X R 1 en I = 2} + P {X R 2 en I = 1} wat door toepassing van Bayes gelijk is aan P {X R 1 I = 2} P {I = 2} + P {X R 2 I = 1} P {I = 1} en verder gelijk is aan f 2 (x)dx π 2 + f 1 (x)dx π 1. R 1 R 2 Om in te zien hoe de kans op een misclassificatiefout geminimaliseerd kan worden (door een goede keuze van de partitie {R 1, R 2 }), schrijven we de deze kans als (π 1 f 1 (x) π 2 f 2 (x)) dx + π 2 f 2 (x)dx. R 2 Aangezien de integraal in de laatste term berekend wordt over de volledige p-dimensionale ruimte (i.e. R 1 R 2 ), is deze term constant voor iedere keuze van de partitie. Aan de hand van de eerste term, besluiten we dat de kans geminimaliseerd wordt indien R 2 de punten x omvat waarvoor π 1 f 1 (x) π 2 f 2 (x) < 0 R 2 de punten x niet omvat waarvoor π 1 f 1 (x) π 2 f 2 (x) > 0 De classificatieregel (via de definitie van de partitie) is dus R 1 = {x : π 1 f 1 (x) > π 2 f 2 (x)} R 2 = {x : π 1 f 1 (x) < π 2 f 2 (x)}. Multivariate Dataverwerking Hoofdstuk 6 p. 3

94 Een diepere interpretatie bekomen we door bv. in de definitie van R 1 beide leden van de ongelijkheid te delen door π 1 f 1 (x) + π 2 f 2 (x) f(x), (6.1) waar f(x) de interpretatie heeft van de densiteit van de marginale distributie van X. Vergelijking 6.1 impliceert dat X een zogenaamde mixture distributie heeft. Beide leden van de ongelijkheid zijn dan van de vorm π i f i (x) f(x) = P {I = i} f i(x I = i) f(x) = P {I = i X = x} (eigenlijk moet je X = x zien als X in een kleine delta-omgeving van x). Het resultaat, P {I = i X = x} wordt de a posteriori of posterior probabiliteit genoemd. In tegenstelling tot P {I = i} = π i is P {I = i X = x} de kans dat I = i conditioneel op (i.e. observeren van) de p-variate variabele x. Dit geeft de volgende goed-interpreteerbare classificatieregel: na het ken de observatie x toe aan de groep waarvoor de a posteriori probabiliteit maximaal is. Uiteraard is deze regel volkomen equivalent met deze gebaseerd op R 1 en R 2. Nog een andere veel gebruikte manier om de classificatieregel te formuleren, definieert de partitie als R 1 = R 1 =. { x : f 1(x) f 2 (x) > π } { 2 = x : ln f 1(x) π 1 f 2 (x) > ln π } 2 π { 1 x : f 1(x) f 2 (x) < π } { 2 = x : ln f 1(x) π 1 f 2 (x) < ln π } 2 π 1 waar we in het linkerlid een (log-) likelihood ratio herkennen. Het is een likelihood ratio waarbij de steekproef slechts uit één observatie bestaat (x) en waarbij de twee concurrerende modellen, de distributie van X in groep 1 en groep 2 voorstellen. Deze vorm heeft dikwijls een computationeel voordeel omdat een likelihood ratio veelal een eenvoudige uitdrukking oplevert Meerdere Groepen Stel k groepen. Indien er meerdere groepen zijn, is de algemene theorie volkomen analoog aan deze voor twee groepen. Met een evidente veralgemening van de notatie wordt de Multivariate Dataverwerking Hoofdstuk 6 p. 4

95 beslissingsregel nu: ken de observatie x toe aan de groep waarvoor de a posteriori probabiliteit maximaal is. De a posteriori probabiliteit wordt nu berekend als P {I = i X = x} = π if i (x) f(x) = π i f i (x) k j=1 π jf j (x). In termen van likelihood ratio s laat zich de classificatieregel onmiddellijk vertalen in (i = 1,..., k) R i = { x : f i(x) f j (x) > π j π i } { voor alle j i = x : ln f i(x) f j (x) > ln π j π i } voor alle j i. Soms wordt de classificatieregel verwoord als: classificeer x in groep i als ln f i (x) + ln π i maximaal is onder alle ln f j (x) + ln π j (j = 1,..., k). 6.3 Classificatieregels Gebaseerd op MVN De meest klassieke methoden voor discriminantanalyse gaan uit van k multivariate normale distributies. Vanuit het standpunt van theorie-opbouw, moet dit als een (zware) veronderstelling beschouwd worden, maar in de praktijk mag dit veel pragmatischer geïnterpreteerd worden. Later in dit hoofdstuk bespreken we methoden om een classificatieregel te evalueren. Indien een gebruiker tevreden is over de classificatieresultaten (i.e. weinig misclassificatiefouten), dan zijn de veronderstellingen niet meer relevant. In wat volgt, nemen we aan dat de parameters van de MVN gekend zijn. Dit is echter in de praktijk nagenoeg nooit waar, maar de ongekende parameters kunnen wel allemaal eenvoudig geschat worden aan de hand van de trainingsdata, waardoor de methoden onmiddellijk toepasbaar worden. Multivariate Dataverwerking Hoofdstuk 6 p. 5

96 6.3.1 Twee Groepen Homoscedastisch Model We gaan ervan uit dat de k = 2 groepen MVN zijn met gelijke variantie-covariantiematrices, i.e. X I = 1 MV N(µ 1, Σ) X I = 2 MV N(µ 2, Σ). Voor een nieuwe observatie x laat zich de likelihood ratio eenvoudig berekenen f 1 (x) f 2 (x) = exp( 1(x µ 2 1) t Σ 1 (x µ 1 )) exp( 1(x µ 2 2) t Σ 1 (x µ 2 )) ( = exp 1 ( (x µ1 ) t Σ 1 (x µ 1 ) (x µ 2 ) t Σ 1 (x µ 2 ) )). 2 Aangezien het eenvoudiger is om een classificatieregel te bekomen zonder een exponentiële functie, werken we verder met de log-likelihood log f 1(x) f 2 (x) = 1 2 ( (x µ1 ) t Σ 1 (x µ 1 ) (x µ 2 ) t Σ 1 (x µ 2 ) ) = x t Σ 1 (µ 1 µ 2 ) 1 2 (µ 1 µ 2 ) t Σ 1 (µ 1 + µ 2 ). Het rechterlid van de laatste vergelijking is een lineaire functie van de componenten van x. De eerste term van het rechterlid wordt ook wel de discriminantfunctie genoemd, x t δ = x t Σ 1 (µ 1 µ 2 ). We hebben dus de optimale oplossing voor het classificatieprobleem tussen twee homoscedastische MVN distributies. Heteroscedastisch Model We gaan ervan uit dat de k = 2 groepen MVN zijn, X I = 1 MV N(µ 1, Σ 1 ) X I = 2 MV N(µ 2, Σ 2 ). Multivariate Dataverwerking Hoofdstuk 6 p. 6

97 Voor een nieuwe observatie x laat zich de likelihood ratio eenvoudig berekenen f 1 (x) f 2 (x) = Σ 2 1/2 exp ( 1(x µ 2 1) t Σ 1 1 (x µ 1 ) ) Σ 1 1/2 exp ( 1(x µ 2 2) t Σ 1 2 (x µ 2 ) ) = Σ 2 1/2 Σ 1 1/2 exp ( 1 2 ( (x µ2 ) t Σ 1 2 (x µ 2 ) (x µ 1 ) t Σ 1 1 (x µ 1 ) )). De log-likelihood ratio wordt nu ln f 1(x) f 2 (x) = 1 2 ln Σ ln Σ ( (x µ2 ) t Σ 1 2 (x µ 2 ) (x µ 1 ) t Σ 1 1 (x µ 1 ) ). 2 Deze uitdrukking is echter niet lineair in x; het is een kwadratische discriminantfunctie Meerdere Groepen In Sectie hebben we de algemene methodologie in termen van (log-) likelihood ratio s reeds besproken: voor alle i, j = 1,..., k moeten de log-likelihood ratio s berekend worden. Dus, het enige verschil met de discriminatie tussen twee groepen is dat er nu k(k 1)/2 ratio s moeten berekend worden i.p.v. 2, maar de vorm van de likelihood ratio s blijft onveranderd. Aangezien een log-likelihood ratio het verschil is van 2 log-likelihoods, wordt in de praktijk veelal de k log-likelihoods berekend als basis voor de classificatie. Voor het homoscedastische model vinden we dus voor de i-de groep ln f i (x) = 1 2 ln Σ 1 2 (x µ i) t Σ 1 (x µ i ) = 1 2 ln Σ 1 2 µt iσ 1 µ i + µ t iσ 1 x 1 2 xt Σ 1 x. Merk op dat ln f i (x) eigenlijk een kwadratische functie is, maar aangezien de kwadratische term x t Σ 1 x gelijk is in alle k groepen, mag deze weggelaten worden. Er blijft een lineaire functie in de componenten van x over. De oplossing voor het heteroscedastische model is volkomen analoog, ln f i (x) = 1 2 ln Σ i 1 2 µt iσ 1 i µ i + µ t iσ 1 i x 1 2 xt Σ 1 i x, maar nu is de kwadratische term x t Σ 1 i x niet gelijk in de k groepen en is dus noodzakelijk. Multivariate Dataverwerking Hoofdstuk 6 p. 7

98 6.3.3 Voorbeeld Homoscedastisch Model Eerst worden de discriminantfuncties berekend. Aangezien in de 7 regio s er ongeveer evenveel possums voorkomen, kiezen we voor uniforme priors, i.e. π 1 = π 2 =... = π 7 = 1/7. > possum.homo<-discrim(site~hdlngth+skullw+totlngth+taill+pes+earconch+eye+chest, > possum.homo data=possum, family=classical(cov="homoscedastic"),prior="uniform" ) Call: discrim(site ~ hdlngth + skullw + totlngth + taill + pes + earconch + eye + chest, data = possum, family = Classical(cov = "homoscedastic"), prior = "uniform") Group means: hdlngth skullw totlngth taill pes earconch eye chest N Priors Covariance Structure: homoscedastic Multivariate Dataverwerking Hoofdstuk 6 p. 8

99 hdlngth skullw totlngth taill pes earconch hdlngth skullw totlngth taill pes earconch eye chest eye chest hdlngth skullw totlngth taill pes earconch eye chest Constants: Linear Coefficients: hdlngth skullw totlngth taill pes earconch eye chest Multivariate Dataverwerking Hoofdstuk 6 p. 9

100 hdlngth skullw totlngth taill pes earconch eye chest De constanten en de lineaire coëfficiënten komen overeen met de termen in ln f i (x) = 1 2 ln ˆΣ 1 2 xt i ˆΣ 1 x i + x t i ˆΣ 1 x. Aangezien de priors gelijk zijn in de 7 groepen, herleidt de classificatieregel zich tot het toekennen van de observatie x tot de groep i waarvoor ln f i (x) maximaal is. Dit is volkomen equivalent met het toekennen van de observatie aan de groep met maximale a posteriori kans. In S-Plus gebruiken we de predict functie om a posteriori kansen te berekenen. > predict(possum.homo, method = "plug-in") groups X1 X2 X3 X4 X5 C C C C C C C C (slechts gedeeltelijke output weergegeven) Heteroscedastisch Model De uitwerking in S-plus is volkomen analoog. Multivariate Dataverwerking Hoofdstuk 6 p. 10

101 > possum.hetero<-discrim(site~hdlngth+skullw+totlngth+taill+pes+earconch+eye+chest, data=possum, family=classical(cov="heteroscedastic"), prior="uniform") > possum.hetero Call: discrim(site ~ hdlngth + skullw + totlngth + taill + pes + earconch + eye + chest, data = possum, family = Classical(cov = "heteroscedastic"), prior = "uniform") Group means: hdlngth skullw totlngth taill pes earconch eye chest N Priors Covariance Structure: heteroscedastic Group: 1 hdlngth skullw totlngth taill pes earconch hdlngth skullw totlngth taill pes Multivariate Dataverwerking Hoofdstuk 6 p. 11

102 earconch eye chest eye chest hdlngth skullw totlngth taill pes earconch eye chest Group: 2 hdlngth skullw totlngth taill pes earconch hdlngth skullw totlngth taill pes earconch eye chest eye chest hdlngth skullw totlngth taill pes earconch eye chest (covariantiematrices voor groepen 3 t.e.m. 7 weggelaten) Constants: Multivariate Dataverwerking Hoofdstuk 6 p. 12

103 Linear Coefficients: hdlngth skullw totlngth taill pes earconch eye chest hdlngth skullw totlngth taill pes earconch eye chest Quadratic coefficents: group: 1 hdlngth skullw totlngth taill pes hdlngth skullw totlngth taill pes earconch eye Multivariate Dataverwerking Hoofdstuk 6 p. 13

104 chest earconch eye chest hdlngth skullw totlngth taill pes earconch eye chest group: 2 hdlngth skullw totlngth taill pes hdlngth skullw totlngth taill pes earconch eye chest earconch eye chest hdlngth skullw totlngth taill pes earconch eye chest (kwadratische coefficienten voor de groepen 3 t.e.m. 7 weggelaten) > predict(possum.hetero, method = "plug-in") groups X1 X2 X3 X4 X5 C C Multivariate Dataverwerking Hoofdstuk 6 p. 14

105 C C C C C C Vergelijken van Beide Modellen Aangezien de discriminantanalyse gebaseerd is op modellen en aangezien de twee modellen die we gezien hebben genest zijn (i.e. het homoscedastische model is een bijzonder geval van het heteroscedastische model), kunnen we beide modellen met elkaar vergelijken aan de hand van een likelihood ratio test. De nulhypothese die getoetst wordt is: het eenvoudige model (homoscedastisch) is het correcte model. > anova(possum.homo, possum.hetero) Group Variable: site Cov.Structure Df AIC BIC Loglik Test possum.homo homoscedastic possum.hetero heteroscedastic vs. 2 Lik.Ratio P.value possum.homo possum.hetero We lezen p = > 0.05 en we besluiten dat we mogen aannemen dat het homoscedastische model de trainingsdata voldoende goed beschrijft. 6.4 Misclassificatiefouten De ideale classificatieregel is een regel die tot geen misclassificatiefouten leidt. In de praktijk komt dit echter zelden of nooit voor. Om een classificatieregel naar waarde te kunnen Multivariate Dataverwerking Hoofdstuk 6 p. 15

106 inschatten is het belangrijk de kans op misclassificatiefouten te kennen. bespreken we enkele methoden. In deze sectie Naïeve Methode: plug-in De eenvoudigste methode bestaat uit de volgende stappen: 1. bereken de discriminantfuncties aan de hand van de trainingsdata 2. gebruik deze discriminantfuncties in de classificatieregel om de trainingsdata te classificeren 3. vergelijk de werkelijke groepsindeling met deze bekomen uit de toepassing van de classificatieregel door bv. het relatieve aantal fout geclassificeerde observaties te berekenen (dit is een schatting van de kans op misclassificatie) Dit is een hele eenvoudige procedure, maar leidt helaas tot een onderschatting van de misclassificatiekans. De reden is eenvoudig: de opgestelde classificatieregel levert de beste classificatie voor de trainingsdata zelf (door de constructie van de discriminantfuncties). > possum.predict <- predict(possum.homo, method = "plug-in") > possum.table <- table(possum$site, possum.predict$groups) > possum.table > 1 - sum(diag(possum.table))/sum(possum.table) [1] We bekomen aldus een geschatte misclassificatiefout van ongeveer 21%. Multivariate Dataverwerking Hoofdstuk 6 p. 16

107 Er bestaat nog een andere wijze (ook plug-in) om de fout te schatten, gebruik makend van de priors Splitsen van de Trainingsdata Uit de voorgaande argumentatie omtrent de onderschatting van de plug-in methode volgt onmiddellijk een oplossing voor het probleem: splits de oorspronkelijke trainingsdataset van n observaties in een kleinere trainingsdataset van n 1 observaties een evaluatiedataset van n n 1 = n 2 observaties (De opsplitsing moet volledig at random gebeuren.) De discriminantfuncties worden vervolgens geschat op basis van de kleinere trainingsdataset en de classificatieregel wordt geëvalueerd door enkel de n 2 observaties uit de evaluatiedataset te classificeren en deze classificatie te vergelijken met de oorspronkelijke groepsindeling. Doordat de schatting van de misclassificatiefout gebeurt op basis van n 2 observaties die volledig onafhankelijk zijn van de n 1 observaties die gebruikt zijn voor het opstellen van de classificatieregel, bekomen we een onvertekende schatter voor de kans op misclassificatie. Het nadeel is echter dat de classificatieregel slechts op basis van n 1 observaties opgesteld wordt i.p.v. alle n observaties. Dus de bekomen classificatieregel is misschien niet de beste (meest nauwkeurige) afhankelijk van de randomizatie bij de opsplitsing van de volledige dataset, bekomen we andere schattingen voor de kans (dit is geen theoretisch bezwaar, maar het wordt in de praktijk als ongewenst ervaren) de kans op misclassificatie wordt geschat op basis van slechts n 2 observaties, bijgevolg is de schatting minder nauwkeurig > ind <- sample(103) > ind1 <- ind[1:80] > ind2 <- ind[81:103] Multivariate Dataverwerking Hoofdstuk 6 p. 17

108 > possum.train <- possum[ind1, ] > possum.eval <- possum[ind2, ] > possum.homo <- discrim(site ~ hdlngth + skullw + totlngth + taill + pes + earconch + eye + chest, data = possum.train, family = Classical(cov = "homoscedastic"), prior = "uniform") > possum.predict <- predict(possum.homo, newdata = possum.eval, method = "plug-in") > possum.table <- table(possum.eval$site, possum.predict$groups) > possum.table > 1 - sum(diag(possum.table))/sum(possum.table) [1] Crossvalidatie Een derde methode voor het schatten van de kans op misclassificatie is crossvalidatie. Deze methode kan beschouwd worden als een compromis tussen de twee vorige methoden. De idee is de volgende: een observatie i wordt geclassificeerd volgens een classificatieregel die opgesteld is aan de hand van de volledige dataset waaruit de i-de observatie weggelaten is. En dit wordt voor iedere observatie i gedaan. Op deze wijze wordt iedere classificatie uitgevoerd m.b.v. een classificatieregel die onafhankelijk is van de te classificeren observatie en anderzijds wordt voor het opstellen van iedere classificatieregel toch nog n 1 observaties gebruikt en n observaties worden gebruikt voor het schatten van de kans op misclassificatie. > possum.cross <- crossvalidate(possum.homo) > possum.table <- table(possum$site, possum.cross$groups) > 1 - sum(diag(possum.table))/sum(possum.table) Multivariate Dataverwerking Hoofdstuk 6 p. 18

109 [1] Fisher s Methode Vervolgens geven we een andere benaderingswijze van het probleem. Fisher s methode is niet gebaseerd op de veronderstelling van MVN. Wel wordt er impliciet verondersteld dat de variantie-covariantiematrices in de verschillende groepen gelijk zijn. De methode is niet gebaseerd op de beslissingstheorie, waardoor er geen garantie is dat de methode leidt tot een optimale classificatie. In het twee-groepen geval zullen we echter aantonen dat de oplossing volkomen equivalent is aan deze bekomen onder de veronderstelling van MVN (homoscedastisch geval), waardoor uiteraard dezelfde optimaliteitseigenschappen alsnog gelden Twee Groepen Probleemstelling Stel z = x t δ. Met deze notatie stellen z i = x t iδ (i = 1,..., n) de getransformeerde observaties voor. Merk op dat dit univariate observaties zijn. Hiermee is het discriminatieprobleem gereduceerd van een p-dimensionaal naar een 1-dimensionaal probleem. De formulering van een goede discriminatie in 1 dimensie kan als volgt luiden: de groepsgemiddelden liggen ver uit elkaar. We weten uit de univariate statistiek dat de F -teststatistiek een goede maat is voor het bepalen of gemiddelden aldanniet verschillend zijn van elkaar, F = MST SST MSE = k 1, SSE n k met SST en SSE respectievelijk de kwadratensom tussen en binnen de groepen. De F -statistiek is dus een functie van de univariate z-variabele, die gedefinieerd wordt door de vector δ. De probleemstelling luidt nu: bepaal δ zodanig dat F gemaximaliseerd wordt, i.e. kies de transformatie van de p-dimensionale ruimte naar de 1-dimensionale ruimte zodanig dat in deze laatste ruimte de discriminatie maximaal is. Multivariate Dataverwerking Hoofdstuk 6 p. 19

110 De Oplossing Indien we de notatie uit Hoofdstuk 2 hanteren, dan stelt X ij de j-de observatie voor uit de i-de groep (i = 1,..., k en j = 1,..., n i ) en dan is z ij de overeenkomstige getransformeerde observatie. Met deze notatie vinden we k SST = n i ( z i z)( z i z) met en z i = 1 n i z = 1 n i=1 n i j=1 z ij = 1 n i k n i z ij = 1 n i=1 j=1 n i j=1 δ t x ij = δ t x i k n i δ t x ij = δ t x, i=1 j=1 waardoor SST wordt k SST = δ t n i ( x i x)( x i x) t δ = δ t Bδ. i=1 Analoog vinden we SSE = k n i (z ij z i )(z ij z i ) i=1 j=1 k n i = δ t (x ij x i )(x ij x i ) t δ i=1 = δ t W δ j=1 { } Merk ook op dat E {W /(n k)} = E ˆΣ = Σ. Alvorens verder te gaan, merken we op dat het maximaliseren van F equivalent is aan het maximaliseren van F SST = SSE/(n k) = δt Bδ δ t ˆΣδ. Om triviale oplossingen te vermijden bij de maximalisatie van F, voeren we een restrictie op δ in: δ t ˆΣδ = 1. Multivariate Dataverwerking Hoofdstuk 6 p. 20

111 Het optimaliseren met een restrictie kan opgelost worden door gebruik te maken van een Lagrange multiplier (λ), i.e. we zoeken het maximum van δ t Bδ λ(δ t ˆΣδ 1). Deze uitdrukking wordt vervolgens afgeleid naar δ, gelijk gesteld aan nul, zodat we vinden 2Bδ = 2λ ˆΣδ ˆΣ 1 Bδ = λδ. (6.2) Deze laatste uitdrukking is exact de vergelijking die als oplossingen voor δ en λ de eigenvector en eigenwaarde van de matrix ˆΣ 1 B geeft. De interpretatie van λ vinden we door in de uitdrukking voor F, Bδ te substitueren door λ ˆΣδ, F = δt Bδ δ t ˆΣδ = δt (λ ˆΣδ) δ t ˆΣδ = λ. Dus λ is de maximale waarde voor F ; hoe groter λ is, hoe beter de discriminatie. Verband met de Likelihood Ratio Methode Om het verband met de likelihood ratio methoden in te zien, bepalen we de eigenvector δ. Hiertoe herschrijven we B als B = = 2 n i ( x i x)( x i x) t i=1 ( 1 n n 2 ) ( x 1 x 2 )( x 1 x 2 ) t. Hiermee wordt Vergelijking 6.2, ( ) ˆΣ 1 ( x 1 x 2 )( x 1 x 2 ) t δ = λδ. n 1 n 2 Multivariate Dataverwerking Hoofdstuk 6 p. 21

112 ( ) Aangezien ( x 1 x 2 ) t δ een scalair is, stellen we ν = ( x 1 x 2 ) t 1 δ n n 2 vergelijking en wordt de ˆΣ 1 ( x 1 x 2 ) = λ ν δ, waaruit dus volgt dat δ evenredig is met ˆΣ 1 ( x 1 x 2 ). Om het verband met de oplossing uit Sectie 6.3 te zien, moeten we ons enkel realiseren dat we in Sectie 6.3 steeds met gekende populaties gewerkt hebben (i.e. µ 1, µ 2 en Σ gekend), maar dat we opgemerkt hebben dat in de praktijk de ongekende parameters gesubstitueerd worden door hun schatters. Bijgevolg, als k = 2, geeft Fisher dezelfde oplossing als deze bekomen onder de veronderstelling van MVN en homoscedasticiteit. Classificatie In Sectie 6.3 werd het opstellen van de discriminantfunctie volledig gekaderd binnen de beslissingstheorie en daardoor was de classificatieregel heel eenduidig bepaald. Fisher s methode staat volkomen los van de beslissingstheorie. Hij stelde een heel intuïtieve classificatieregel voor: ken observatie x toe aan groep 1 indien z = x t δ dichter bij z 1 ligt dan bij z 2, en vica versa Anders gesteld (stel bv. z 1 < z 2 ): { R 1 = x : x t δ < 1 } 2 ( z 1 + z 2 ) R 2 = { x : x t δ > 1 } 2 ( z 1 + z 2 ) Merk echter op dat (met δ = ˆΣ( x 1 x 2 )) 1 2 ( z 1 + z 2 ) = 1 2 (δt x 1 + δ t x 2 ) = 1 ) (( x 1 x 2 ) t ˆΣ 1 x 1 + ( x 1 x 2 ) t ˆΣ 1 x 2 2 = 1 2 ( x 1 x 2 ) t ˆΣ 1 ( x 1 + x 2 ). Bijgevolg is de classificatieregel van Fisher exact equivalent met deze gebaseerd op de beslissingstheorie wanneer π 1 = π 2. Multivariate Dataverwerking Hoofdstuk 6 p. 22

113 De discriminantfunctie x t δ met δ de eigenvector van ˆΣ 1 B wordt de canonische discriminantfunctie genoemd Meerdere Groepen We weten reeds dat de eerste oplossing voor δ en λ van ˆΣ 1 Bδ = λδ de F -statistiek maximaliseert. Hierbij geldt de normalisatierestrictie δ t ˆΣδ = 1. Indien er k groepen zijn, kan er aangetoond worden dat de matrix ˆΣ 1 B exact g = min(k 1, p) oplossingen heeft voor het eigenwaarde-eigenvectorprobleem. Daarenboven geldt voor deze oplossingen dat δi t ˆΣδ j = 0 voor i j. Indien we de variabelen Z i = X t δ i definiëren, dan is bovenstaande restrictie equivalent met Cov {Z i, Z j } = δiσδ t j = 0, (waarbij we Σ vervangen door zijn schatter ˆΣ) i.e. de discriminantfuncties Z i en Z j hebben covariantie gelijk aan nul binnen de k groepen. De klassieke conventie λ 1 > λ 2 >... > λ g in acht nemend, vinden we dus g discriminantfuncties zodanig dat de i-de discriminantfunctie de F ratio maximaliseert onder alle lineaire functies van x zodanig dat de variantie van de discriminantfunctie gelijk is aan 1 en zodanig dat de covariantie met de discriminantfuncties 1,..., i 1 gelijk is aan nul. De volgende eigenschap ondersteunt bovenstaande redenering. Een eigenschap van eigenwaarden is dat de som van de eigenwaarden gelijk is aan het spoor van de overeenkomstige matrix. Dus, k λ i = tr( ˆΣ 1 B) i=1 = tr( ˆΣ k 1 n i ( x i x)( x i x) t ) = i=1 k n i ( x i x) t ˆΣ 1 ( x i x). i=1 Multivariate Dataverwerking Hoofdstuk 6 p. 23

114 Dit laatste is de som van de Mahalanobis-afstanden van de k oorspronkelijke groepscentra ( x i ) tot het globale centrum ( x). Dit kan beschouwd worden als een globale maat voor de verschillen tussen de k groepen. Op basis hiervan interpreteren we λ i k j=1 λ j als het relatieve vermogen van de i-de discriminantfunctie om de k groepen te discrimineren. Op basis van deze verhoudingen wordt dikwijls besloten om niet alle g discriminantfuncties te gebruiken in de classificatie. De discriminantfuncties x t δ i met δ i de i-de eigenvector van ˆΣ 1 B worden de canonische discriminantfuncties genoemd. Een voordeel van Fisher s canonische discriminantfuncties t.o.v. de gewone lineaire discriminantfuncties, is dat ze dikwijls goed interpreteerbaar zijn (cfr. PCA), zodat er ook iets besloten kan worden in termen van de oorspronkelijke p variabelen m.b.t. hun discriminerend vermogen of m.b.t. hoe de k groepen voornamelijk van elkaar verschillen in termen van de oorspronkelijke p variabelen. Een grafische voorstelling van de observaties in het vlak van de twee eerste canonische discriminantfunctie is meestal een goed hulpmiddel om tot een zinvolle interpretatie te komen. In dit vlak zijn de puntenwolken van de k groepen immers maximaal gescheiden van elkaar Voorbeeld > possum.canonic <- discrim(site ~ hdlngth + skullw + totlngth + taill + pes + earconch + eye + chest, data = possum, family = Canonical(), prior = "uniform") > possum.canonic Call: discrim(site ~ hdlngth + skullw + totlngth + taill + pes + earconch + eye + chest, data = possum, family = Canonical(), prior = "uniform") Group means: hdlngth skullw totlngth taill pes earconch eye Multivariate Dataverwerking Hoofdstuk 6 p. 24

115 chest N Priors Covariance Structure: homoscedastic hdlngth skullw totlngth taill pes earconch hdlngth skullw totlngth taill pes earconch eye chest eye chest hdlngth skullw totlngth taill pes earconch eye chest Canonical Coefficients: Multivariate Dataverwerking Hoofdstuk 6 p. 25

116 dim1 dim2 dim3 dim4 hdlngth skullw totlngth taill pes earconch eye chest dim5 dim6 hdlngth skullw totlngth taill pes earconch eye chest Singular Values: dim1 dim2 dim3 dim4 dim5 dim Constants: Linear Coefficients: hdlngth skullw totlngth taill pes Multivariate Dataverwerking Hoofdstuk 6 p. 26

117 earconch eye chest hdlngth skullw totlngth taill pes earconch eye chest > predict(possum.canonic, method = "plug-in") groups X1 X2 X3 X4 X5 C C C C C C De eigenwaarden kunnen we in deze output niet terugvinden. Hiertoe moeten we de summary functie gebruiken. De summary functie geeft een hele lange output, waarin o.a. ook de plug-in en de crossvalidatie resultaten terug te vinden zijn (misclassificatiefouten zijn hier berekend door gebruik te maken van de priors). > summary(possum.canonic) Call: discrim(site ~ hdlngth + skullw + totlngth + taill + pes + earconch + eye + chest, data = possum, family = Canonical(), prior = "uniform") Multivariate Dataverwerking Hoofdstuk 6 p. 27

118 Group means: hdlngth skullw totlngth taill pes earconch eye chest N Priors Covariance Structure: homoscedastic hdlngth skullw totlngth taill pes earconch hdlngth skullw totlngth taill pes earconch eye chest eye chest hdlngth skullw totlngth taill pes earconch eye Multivariate Dataverwerking Hoofdstuk 6 p. 28

119 chest Canonical Coefficients: dim1 dim2 dim3 dim4 hdlngth skullw totlngth taill pes earconch eye chest dim5 dim6 hdlngth skullw totlngth taill pes earconch eye chest Singular Values: dim1 dim2 dim3 dim4 dim5 dim Constants: Linear Coefficients: hdlngth skullw Multivariate Dataverwerking Hoofdstuk 6 p. 29

120 totlngth taill pes earconch eye chest hdlngth skullw totlngth taill pes earconch eye chest Canonical Correlations: Canonical.Corr Likelihood.Ratio Chi.square df Pr dim dim dim dim dim dim Eigenvalues: Eigenvalue Difference Proportion Cumulative dim dim dim dim dim dim Tests for Homogeneity of Covariances: Statistic df Pr Multivariate Dataverwerking Hoofdstuk 6 p. 30

121 Box.M adj.m Tests for the Equality of Means: Group Variable: site Statistics F df1 df2 Pr Wilks Lambda Pillai Trace Hoteling-Lawley Trace Roy Greatest Root * Tests assume covariance homoscedasticity. F Statistic for Roy s Greatest Root is an upper bound. Hotelling s T Squared for Differences in Means Between Each Group: F df1 df2 Pr Multivariate Dataverwerking Hoofdstuk 6 p. 31

122 ... (niet-relevante output weggelaten) Mahalanobis Distance: Kolmogorov-Smirnov Test for Normality: Statistic Probability hdlngth skullw totlngth taill pes earconch eye chest Plug-in classification table: Error Posterior.Error Overall Stratified.Error Multivariate Dataverwerking Hoofdstuk 6 p. 32

123 Overall (from=rows,to=columns) Rule Mean Square Error: (conditioned on the training data) Cross-validation table: Error Posterior.Error Stratified.Error Overall (from=rows,to=columns) De eigenwaarden leren ons dat de eerste discriminantfunctie een relatief discriminerend vermogen heeft van 89.71% en de tweede heeft een relatief discriminerend vermogen van 5.55% en dus indien we enkel de twee eerste dimensies zouden weerhouden, bekomen we 95.26% van het total discrimenerend vermogen in de trainingsdata. Met behulp van de volgende S-Plus code transformeren we de p-dimensionale dataset naar de twee-dimensionale dataset van de twee eerste canonische discriminantfunctie. > z1 <- as.matrix(possum.x) %*% matrix(possum.canonic$param$canonic[, 1], ncol = 1) > z2 <- as.matrix(possum.x) %*% matrix(possum.canonic$param$canonic[, Multivariate Dataverwerking Hoofdstuk 6 p. 33

124 z z1 Figuur 6.2: De scatter plot van de twee eerste canonische discriminantfuncties 2], ncol = 1) > z <- as.data.frame(cbind(z1, z2, possum$site)) > names(z) <- c("z1", "z2", "site") In Figuur 6.2 worden de observaties op de twee eerste discriminantfuncties (z1 en z2) getoond. De figuur toont heel duidelijk dat de possums uit de regio s 1 en 2 sterk gescheiden zijn van de possums uit de overige 5 regio s. Dit was ook onmiddellijk opgevallen aan de onderzoekers die deze data eerst onderzochten. De scheiding tussen de twee grote groepen ((1,2) t.o.v. (3,4,5,6,7)) komt voornamelijk tot uiting in de eerste discriminantfunctie. Het is dus interessant de interpretatie van deze functie te kennen. Uit de output lezen we Z 1 = 0.15 hdlngth skullw 0.11 totlngth taill 0.30 pes 0.59 earconch eye 0.10 chest. Net als bij PCA trachten we een eenvoudige interpretatie te bekomen door enkel naar de belangrijkste termen te kijken. We zouden aldus Z 1 kunnen vereenvoudigen tot Z taill 0.59 earconch 0.30 pes. We concluderen dat possums uit regio 1 en 2 een korte staart hebben, grote oren en grote voeten t.o.v. de possums uit de andere regio s. We weten nu dat er twee grote possum- Multivariate Dataverwerking Hoofdstuk 6 p. 34

125 groepen zijn en door welke morfologische kenmerken de verschillen voornamelijk bepaald zijn. (Opmerking: om het relatieve belang van de p variabelen in de discriminantfunctie te beoordelen, is het eigenlijk beter met de gestandardiseerde variabelen te werken. De resultaten zijn hier niet getoond, maar de conclusies zouden hetzelfde blijven.) Aangezien de onderzoekers ervan uit gingen dat het hier over één species ging, zijn de resultaten uit deze analyse uiterst opmerkelijk. Verder genetisch onderzoek heeft later aan het licht gebracht dat het hier over twee verschillende species gaat. Het genomisch DNA van de twee grote groepen verschilt 2.8% (mens en chimpansee verschillen slechts 1%)! De ontdekking van een nieuwe soort vraagt naar een nieuwe naam. Hier viel de eer aan de statisticus die als eerste aan de hand van de discriminantanalyse de vaststelling gedaan heeft. De nieuwe possumsoort is genaamd Trichosurus cunninghamii, naar Ross Cunningham. Ere wie ere toekomt! 6.6 Classificatiebomen (CART) Inleiding CART is een acroniem voor Classification and Regression Trees. Wij bespreken hier enkel de classificatiebomen. Het betreft een niet-parametrische techniek in de zin dat er geen distributionele veronderstellingen gemaakt moeten worden. De basistechniek in CART is het recursief partitioneren van de p-dimensionale ruimte. Dit wordt geïllustreerd in Figuur 6.3. In iedere stap wordt een deelruimte in twee nieuwe deelruimten gepartitioneerd. De eindsituatie levert dus een partitie van de p-dimensionale ruimte op in q deelruimten, i.e. {R 1, R 2,..., R q } met iedere R i een deelruimte van de vorm R i = {x = (x 1, x 2,..., x p ) : c 1l < x 1 < c 1u,..., c pl < x p < c pu }. In de classificatieregel wordt gespecificeerd met welke deelruimte(n) welke groepen overeenkomen. Multivariate Dataverwerking Hoofdstuk 6 p. 35

126 A A A B B B X2 2 X2 2 X X X X1 A A B B X2 2 X X X1 Figuur 6.3: Illustratie van het recursief partitioneringsprinciepe X1<3.85 A X1<6.95 X2<3 A B X2<1.55 B A Figuur 6.4: Illustratie van een classificatieboom Iedere partitionering in het algoritme streeft een homogenisatie na in termen van de groepsvariabele I. Uiteraard kan via dit algoritme een finale partitionering bekomen worden waarbij in iedere deelruimte slechts één observatie zit. Dit is een hele zuivere of homogene situatie, maar dit garandeert niet dat de toepassing van de aldus bekomen classificatieregel kleine misclassificatiefouten geeft op een nieuwe, onafhankelijke dataset. Er is dus behoefte aan een stopcriterium dat bepaalt wanneer de recursieve paritionering moet stoppen in een deelruimte. Tevens moet duidelijk gedefinieerd worden wat zuiverheid of homogeniteit in een deelruimte betekent. Deze begrippen worden in de volgende secties in meer detail besproken. Een recursief algoritme geeft aanleiding tot een hiërarchische opbouw van de classificatieregel die kan gevisualiseerd worden in een zogenaamde classificatieboom. Voor het voorbeeld uit Figuur 6.3 is dit weergegeven in Figuur 6.4. Multivariate Dataverwerking Hoofdstuk 6 p. 36

127 De terminologie die in CART gebruikt wordt, is gedeeltelijk ontleent aan de boom: root of wortel: dit is de startsituatie, i.e. de p-dimensionale ruimte is nog niet gepartitioneerd node: een deelruimte leaf of blad: dit is een terminale node, i.e. een deelruimte die niet verder gepartitioneerd of gesplitst wordt een boom groeit: het groeiproces komt overeen met de stappen in het recursief algoritme Deviance Bij het splitsen van deelruimten hebben we behoefte aan een maat voor de zuiverheid of homogeniteit van de observaties in de deelruimten. De maximale zuiverheid bekomen we als alle observaties in een deelruimte tot dezelfde groep behoren. De maat die hiervoor in CART gebruikt wordt is de deviance, die gerelateerd is tot de likelihood. Stel een boom T met l bladeren en met n i observaties in blad i (een blad komt overeen met een deelruimte) (i = 1,..., l). In de dataset observeren we voor blad i: n i1 observaties in groep 1, n i2 observaties in groep 2,..., n ik observaties in groep k. We kunnen deze aantallen ook als toevallige variabelen beschouwen; dan worden ze volgens conventie voorgesteld door hoofdletters: (N i1, N i2,..., N ik ) met k j=1 N ij = n i (i.e. n i wordt als constant beschouwd). In deze context is (N i1, N i2,..., N ik ) Multinomiaal(π i1, π i2,..., π ik ), i.e. de aantallen zijn multinomiaal verdeeld met parameters π ij (j = 1,..., k) zodanig dat k j=1 π ij = 1. We stellen π i = (π i1,..., π ik ) t. Aangezien de data (N ij ) discreet zijn, is de likelihood exact gelijk aan de kans L i (π i ) = P {N i1 = n i1, N i2 = n i2,..., N ik = n ik } = π n i1 i1 πn i2 i2... πn ik ik. Multivariate Dataverwerking Hoofdstuk 6 p. 37

128 Zoals in de klassieke likelihood theorie is de likelihood een functie van de ongekende parameters. De maximum likelihood (ML) schatters van π i worden gegeven door ˆπ ij = p ij = n ij n i. De maximale likelihood waarde bekomen we door π i te substitueren door ˆπ i in L(π i ), wat we voorstellen als L i = L(ˆπ i ) = p n i1 i1 pn i2 i2... pn ik ik. L i is hier dus eigenlijk de schatting van de kans om van de n i observaties in de deelruimte i exact n i1 observaties in groep 1 te hebben, n i2 in groep 2, enz., tot n ik in groep k, i.e. het is de schatting van de kans op het observeren van de groepsconfiguratie in de deelruimte i van de trainingsdata. De likelihood van de totale classificatieboom bekomen we door de individuele likelihoods te vermenigvuldigen (immers, wegens de onafhankelijkheid van de observaties, mogen de kansen vermenigvuldigd worden), l L = L 1 L 2... L l = L i. i=1 In deze benaderingswijze beschouwen we een classificatieboom als een statistisch model dat geparameteriseerd is door l parametervectoren π i. Hoe groter L hoe beter het model aansluit (fit) bij de trainingsdata. Binnen een blad, is het model eigenlijk niet-parametrisch omdat het multinomiale model perfect fit (er is geen enkele restrictie opgelegd); de restrictie zit in de structuur van de volledige boom: hoe worden de noden en de bladeren gedefinieerd (i.e. hoe worden de deelruimten recursief bepaald). De likelihood L kan dus gebruikt worden om bomen met elkaar te vergelijken, bv. twee geneste bomen tijdens het groeiproces. Dus L kan gebruikt worden om tijdens het groeiproces te besluiten om aldanniet een node verder op te splitsen. Het zal verder blijken dat we beter met de deviance werken. De deviance in het i-de blad is gedefinieerd als D i = 2 ln L i = 2 k n ij ln p ij, j=1 i.e. de deviance is twee maal de negatieve log-likelihood. Analoog wordt de deviance voor de volledige boom bepaald als l D = 2 ln L = D i. i=1 Multivariate Dataverwerking Hoofdstuk 6 p. 38

129 Dus de deviance is een additieve maat (de likelihood is een multiplicatieve maat). Om meer inzicht in de deviance te krijgen, bespreken we het extreme voorbeeld van een maximale boom. Dit is een boom waar voor ieder blad i geldt dat er slechts één j is waarvoor n ij 0, i.e. in ieder blad zitten enkel observaties van juist één groep. De maximale boom is dus de meest zuivere boom; een verdere partitionering is volkomen zinloos. Stel j waarvoor n ij 0. Dus n ij = n i. We vinden dan p ij = n ij n i = 1 en voor j j p ij = n ij n i = 0 n i = 0. De likelihood voor blad i wordt dan L i = p n ij ij = 1 en de overeenkomstige deviance D i = 2 ln L i = 0. Dit geldt voor ieder blad i in de maximale boom. De totale deviance is bijgevolg D = l D i = 0. i=1 We concluderen dus dat in de meest zuivere boom de totale deviance gelijk is aan nul. De deviance kan trouwens nooit kleiner zijn dan nul. Hoe meer onzuivere bladeren een boom heeft, hoe groter de deviance zal zijn. De deviance kan dus ook geïnterpreteerd worden als een maat voor de afwijking van de maximale boom. Om deze reden wordr de deviance ook wel de residuele deviance genoemd. Het nadeel van de deviance is echter dat in het algemeen D toeneemt met het aantal observaties. Om deze reden wordt ook gewerkt met de gemiddelde deviance, welke gedefinieerd is als D n l. Merk op dat gedeeld wordt door n l i.p.v. door n. We gaan hier niet dieper in op de details, maar de reden heeft te maken met vrijheidsgraden. Multivariate Dataverwerking Hoofdstuk 6 p. 39

130 6.6.3 Groeien van een Boom In de inleiding tot CART hebben we reeds aangehaald dat bij het groeien van een boom een node verder gesplitst wordt zodanig dat er een maximale toename in homogeniteit bereikt wordt. Dit wordt hier in meer detail besproken. In de s-de stap van het recursieve algoritme wordt een node verder opgesplitst zodanig dat de homogeniteit maximaal toeneemt. Een split van een deelruimte kan enkel gebeuren op basis van één univariate component van de p-variate variabele, i.e. de split wordt gegeven door in boom T s, die bepaald is door de partitie (R s1,..., R sls ), een deelruimte R sj verder op te splitsen (volgens bv. x k ) in {x R sj : x k c} en {x R sj : x k > c}, welke dan de twee deelruimten zullen zijn die R sj vervangen in boom T s+1. Het bepalen van de split komt er dus op neer om de component k uit te kiezen de cut-off waarde c te vinden Voor iedere mogelijke combinatie van k en c wordt het effect van de split op de reductie in deviance berekend. Stel T s+1 een boom bekomen door een dergelijke split. Stel D(T s ) de totale deviance van boom T s, dan kan voor iedere mogelijke split de reductie in deviance, R s = D(T s ) D(T s+1) berekend worden. De split die R s maximaliseert, wordt weerhouden om de boom T s+1 te bekomen. Aangezien de deviance een additieve maat is en een split enkel een wijziging in één node veroorzaakt, volstaat het eigenlijk om de deviance-reductie te berekenen in de node die gesplitst wordt. Figuur 6.5 toont de blur-plots van de root-split. Er is een blur-plot voor iedere univariate component (hier: x 1 en x 2 ); op de horizontale as staat de waarde van de component en op de vertikale as staat de deviance-reductie. Multivariate Dataverwerking Hoofdstuk 6 p. 40

131 X1<3.85 A X1<6.95 X2<3 A B X1 X2<1.55 B A X2 Figuur 6.5: Illustratie van blur-plots Stopcriteria Het is evident dat volgens het algoritme voor het groeien van de boom er pas gestopt wordt wanneer iedere node volkomen homogeen is (i.e. alle D i = 0). We zullen echter dikwijls vroeger wensen te stoppen. De stopcriteria zijn (i.e. er wordt gestopt zodra er aan minstens één van de criteria voldaan is): de deviance-reductie kleiner is dan een grenswaarde (in S-Plus is de default waarde gelijk aan 0.01); deze grenswaarde drukt uit dat er nog maar weinig verbetering in zuiverheid mogelijk is n i (aantal observaties in een node) kleiner is dan een grenswaarde (default waarde in S-plus is 10); een te kleine waarde van n i leidt tot erg onnauwkeurige schatters p ij van π ij Voorbeeld We passen CART toe op de possum data. > possum.tree <- tree(site ~ hdlngth + skullw + totlngth + taill + pes + earconch + eye + chest, data = possum) > possum.tree node), split, n, deviance, yval, (yprob) Multivariate Dataverwerking Hoofdstuk 6 p. 41

132 * denotes terminal node 1) root ( ) 2) earconch< ( ) 4) skullw< ( ) 8) pes< ( ) * 9) pes> ( ) 18) eye< ( ) 36) earconch< ( ) * 37) earconch> ( ) 74) pes< ( ) * 75) pes> ( ) * 19) eye> ( ) 38) eye< ( ) 76) earconch< ( ) * 77) earconch> ( ) * 39) eye> ( ) * 5) skullw> ( ) 10) chest< ( ) * 11) chest> ( ) * 3) earconch> ( ) 6) totlngth< ( ) 12) totlngth< ( ) * 13) totlngth> ( ) 26) taill< ( ) * 27) taill> ( ) * 7) totlngth> ( ) * De grafische voorstelling van de boom bekomen we als volgt (zie Figuur 6.6). > plot(possum.tree) > text(possum.tree) Multivariate Dataverwerking Hoofdstuk 6 p. 42

133 earconch<48.7 skullw<59.1 totlngth< pes<62.85 earconch<44.55 pes< eye<14.85 eye<16.7 earconch< chest< totlngth<83.25 taill< Figuur 6.6: De classificatieboom van de possum data Evaluatie van Bomen Eens een classificatieboom gegroeid is (gefit), moet de kwaliteit ervan geëvalueerd worden. De kans op misclassificaties kan uiteraard berekend worden. Aangezien we de deviance gebruikt hebben om de boom te laten groeien, is dit uiteraard ook een goede samenvattende grootheid voor de kwaliteit van de fit. Naar analogie met de residuelen in een regressie-analyse, kunnen ook hier residuelen bepaald worden. De deviance residual voor de observatie i, die volgens de boom zich bevindt in blad r en in groep s wordt gedefinieerd als d i = 2 ln p rs. Merk op dat op deze wijze de totale (residuele) deviance samengesteld kan worden als D = n d i. i=1 Een observatie met een grote deviance residual is een observatie die door het model slecht voorspeld wordt. Multivariate Dataverwerking Hoofdstuk 6 p. 43

134 6.6.7 Voorbeeld (vervolg) De (plug-in) schatter van de kans op misclassificatiefouten en de residuele deviance worden via de summary functie bekomen. > summary(possum.tree) Classification tree: tree(formula = site ~ hdlngth + skullw + totlngth + taill + pes + earconch + eye + chest, data = possum) Variables actually used in tree construction: [1] "earconch" "skullw" "pes" "eye" "chest" [6] "totlngth" "taill" Number of terminal nodes: 13 Residual mean deviance: = / 90 Misclassification error rate: = 20 / Snoeien of Pruning Vertrekkende van een volgroeide boom, T 0, is het mogelijk om volledige takken weg te snoeien om tot een eenvoudigere boom te komen. Dit proces noemen we snoeien of pruning. Er kan gesnoeid worden aan iedere node, i.e. op iedere plaats in de boom waar een split optreedt. De vraag is: waar snoeien? Maar laat ons eerst bedenken waarom we zouden snoeien? Een volgroeide boom is gestopt met groeien op basis van heel eenvoudige stopcriterium: stagnatie van reductie in deviance of een te klein aantal observaties in de nodes. Beide criteria zijn arbitrair en het eerste criterium heeft enkel te maken met de kwaliteit van de fit (homogeniteit). Net als bij bv. een regressie-analyse zal de kwaliteit van de fit er altijd op vooruitgaan als er meer termen in het model opgenomen worden (hier: deviance wordt kleiner naarmate er meer splits zijn), maar uiteindelijk wensen we een zogenaamd parsimoneous model, i.e. een goed compromis tussen de kwaliteit van de fit en de complexiteit van het model (een te complex model impliceert veelal dat het niet goed zal fitten aan onafhankelijke data (hier: evaluatiedata). Om dit compromis te kwantificeren, wordt er Multivariate Dataverwerking Hoofdstuk 6 p. 44

135 hier een cost-complexity criterium gebruikt: D k (T ) = D(T ) + T, waar k de cost-complexity parameter is (deze moet door de gebruiker gespecificeerd worden) en T is het aantal terminale nodes (bladeren) van boom T. Dus D k (T ) is eigenlijk de deviance D(T ) met daarbij opgeteld een strafmaat (penalty) voor de complexiteit van de boom, gedefinieerd als het aantal terminale nodes. Voor een gegeven k, kunnen alle mogelijke takken van de initiële boom T 0 afzonderlijk gesnoeid worden en voor iedere mogelijke resulterende boom T, kan D k (T ) berekend worden. De gesnoeide boom die D k (T ) minimaliseert is de optimale gesnoeide boom (optimaal in termen van compromis tussen fit en complexiteit), i.e. T opt,k = ArgMin T D k (T ). Twee bijzondere gevallen: k = 0: T opt,0 = T 0 k = + : T opt, is de root (geen spits) Het is echter voor een gebruiker dikwijls niet gemakkelijk om een gepaste waarde voor k voorop te stellen. Om dit probleem te omzeilen, kan een sequentie van geneste gesnoeide bomen berekend worden door k continu te laten toenemen tussen 0 en. We noemen dit recursief snoeien. De techniek gaat als volgt (stap s in het recursieve algoritme) (er wordt gestart met s = 0 en k 0 = 0): beschouw alle mogelijke gesnoeide bomen startende van T s. Stel dat er q dergelijke bomen zijn: T s (i), i = 1,..., q. Dan is ) k s+1 = ArgMin k (min D k (T s (i) ). i Dit betekent dat voor alle k s k < k s+1 de boom T s nog steeds de optimale is volgens het cost-complexity criterium, maar vanaf k = k s+1 wordt het de boom T s+1 = T j waarvoor j = ArgMin i D k1 (T (i) s ). Multivariate Dataverwerking Hoofdstuk 6 p. 45

136 Inf deviance size Figuur 6.7: Het resultaat van het recursief snoeiten van de volgroeide classificatieboom van de possum data Het algoritme eindigt met k = + waarvoor uiteraard de root de optimale boom is. Merk op dat er een geneste hiërarchische sequentie van bomen als resultaat uitkomt. Voor een gegeven k uit deze sequentie, is de optimale boom conditioneel op de optimale bomen bepaald voor de kleinere k-waarden. Bijgevolg kan het zijn dat voor deze ene k- waarde er een andere optimale (echt optimaal deze keer) boom zou bekomen zijn indien met deze ene k-waarde het D k -criterium rechtstreeks gebruikt zou zijn (niet-recursief) Voorbeeld (vervolg) Vertrekkende van de volgroeide boom voor de possum data, snoeien we de boom recursief. > possum.prune<-prune.tree(possum.tree) > plot(possum.prune) Het resultaat is weergegeven in Figuur 6.7. Multivariate Dataverwerking Hoofdstuk 6 p. 46

137 Hoofdstuk 7 Log-Lineaire Modellen 7.1 Inleiding In dit hoofdstuk bespreken we een techniek die het mogelijk maakt om de afhankelijkheidsstructuur in multivariate discrete data te onderzoeken. De univariate componenten zijn dus discrete variabelen. In het bijzonder beschouwen we nominale variabelen, i.e. variabelen die een slechts eindig aantal waarden kunnen aannemen en waarvan de waarden geen numerieke interpretatie hebben. De waarden dienen enkel om naar een categorie of een klasse te verwijzen. Enkele voorbeelden: kleur, geslacht,... Doorheen dit hoofstuk zullen we met één voorbeeld werken: de vlieg dataset. In het Instituut voor Tropische Geneeskunde te Antwerpen wordt de overdracht van een ziekteverwekker Triposoma door de Glossina vlieg bestudeerd. Van deze vliegen zijn er twee soorten: G. gambiensis en G. tachinoides. Bij proeven op geschoren en besmette ratten worden 4 kleine bakjes gemonteerd, aan iedere zijkant 2. In ieder bakje zitten vliegjes van dezelfde soort en sexe. Er zijn dus 4 mogelijke combinaties. Na enkele uren worden de bakjes verwijderd en wordt er geteld hoeveel vliegjes zich gevoed hebben met het bloed van de rat. Samengevat beschouwen we de volgende variabelen in het experiment: het geslacht (SEX) van het vliegje: mannelijk (1), vrouwelijk (2) de voedingstoestand van het vliegje met het bloed van de rat (VT): gegeten (1), niet-gegeten (2). 1

138 de species (SPEC) van de Glossina vlieg: gambiensis (1), tachinoides (2) Bij dit voorbeeld gaat het over de volgende vraagstelling: is er bij deze Glossina vlieg een verband tussen de species en het geslacht op het al dan niet nemen van een bloedmaaltijd van het besmette bloed van de rat. Het aantal vliegjes dat bij het begin van het experiment in de bakjes gestoken wordt, wordt bepaald door het aantal poppen die op die dag in het laboratorium uitgekomen zijn. Merk op dat volgens deze proefopzet de voedingstoestand van de vliegjes eigenlijk een respons-variabele is. Aangezien er hiervoor slechts twee klassen zijn, is het mogelijk deze respons-variabele te modelleren in functie van de andere twee variabelen (verklarende variabelen) met behulp van logistieke regressie. Er kan aangetoond worden dat dit model equivalent is met de log-lineaire modellen die we hier bespreken. De data zijn weergegeven in Tabel 7.1 en 7.2. Tabel 7.1: Kruistabel met aantallen van geslacht en voedingstoestand voor Glossina tachinoides niet-gegeten gegeten totaal mannelijk vrouwelijk totaal Tabel 7.2: Kruistabel met aantallen van geslacht en voedingstoestand voor Glossina gambiensis niet-gegeten gegeten totaal mannelijk vrouwelijk totaal Het betreft dus een p = 3 variate dataset, waarvan iedere univariate component slechts 2 waarden kan aannemen. Dit is het eenvoudigste geval; de methoden die we verder bespreken zijn meer algemeen geldig. Multivariate Dataverwerking Hoofdstuk 7 p. 2

139 7.2 Datamatrix, Kruistabel en Distributies Datamatrix In het inleidend voorbeeld werd de data voorgesteld in de vorm van kruistabellen, wat een heel natuurlijke voorstellingswijze is, maar welke niet overeenkomt met de datastructuur die we in de vorige hoofdstukken gehanteerd hebben. Daar beschikten we steeds over een n p matrix. Eigenlijk is dat hier ook nog steeds zo: met iedere observatie (vlieg) komt een lijn in de datamatrix overeen. Stel X t = (X 1, X 2,..., X p ) de p-variate discrete variabele met X i een univariate discrete variabele die waarden aanneemt uit de verzameling {1, 2,..., q i }. Het is dan duidelijk hoe de n p datamatrix tot stand komt Discrete Distributies Een kruistabel is echter een veel natuurlijkere representatie van de data. Er is immers een direct verband tussen de tabel en de distributie van de variabelen X i (i = 1,..., p). We starten de discussie in het univariate geval (cfr. cursus Waarschijnlijkheidsrekenen). Stel X een univariate discrete variabele die I verschillende waarden in {1,..., I} kan aannemen. Stel dat we beschikken over n observaties op de variabele X: X 1,..., X n. Stel dan N i gelijk aan het aantal observaties voorvoor X = i (i = 1,..., I). Uiteraard geldt dat I N i = n. i=1 De overgang van X 1,..., X n naar N t = (N 1,..., N I ) wijzigt niets aan de data. In de cursus Waarschijnlijkheidsrekenen werd gezien dat N een multinomiale random variabele is. We noteren N t = (N 1,..., N I ) M(n, π 1,..., π I ) met n, π 1,..., π I de parameters van de multinomiale distributie. De parameters hebben een hele eenvoudige interpretatie: n is zoals voorheen het totaal aantal observaties (N N I = n) en π i = P {X = i} Multivariate Dataverwerking Hoofdstuk 7 p. 3

140 (i = 1,..., I) met π π I = 1. Door deze laatste restrictie zijn er dus eigenlijk maar I 1 onafhankelijke π-parameters. Eenvoudig probabiliteitsrekenen leert ons verder dat probabiliteiten van de vorm P {N i = n i } en P {N 1 = n 1,..., N I = n i } uitgedrukt kunnen worden met behulp van de parameters van de multinomiale distributie. Ook de verwachtingswaarden van N i worden eenvoudig bekomen: E {N i } = nπ i. We noteren m i = E {N i }. De observaties n 1,..., n I kunnen voorgesteld worden in een ééndimensionale tabel. De uitbreiding naar een algemene p-variate datastructuur is simpel. Om de notatie overzichtelijk te houden, beperken we ons hier tot p = 3, maar de uitbreiding is evident. Stel X t = (X 1, X 2, X 3 ) een multivariate discrete variabele met X 1, X 2, X 3 univariate componenten die waarden kunnen aannemen in respectievelijk {1,..., I}, {1,..., J} en {1,..., K}. Stel dat we beschikken over n observaties op de variabele X: X 1,..., X n. We definiëren dan N ijk als het aantal observaties waarvoor X 1 = i, X 2 = j en X 3 = k. De aantallen N ijk (i = 1,..., I; j = 1,..., J; k = 1,..., K) vormen een 3-dimensionale tabel. Uiteraard moeten de univariate componenten nog steeds univariaat multinomiaal verdeeld zijn. Met de net ingevoerde notatie noteren we het aantal observaties waarvoor X 1 = i als N i.. = J K N ijk. j=1 k=1 Analoog definiëren we N.j. en N..k. Dus, (N 1..,... N I.. is univariaat multinomiaal verdeeld. Voor de π-parameters van deze distributie gebruiken we nu een analoge notatie: π 1..,..., π I... De multivariate discrete distributie van X t probabiliteiten = (X 1, X 2, X 3 ) is volledig bepaald door de π ijk = P {X 1 = i, X 2 = j, X 3 = k} (i = 1,..., I; j = 1,..., j; k = 1,..., K) met de restrictie I i=1 J j=1 K k=1 π ijk = 1. Er zijn dus slechts IJK 1 onafhankelijke π-parameters. Het is evident dat m ijk = E {N ijk } = nπ ijk. De gelijkenis met de eigenschappen van een univariate multinomiale distributie is opmerkelijk. En inderdaad, de multivariate distributie kan volledig beschreven worden aan de Multivariate Dataverwerking Hoofdstuk 7 p. 4

141 hand van de univariate multinomiale distributie: construeer een nieuwe variabele U die waarden kan aannemen in {1,..., IJK}, dan kunnen we iedere combinatie van X 1, X 2 en X 3 overeenkomen met juist één klasse van U laten overeenkomen. U volgt dus een univariate multinomiale distributie met IJK 1 onafhankelijke π-parameters π ijk. Op het eerste zicht leert dit ons echter niets over de afhankelijkheidsstructuur van X. We zullen verder zien dat door een goede herparameterisatie van de π-parameters en loglineaire modellen dit wel mogelijk wordt Marginale en Conditionele Distributies De distributie van X t = (X 1, X 2, X 3 ) bepaald door de probabiliteiten π ijk is de gezamenlijke multivariate distributie van X (Engels: joint distribution). We hebben ook al de distributies van de univariate componenten gezien; deze noemen we de marginale univariate distributies. We bekomen de univariate data door de aantallen N ijk te sommeren over de indices van de overige variabelen. We noemen (N 1..,..., N I... ) de marginale tabel van X 1. Ook de π-parameters kunnen eenvoudig uit de π ijk bepaald worden: π i.. = P {X 1 = i} = J K P {X 1 = i, X 2 = j, X 3 = k} j=1 k=1 J = j=1 k=1 K π ijk. Tevens kunnen bivariate marginale variabelen bekomen worden: bv. voor X 1 en X 2 berekenen we de aantallen N ijk te sommeren over de index k, i.e. het is de distributie van N ij. = K k=1 N ijk (i = 1,..., I; j = 1,..., J). De tabel (N 11.,..., N IJ. ) noemen we de marginale tabel van X 1 en X 2. De π-parameters van de bivariate marginale distributie van N ij. zijn π ij. = K π ijk. k=1 In het vlieg-voorbeeld is bv. de marginale kruistabel van VT en SEX weergegeven in Tabel 7.3. Multivariate Dataverwerking Hoofdstuk 7 p. 5

142 Tabel 7.3: marginale kruistabel van VT en SEX niet-gegeten gegeten totaal mannelijk vrouwelijk totaal Een conditionele distributie van één of meerdere componenten van X, gegeven de overige componenten van X wordt bekomen door die overige componenten te fixeren op de daarvoor opgegeven waarden. Bijvoorbeeld, de conditionele distributie van X 1 en X 2, gegeven X 3 = k wordt volledig bepaald door de π-parameters π ij k = P {X 1 = i, X 2 = j X 3 = k } = P {X 1 = i, X 2 = j, X 3 = k } P {X 3 = k } = π ijk. π..k De overeenkomstige data is de subset van alle N ijk met k = k, i.e. N ijk (i = 1,..., I; j = 1,..., J). Dit wordt de conditionele tabel genoemd. Dus in het vlieg-voorbeeld bevatten de Tabellen 7.1 en 7.2 de data van de conditionele distributies van VT en SEX, gegeven SPEC= tachinoides en gambiensis, respectievelijk. 7.3 Schatten van de Parameters De π-parameters laten zich heel eenvoudig schatten: P ijk = ˆπ ijk = N ijk n. Dit zijn onvertekende schatters, immers E {P ijk } = E {N ijk} n = nπ ijk n = π ijk. Doordat de marginale tabellen bekomen worden door te sommeren in de volledige tabel N ijk en de π-parameters van de overeenkomstige distributies eveneens bekomen worden Multivariate Dataverwerking Hoofdstuk 7 p. 6

143 door deze sommaties in de π ijk -tabel, gelden dezelfde eigenschappen voor de schatters van de π-parameters van de marginale distributies. Hetzelfde geldt eveneens voor de schatters van de π-parameters van de conditionele distributies. 7.4 S-Plus > vlieg SPEC SEX VT COUNT > crosstabs(count ~ SEX + VT + SPEC, data = vlieg) Call: crosstabs(count ~ SEX + VT + SPEC, data = vlieg) 250 cases in table N N/RowTotal N/ColTotal N/Total SPEC=1 SEX VT 1 2 RowTotl Multivariate Dataverwerking Hoofdstuk 7 p. 7

144 ColTotl SPEC=2 SEX VT 1 2 RowTotl ColTotl Test for independence of all factors Chi^2 = d.f.= 4 (p=0) Yates correction not used > crosstabs(count ~ SEX + VT, data = vlieg) Call: crosstabs(count ~ SEX + VT, data = vlieg) Multivariate Dataverwerking Hoofdstuk 7 p. 8

145 250 cases in table N N/RowTotal N/ColTotal N/Total SEX VT 1 2 RowTotl ColTotl Test for independence of all factors Chi^2 = d.f.= 1 (p= ) Yates correction not used > crosstabs(count ~ SEX + VT, data = vlieg, subset = (SPEC == 1)) Call: crosstabs(count ~ SEX + VT, data = vlieg, subset = (SPEC == 1)) 118 cases in table N N/RowTotal N/ColTotal Multivariate Dataverwerking Hoofdstuk 7 p. 9

146 N/Total SEX VT 1 2 RowTotl ColTotl Test for independence of all factors Chi^2 = d.f.= 1 (p= ) Yates correction not used > crosstabs(count ~ SEX + VT, data = vlieg, subset = (SPEC == 2)) Call: crosstabs(count ~ SEX + VT, data = vlieg, subset = (SPEC == 2)) 132 cases in table N N/RowTotal N/ColTotal N/Total SEX VT 1 2 RowTotl Multivariate Dataverwerking Hoofdstuk 7 p. 10

147 ColTotl Test for independence of all factors Chi^2 = d.f.= 1 (p= ) Yates correction not used 7.5 Odds Ratio In Sectie 7.2 hebben we gezien hoe de multivariate discrete distributie bepaald is en hoe deze eigenlijk ook geformuleerd kan worden als een univariate multinomiale distributie. In deze sectie bespreken we een grootheid die als een maat voor afhankelijkheid in een bivariate multinomiale distributie. We starten de discussie met het eenvoudigste geval: I = 2, J = 2 (p = 2) Odds Ratio tussen twee Binaire Variabelen Voor een (univariate) binaire variabele wordt de odds gedefinieerd als de verhouding van de probabiliteiten. Stel X een binaire variabele en N 1 en N 2 de overkomstige aantallen, dan N t = (N 1, N 2 ) M(n, π 1, π 2 ). De odds van X = 2 t.o.v. X = 1 is dan π 2 π 1. Multivariate Dataverwerking Hoofdstuk 7 p. 11

148 De interpretatie van de odds is evident. Indien er twee binaire variabelen zijn, X 1 en X 2, dan noteren we de aantallen als N ij en de probabiliteiten als π ij (i = 1, 2; j = 1, 2). Voor zowel X 1 als X 2 kan de odds berekend worden, maar dan binnen een gespecificeerde klasse van de andere variabele. Bijvoorbeeld π 22 π 21 is de odds van X 2 = 2 t.o.v. X 2 = 1 voor X 1 = 2. De odds ratio (OR) is de verhouding van twee oddsen. Meer bepaald is het de verhouding van de odds van X 2 = 2 t.o.v. X 2 = 1 voor X 1 = 2 tegenover de odds van X 2 = 2 t.o.v. X 2 = 1 voor X 1 = 1, i.e. OR = = = P{X 2 =2 X 1 =2} P{X 2 =1 X 1 =2} P{X 2 =2 X 1 =1} P{X 2 =1 X 1 =1} P{X 2 =2 X 1 =2}P{X 1 =2} P{X 2 =1 X 1 =2}P{X 1 =2} P{X 2 =2 X 1 =1}P{X 1 =1} P{X 2 =1 X 1 =1}P{X 1 =1} π 22 π 21 π 12. π 11 De interpretatie is als volgt: OR<1: dan is P{X 2=2 X 1 =2} P{X 2 =1 X 1 =2} < P{X 2=2 X 1 =1} P{X 2 =1 X 1 =1}, i.e. de kans dat X 2 = 2 is kleiner voor X 1 = 2 dan voor X 1 = 1 OR>1: dan is P{X 2=2 X 1 =2} P{X 2 =1 X 1 =2} > P{X 2=2 X 1 =1} P{X 2 =1 X 1 =1}, i.e. de kans dat X 2 = 2 is groter voor X 1 = 2 dan voor X 1 = 1 OR=1: dan is P{X 2=2 X 1 =2} P{X 2 =1 X 1 =2} = P{X 2=2 X 1 =1} P{X 2 =1 X 1 =1}, i.e. de kans dat X 2 = 2 is gelijk voor X 1 = 2 als voor X 1 = 1 We schrijven de OR meestal als OR = π 11π 22 π 12 π 21. Multivariate Dataverwerking Hoofdstuk 7 p. 12

149 Anderzijds bekomen we eveneens OR = π 11 π 21 π 12, π 22 wat we zouden benoemen als de odds van X 1 = 1 t.o.v. X 1 = 2 voor X 2 = 1 tegenover de odds van X 1 = 1 t.o.v. X 1 = 2 voor X 2 = 2. Maar ook OR = π 11 π12 π 21 π22 = π 22 π12 π 21 π11. Door de uitgesproken vorm van symmetrie levert dit 4 mogelijke equivalente interpretaties. Een belangrijk bijzonder geval treedt op wanneer X 1 en X 2 onafhankelijk zijn (we noteren X 1 X 2 ). Dan geldt π ij = π i. π.j voor alle i, j = 1, 2. In dit geval wordt de OR OR = π 11π 22 π 12 π 21 = π 1.π.1 π 2. π.2 π 1. π.2 π 2. π.1 = 1. (Merk op dat de interpretatie die we voorheen aan OR=1 gegeven hebben, inderdaad deze van onafhankelijkheid is.) Opmerking: We hebben hier gebruik gemaakt dan de definitie van onafhankelijkheid van twee discrete variabelen: X 1 X 2 π ij = π i. π.j voor alle i, j. Maar omgekeerd geldt een sterkere eigenschap: stel γ i (i = 1,..., I) en δ j (j = 1,..., J) twee reeksen van getallen waarvoor geldt π ij = γ i δ j voor alle i, j, dan is X 1 X 2. Deze eigenschap is eenvoudig uitbreidbaar naar p > 2. Multivariate Dataverwerking Hoofdstuk 7 p. 13

150 7.5.2 Odd Ratio tussen twee Multinomiale Variabelen Indien I > 2 en/of J > 2 dan kan aangetoond worden dat de volledige afhankelijkheidsstructuur steeds aan de hand van (I 1)(J 1) odds ratio s gekwantificeerd kan worden. Alvorens verder te gaan moeten we voor beide variabelen X 1 en X 2 een zogenaamde referentiecategorie of referentieklasse bepalen. Volgens de conventie die we hier hanteren, is de eerste klasse steeds de referentieklasse. De odds ratio tussen klasse i van X 1 en klasse j van X 2 wordt dan gegeven door OR ij = = = P{X 2 =j X 1 =i} P{X 2 =1 X 1 =i} P{X 2 =j X 1 =1} P{X 2 =1 X 1 =1} P{X 2 =j X 1 =i}p{x 1 =i} P{X 2 =1 X 1 =i}p{x 1 =i} P{X 2 =j X 1 =1}P{X 1 =1} P{X 2 =1 X 1 =1}P{X 1 =1} π ij πi1 π 1j π11 = π ijπ 11 π 1j π i1. Indien X 1 X 2 dan geldt π ij = π i. π.j voor alle i = 1,..., I; j = 1,..., J. Door deze restrictie te substitueren in de uitdrukking voor OR ij, bekomen we OR ij = 1 voor alle i = 1,..., I; j = 1,..., J. Indien p > 2, dan kan de OR bepaald worden in alle 2 dimensionale marginale en conditionele tabellen. 7.6 Log-Lineaire Modellen De doelstelling is probabiliteiten van de vorm π ijk zodanig te parameteriseren dat iedere parameter een interpretatie heeft m.b.t. de afhankelijkheidsstructuur. Multivariate Dataverwerking Hoofdstuk 7 p. 14

151 7.6.1 p = 2 In Sectie 7.5 hebben we gezien dat de volledige afhankelijkheidsstructuur tussen X 1 en X 2 beschreven wordt door de (I 1)(J 1) odds ratio s t.o.v. de referentieklasse. We stellen voor om π ij te schrijven als π ij = π 11 π i1 π 11 π 1j π 11 π ij π 11 π i1 π 1j. In deze uitdrukking is de laatste factor de odds ratio OR ij, de tweede factor is de odds van klasse i van X 1 in de referentieklasse van X 2, de derde factor is de odds van klasse j van X 2 in de referentieklasse van X 1 en de eerste factor is de probabiliteit in de referentieklasse van X 1 en X 2. We zouden dit als een multiplicatief model voor π ij kunnen beschouwen. Het is echter de conventie om modellen te specificeren voor de verwachtingswaarde van een toevallige variabele (hier N ij ). Door het linker- en rechterlid met n te vermenigvuldigen bekomen we m ij = E {N ij } = nπ ij = nπ 11 π i1 π 11 π 1j π 11 π ij π 11 π i1 π 1j. Omdat we liever werken met additieve modellen, transformeren we de volledige uitdrukking door het logaritme van linker- en rechterlid te nemen. log m ij = log(nπ 11 ) + (log π i1 log π 11 ) + (log π 1j log π 11 ) +(log π ij + log π 11 log π i1 log π 1j ) = µ + λ (1) i + λ (2) j + λ (1,2) ij. Indien alle λ (1,2) ij = 0 (i = 1,..., I; j = 1,..., J), dan zijn alle OR ij = 1 en is X 1 X 2. Merk op dat dit model voor analogie vertoond met een ANOVA model met 2 factoren; de interactie tussen de twee ANOVA factoren wordt hier vertaald naar de afhankelijkheid tussen de twee variabelen X 1 en X 2. Op het eerste zicht kan deze analogie vreemd ogen omdat ANOVA een typische univariate techniek is en we hier duidelijk in een multivariate situatie zitten. De verklaring is uiteraard dat we het multivariate discrete probleem hebben kunnen herformuleren als een univariate multinomiale distributie van de N ij. De structuur van haar π-parameters zijn vervolgens zodanig gereparameteriseerd dat er zinvolle interpretaties m.b.t. de afhankelijkheidsstructuur aan gegeven kunnen worden. We noemen log m ij = µ + λ (1) i + λ (2) j + λ (1,2) ij Multivariate Dataverwerking Hoofdstuk 7 p. 15

152 het log-lineaire model. De parameters van het model kunnen op verscheidene manieren geschat worden. De meest gebruikte methode is de maximum likelihood methode. De schatters die deze methode (1) (2) (1,2) oplevert, noteren we als ˆµ, ˆλ i, ˆλ j en ˆλ ij. Volgens de maximum likelihood theorie zijn de schatters consistent en asymptotisch normaal verdeeld. De varianties van de asymptotische normale distributies kunnen eveneens geschat worden aan de hand van de data. Het is deze techniek die in S-Plus geïmplementeerd is. Aan de hand van de distributies van de parameterschatters kunnen betrouwbaarheidsintervallen berekend worden en kunnen statistische testen voor bv. H 0 : λ (1,2) ij = 0 opgesteld worden. Indien we echter willen testen dat H 0 : λ (1,2) 11 =... = λ (1,2) IJ = 0, (dit is H 0 : X 1 X 2 ) dan is dit equivalent met het testen van de gelijkheid van de twee geneste modellen en log m ij = µ + λ (1) i + λ (2) j + λ (1,2) ij log m ij = µ + λ (1) i + λ (2) j, waarvoor likelihood ratio (LR) testen gebruikt kunnen worden. S-Plus: We fitten een 2-dimensionaal log-lineair model aan de marginale tabel SEX VT. > vlieg.loglin <- glm(count ~ SEX * VT, family = poisson, data = vlieg) > summary(vlieg.loglin) Call: glm(formula = COUNT ~ SEX * VT, family = poisson, data = vlieg) Deviance Residuals: Multivariate Dataverwerking Hoofdstuk 7 p. 16

153 Coefficients: Value Std. Error t value (Intercept) SEX VT SEX:VT (Dispersion Parameter for Poisson family taken to be 1 ) Null Deviance: on 7 degrees of freedom Residual Deviance: on 4 degrees of freedom Number of Fisher Scoring Iterations: 4 Correlation of Coefficients: (Intercept) SEX VT SEX VT SEX:VT Aangezien t = > 1.96, besluiten we op α = 0.05 dat er een significante afhankelijkheid is tussen het geslacht en de voedingstoestand van de vliegjes. De odds ratio wordt geschat als exp( ) = Aangezien de odds ratio gegeven wordt door π 22 π 11 π 12 π 21, Multivariate Dataverwerking Hoofdstuk 7 p. 17

154 bekomen we π 11 = π 21 π 12 π 22 P {eten man} P {niet-eten man} = P {eten vrouw} P {niet-eten vrouw}, i.e. de odds op eten/ niet-eten is bij mannelijke vliegen ongeveer 2 maal groter dan bij vrouwelijke vliegen. Het 95% betrouwbaarheidsinterval op de log-odds ratio wordt bekomen als [ , ] = [ , 1.252]. Het 95% betrouwbaarheidsinterval op de odds ratio is dan [exp( ), exp(1.252)] = [1.153, 3.498] p = 3 Net zoals in het p = 2 geval, gaan we π ijk op een gepaste wijze factoriseren zodat de resulterende factoren een zinvolle interpretatie hebben om inzicht in de afhankelijkheidsstructuur tussen X 1, X 2 en X 3 te krijgen. Zoals later duidelijk zal worden, zijn er vele mogelijke afhankelijkheidsstructuren indien p > 2, waardoor we behoefte hebben aan veel factoren in de factorisatie van π ijk. We gaan als volgt te werk. We starten van een gegeven factorisatie waarvoor we de loglineaire representatie beschouwen. Vervolgens bespreken we alle mogelijke zinvolle submodellen die elk een andere afhankelijkheidsstructuur representeren. Het Log-Lineaire Model Beschouw de volgende factorisatie: m ijk = nπ 111 π i11 π 111 π 1j1 π 111 π 11k π 111 π ij1 π 111 π 1j1 π i11 π i1k π 111 π 11k π i11 π 1jk π 111 π 1j1 π 11k π ijk π 11k π 1jk π i1k π ij1 π 111. π 1j1 π i11 We herkennen in deze factoren o.a. OR s tussen twee variabelen, conditioneel op een derde variabele, en in de laatste factor herkennen we de verhouding tussen twee OR s, meer Multivariate Dataverwerking Hoofdstuk 7 p. 18

155 bepaald is het de verhouding OR ij k OR ij 1, maar er zijn nog twee andere equivalente manieren om dit als een verhouding van twee OR s te schrijven. Door het log-transformeren van linker- en rechterlid van de factorisatie van m ijk bekomen we het verzadigde log-lineaire model log m ijk = µ + λ (1) i + λ (2) j + λ (3) k + λ (1,2) ij + λ (1,3) ik + λ (2,3) jk + λ (1,2,3) ijk. Bespreking van de Afhankelijkheidsstructuren We starten met het eenvoudigste model en voeren vervolgens stapsgewijs de hiërarchisch hogere orde termen in. Bij de interpretatie maken we steeds gebruik van het vlieg-voorbeeld met X 1 = SEX, X 2 = VT en X 3 = SPEC. (X 1, X 2, X 3 ): Mutuele onafhankelijkheid log m ijk = µ + λ (1) i + λ (2) j + λ (3) k Dit model impliceert voor alle i, j, k π ijk = π 111 π i11 π 111 π 1j1 π 111 π 11k π 111. In Sectie hebben we in een opmerking gezien dat de restrictie die in dit model uitgedrukt wordt, onmiddellijk impliceert dat X 1 X 2, X 1 X 3 en X 2 X 3. Voorbeeld: In het voorbeeld zou dit betekenen dat de voedingstoestand onafhankelijk is van de species en van het geslacht en dat er onafhankelijkheid is tussen de species en het geslacht. (X 1 X 2, X 3 ): Gezamenlijke onafhankelijkheid log m ijk = µ + λ (1) i + λ (2) j + λ (3) k + λ (1,2) ij Dit model impliceert voor alle i, j, k ( ) ( ) π i11 π 1j1 π ij1 π 111 π11k π ijk = π 111. π 111 π 111 π 1j1 π i11 π 111 Multivariate Dataverwerking Hoofdstuk 7 p. 19

156 Als we de indices (i, j) samennemen (i.e. als één samengestelde index beschouwen) en we passen de eigenschap uit de opmerking van Sectie toe, dan besluiten we dat de samengestelde (door kruising) multinomiale variabele X 1 X 2 onafhankelijk is van X 3. Maar het is duidelijk dat X 1 en X 2 afhankelijk zijn. Gezamenlijke onafhakelijkheid van (X 1, X 2 ) en X 3 impliceert verder dat X 1 X 3 en X 2 X 3. Voorbeeld: (SEX VT, SPEC) Dit betekent dat er een verband is tussen het geslacht en de voedingstoestand, maar dat zowel het geslacht als de voedingstoestand onafhankelijk zijn van de species. (X 1 X 3, X 2 X 3 ): Conditionele onafhankelijkheid log m ijk = µ + λ (1) i + λ (2) j + λ (3) k + λ (1,3) ik + λ (2,3) jk Dit model impliceert voor alle i, j, k ( π i11 π i1k π 111 π ijk = π 111 π 111 π 11k π i11 ) ( π1j1 π 111 π 11k π 111 π 1jk π 111 π 1j1 π 11k Voor iedere k is de probabiliteit dus gefactoriseerd in een factor in i en een factor in j. Bijgevolg zijn X 1 en X 2 binnen een gegeven klasse k van X 3 onafhankelijk: X 1 en ). X 2 zijn conditioneel onafhankelijk, gegeven X 3 : X 1 X 2 X 3. Voorbeeld: (SEX SPEC, VT SPEC) De voedingstoestand is onafhankelijk van het geslacht voor de Glossina tachinoides vlieg, en dezelfde onafhankelijkheid geldt voor de Glossina gambiensis vlieg. Het is belangrijk om in te zien dat dit NIET impliceert dat de voedingstoestand en het geslacht marginaal (i.e. voor beide vliegsoorten zonder onderscheid tussen de soort te maken) onafhankelijk zijn. Indien X 1 X 2 maar wel X 1 X 2 X 3, dan wordt dit fenomeen de paradox van Simpson genoemd. (X 1 X 2, X 1 X 3, X 2 X 3 ): geen drie-factor interactie log m ijk = µ + λ (1) i + λ (2) j + λ (3) k + λ (1,3) ik + λ (2,3) jk + λ (1,2) ij Dit model impliceert voor alle i, j, k π ijk = π 111 π i11 π 111 π 1j1 π 111 π 11k π 111 π ij1 π 111 π 1j1 π i11 π i1k π 111 π 11k π i11 π 1jk π 111 π 1j1 π 11k. Op deze factorisatie kan de factorisatie-eigenschap niet toegepast worden; we vinden geen enkele duidelijke onafhankelijkheid. Wat is dan het verschil met het verzadigde Multivariate Dataverwerking Hoofdstuk 7 p. 20

157 model? Aangezien λ (1,2,3) ijk = 0 weten we dat exp(λ (1,2,3) ijk ) = 1, i.e. 1 = OR ij k OR ij 1 = OR ik j OR ik 1 = OR jk i OR jk 1 voor alle i, j, k. Bijgevolg is de afhankelijkheid tussen X 1 en X 2 (wat gekwantificeerd is OR ij k ) gelijk binnen alle klassen k van X 3. En hetzelfde geldt voor de andere paarsgewijze conditionele afhankelijkheden. Er is dus paarsgewijze conditionele afhankelijkheid, maar binnen iedere klasse van de derde variabele blijft deze afhankelijkheid even groot. Voorbeeld: (SEX SPEC, VT SPEC, SEX VT) Alle variabelen zijn paarsgewijs afhankelijk van elkaar, maar de afhankelijkheidsstructuur tussen bv. geslacht en voedingstoestand is dezelfde voor beide species. (X 1 X 2 X 3 ): Verzadigd model log m ijk = µ + λ (1) i + λ (2) j + λ (3) k + λ (1,3) ik + λ (2,3) jk + λ (1,2) ij + λ (1,2,3) ijk Dit model impliceert geen enkele onafhankelijkheid. λ (1,2,3) ijk Aangezien daarenboven alle 0, is de afhankelijkheidsstructuur tussen bv. X 1 en X 2 verschillend binnen iedere klasse van X 3. S-Plus In de praktijk wordt een log-lineair model hiërarchisch opgebouwd: we beginnen met het meest complexe model (een verzadigd model dat alle types van afhankelijkheid toelaat). > vlieg.loglin <- glm(count ~ SEX * VT * SPEC, family = poisson, data = vlieg) > summary(vlieg.loglin) Call: glm(formula = COUNT ~ SEX * VT * SPEC, family = poisson, data = vlieg) Coefficients: Value Std. Error t value Multivariate Dataverwerking Hoofdstuk 7 p. 21

158 (Intercept) SEX VT SPEC SEX:VT SEX:SPEC VT:SPEC SEX:VT:SPEC (Dispersion Parameter for Poisson family taken to be 1 ) Null Deviance: on 7 degrees of freedom Residual Deviance: 0 on 0 degrees of freedom Number of Fisher Scoring Iterations: 1 In deze output kijken we enkel naar het resultaat van de hoogste-orde interactie (SEX:VT:SPEC). Daar t = < 1.96 besluiten we dat λ (SEX,VT,SPEC) 2,2,2 = 0 op het α = 0.05 significantieniveau. Om deze reden mogen we de term SEX:VT:SPEC uit het model elimineren en het geen drie-factor interactie model fitten. > vlieg.loglin <- glm(count ~ SEX + VT + SPEC + SEX:VT + SEX:SPEC + VT:SPEC, family = poisson, data = vlieg) > summary(vlieg.loglin) Call: glm(formula = COUNT ~ SEX + VT + SPEC + SEX:VT + SEX:SPEC + VT:SPEC, family = poisson, data = vlieg) Deviance Residuals: Coefficients: Multivariate Dataverwerking Hoofdstuk 7 p. 22

159 Value Std. Error t value (Intercept) SEX VT SPEC SEX:VT SEX:SPEC VT:SPEC (Dispersion Parameter for Poisson family taken to be 1 ) Null Deviance: on 7 degrees of freedom Residual Deviance: on 1 degrees of freedom Number of Fisher Scoring Iterations: 3 In dit model kijken we terug naar de hoogste orde interactietermen. Ditmaal zijn er drie interactietermen van gelijke orde: SEX:VT, SEX:SPEC en VT:SPEC. Op basis van de t- waarden besluiten we dat enkel λ (SEX:VT) 2,2 = 0 op het α = 0.05 significantieniveau. Na eliminatie vinden we het volgende. > vlieg.loglin <- glm(count ~ SEX + VT + SPEC + SEX:SPEC + VT:SPEC, family = poisson, data = vlieg) > summary(vlieg.loglin) Call: glm(formula = COUNT ~ SEX + VT + SPEC + SEX:SPEC + VT:SPEC, family = poisson, data = vlieg) Deviance Residuals: Coefficients: Multivariate Dataverwerking Hoofdstuk 7 p. 23

160 Value Std. Error t value (Intercept) SEX VT SPEC SEX:SPEC VT:SPEC (Dispersion Parameter for Poisson family taken to be 1 ) Null Deviance: on 7 degrees of freedom Residual Deviance: on 2 degrees of freedom Number of Fisher Scoring Iterations: 3 Uit dit model kunnen we niets meer verder elimineren. Het is dus het finale model. We besluiten aldus dat er een conditionele onafhankelijkheid is tussen geslacht en voedingstoestand, gegeven de species. Opmerking: In de theorie hebben we likelihood ratio testen aangehaald om geneste modellen met elkaar te vergelijken. In S-Plus kan dit bekomen worden door het verschil in Deviances (= tweemaal de negatieve maximum log-likelihood) en bijhorende vrijheidsgraden te gebruiken. Bijvoorbeeld, in de eerste stap van de modelbouw uit het vlieg voorbeeld. Voor het verzadigde model vonden we in de S-Plus output: Residual Deviance: 0 on 0 degrees of freedom. Voor het model met de drie-factor interactie geëlimineerd vonden we Residual Deviance: on 1 degrees of freedom. Het verschil in Deviance geeft de log-likelihood ratio statistiek: T = = met df = 1 0 = 1 vrijheidsgraden. interactie is, geldt asymptotisch Onder de nulhypothese dat er geen drie-factor T χ 2 df = χ 2 1. Multivariate Dataverwerking Hoofdstuk 7 p. 24

161 Aangezien T = < χ 2 1;0.05 = 3.84 besluiten we de nulhypothese te weerhouden op α = 0.05 significantieniveau. De nulhypothese is dat het meest eenvoudige model (zonder drie-factor interactie) correct is. Multivariate Dataverwerking Hoofdstuk 7 p. 25

162 Hoofdstuk 8 Correspondence Analysis 8.1 Inleiding Correspondence Analysis is een techniek die toelaat bivariate discrete data (2-dimensionale kruistabel) grafisch weer te geven. Het is een heel nuttige exploratieve tool om de afhankelijkheidsstructuur te onderzoeken. Stel een bivariate discrete dataset met n observaties. Stel dat de variabelen X 1 en X 2 respectievelijk r en c niveaus hebben, dan kan de 2-dimensionale kruistabel voorgesteld worden als de r c matrix N. De r c matrix P = 1 N bevat dan de overeenkomstige n schattingen van de probabiliteiten. De rijtotalen worden vervolgens berekend als r = P 1; dit zijn dan schattingen van de marginale probabiliteiten van X 1. Analoog zijn c = P t 1 de kolomtotalen, i.e. de schattingen van de marginale probabiliteiten van X 2. Stel verder D r = diag(r) en D c = diag(c). De schattingen van de conditionele probabiliteiten van X 1, gegeven X 2 = j (j = 1,..., c) worden gegeven in de j-de rij van C = Dc 1 P t. Analoog, de schattingen van de conditionele probabiliteiten van X 2, gegeven X 1 = i (i = 1,..., r) worden gegeven in de i-de rij van R = Dr 1 P. Stel r i en c j respectievelijk de i de rij van R en de j-de rij van C. r i en c j worden respectievelijk rijen kolomprofielen genoemd. 1

163 8.2 Pearson s χ 2 en Intertie De Pearson statistiek voor onafhankelijkheid in de r c kruistabel is X 2 = n r i=1 c j=1 (p ij r i c j ) 2 r i c j. Dit kunnen we anders schrijven, X 2 = n = n = n r i=1 r i=1 r i=1 r i r i c j=1 c j=1 ( pij r i c j ) c j ( r ij c j ) c j r i ( r i c) t Dc 1 ( r i c). Interpretatie van de laatste uitdrukking: ( r i c) t Dc 1 ( r i c) is de (gewogen) afstand tussen r i (conditionele distributie van X 2, gegeven X 1 = i) en c (marginale distributie van X 2 ). Het is een afstand in een c-dimensionale ruimte. De gewichten worden gegeven door de diagonaal elementen van Dc 1. Men zegt dat de afstanden gemeten worden in de metriek gegeven door Dc 1. Bemerk dat we verwachten dat alle r i = c (i = 1,..., r) indien X 1 X 2. Ieder van de r componenten in X 2 gaat vooraf door een factor r i. Deze gewichtsfactoren noemen we de massa s. Het kan geïnterpreteerd worden als het gewicht dat gegeven wordt aan ieder van de r klassen van de X 1 variabele. r i = c j=1 n ij n Het gewicht is gelijk aan de relatieve frequentie van observaties in de i de klasse van X 1. Hoe groter r i hoe meer informatie-inhoud er in deze klasse zit en hoe meer deze moet doorwegen in X 2. X2 n is dus een maat (gewogen som van afstanden) voor de afwijking van onafhankelijkheid. Of, anders en meer specifiek gesteld: het is een maat voor de afwijking van de situatie waarin alle conditionele distributies van X 2 gelijk zijn. Iedere component in de gewogen afstandsmaat correspondeert met een andere conditionering. We noemen In(R) = X2 n de intertie van de rijen Multivariate Dataverwerking Hoofdstuk 8 p. 2

164 Opmerking: de metriek waarin de interties gemeten worden, wordt gegeven door de matrix D 1 c met de gewichten en de matrix D r met de massa s. De discussie die we hier gegeven hebben, vertrok vanuit de Pearson statistiek wat een maat is voor de afwijking van onafhankelijkheid. Door deze anders te formuleren hebben we een equivalente uitdrukking bekomen die deze afwijking belicht vanuit de rijprofielen (conditionele distributies van X 2 ). Op een analoge wijze, kunnen we X 2 herformuleren tot een uitdrukking die gebaseerd is op afstanden tussen de kolomprofielen en r: X 2 = n c j=1 c j ( c j r) t Dr 1 ( c j r). De interpretatie is volkomen analoog maar heeft nu betrekking op de kolomprofielen (conditionele distributies van X 1 ). De intertie van de kolommen is In(C) = X2 n. Bemerk X 2 n = In(R) = In(C). 8.3 Grafische Weergave Inleiding In Sectie 8.2 hebben we gezien dat de intertie beschouwd kan worden als een gewogen som van afstanden van r punten tot een centrum in een c-dimensionale ruimte (rijprofielen) of als een gewogen som van afstanden van c-punten tot een centrum in een r-dimensionale ruimte (kolomprofielen). Een grote afstand tussen bv. r i tot c wordt geïnterpreteerd als een grote afwijking tussen de conditionele distributie van X 2, gegeven X 1 = i t.o.v. de distributie van X 2 onder de hypotese van onafhankelijkheid (marginale distributie van X 2 ). Indien c of r groter is dan 2 kan dit echter niet eenvoudig en duidelijk grafisch weergegeven worden. In deze sectie zien we een techniek om in een 2-dimensionaal vlak een goede representatie van de punten te verkrijgen zodanig dat de componenten van de inerties afgelezen kunnen worden. Een dergelijke weergave kan zowel voor de rij- als voor de kolomprofielen. We zullen vervolgens zien dat door beide representaties op één figuur te zetten nog een diepere interpretatie gegeven kan worden m.b.t. de afhankelijkheidsstructuur tussen X 1 en X 2. Multivariate Dataverwerking Hoofdstuk 8 p. 3

165 8.3.2 Veralgemeende SVD De 2-dimensionale weergaven van de rijen kolomprofielen is gebaseerd op de veralgemeende SVD (Engels: Generalized SVD: GSVD). We tonen eerst in detail de techniek voor de rijprofielen, nadien tonen we de volkomen analoge resultaten voor de kolomprofielen. Tenslotte tonen we hoe de twee oplossingen gerelateerd zijn tot elkaar. Rij-profielen We verkiezen om niet rechtstreeks de rijprofielen r i weer te geven, maar wel de afwijkingen r i c. De r gecentreerde rijprofielen kunnen in matrixnotatie genoteerd worden als R 1c t. De GSVD van R 1c t wordt gegeven door R 1c t = SD µ T t met S t D r S = T t D 1 c T = I, met D µ een d d diagonaal matrix met elementen µ 1,..., µ d met d = min(r, c). Door gebruik te maken van de gewone SVD kan de oplossing bekomen worden: de scalairen µ 1 > µ 2 >... > µ d zijn singuliere waarden (nauw verwand met eigenwaarden) en de elementen in de r d matrix S en de c d matrix T zijn eigenvectoren (details niet gegeven). Indien we in staat zouden zijn om een d-dimensionale voorstelling te maken, vinden we het volgende (cfr. Gabriel factorisatie): R 1c t = SD µ T t = F T t met F = SD µ een r d matrix. Dus, de r punten in R 1c t kunnen equivalent weergegeven worden in een d-dimensionale ruimte met coördinaten in de rijen van de matrix F. De matrix M is de transformatiematrix van de oorspronkelijke r-dimensionale naar de d- dimensionale ruimte, maar deze hebben we niet nodig voor de grafische voorstelling. Stel fi t = (f i1,..., f id ) de i-de rij van de matrix F en stel s t i = (s i1,..., s id ) de i-de rij van S. Dan is f ij = s ij µ j. Multivariate Dataverwerking Hoofdstuk 8 p. 4

166 Vervolgens berekenen we de gewogen som van de gekwadrateerde afstanden van f i tot 0 (i = 1,..., r), maar we berekenen de componenten voor ieder van de d dimensies afzonderlijk, i.e. we berekenen r r i (f i 0) t (f i 0) = i=1 = r i=1 r i d j=1 f 2 ij ( d r ) r i fij 2, j=1 i=1 waar de termen tussen de grote haken de componenten zijn. Voor component j vinden we r r r i fij 2 = r i s 2 ijµ 2 j i=1 i=1 r = µ 2 j r i s 2 ij = µ 2 j. i=1 Dus, de totale gewogen som van de afstanden is r r i (f i 0) t (f i 0) = i=1 d µ 2 j, j=1 dit is uiteraard tevens de interie van de rijprofielen. Bijgevolg zijn µ 2 1 >... > µ 2 d de bijdragen van de d dimensies tot de totale inertie. Gezien de ordening van de singuliere waarden µ j, lijkt het nu verantwoord een dimensiereductie tot 2 dimensies door te voeren. De fractie µ2 1 +µ2 2 d is een maat voor de kwaliteit van de dimensiereductie, i.e. de fractie j=1 µ2 j van de totale intertie die weerhouden of weergegeven wordt in 2 dimensies. We stellen de dimensiereductie in de GSVD voor als R 1c t F (2) M(2) t met F (2 ) de submatrix van F door enkel de twee eerste kolommen van F te selecteren; analoog voor M (2). Multivariate Dataverwerking Hoofdstuk 8 p. 5

167 Kolom-profielen Het duale probleem is de voorstelling van de c kolomprofielen in C in een laag-dimensionele ruimte. We passen een GSVD nu toe op C 1r t, C 1r t = UD µ V t met U t D c U = V t D 1 r V = I, met D µ een d d diagonaalmatrix met elementen µ 1,..., µ d met d = min(r, c); er kan aangetoond worden dat dit dezelfde singuliere waarden zijn dan deze voor de rijprofielen. De elementen van U en V zijn eigenvectoren. Er kan tevens aangetoond worden dat deze eigenvectoren verband houden met S en T (zie verder). De d-dimensionale voorstelling van de c punten bekomen als de rijen van c d matrix G in C 1r t = GV t. Op analoge wijze als voor de rijprofielen bekomen we de volgende decompositie van de totale gewogen afstanden (analoge notatie) c c i (g i 0) t (g i 0) = i=1 = = = = c i=1 c i d j=1 g 2 ij ( d c ) c i gij 2 j=1 i=1 ( d c ) c i s 2 ijµ 2 j j=1 ( d j=1 i=1 µ 2 j d ( ) µ 2 j. j=1 ) c c i s 2 ij i= Verband tussen de twee Oplossingen De volgende equivalenties kunnen aangetoond worden G = Dc 1 T D µ of T = D c GDµ 1 Multivariate Dataverwerking Hoofdstuk 8 p. 6

168 U = D r F D 1 µ of F = D 1 r UD µ G = CF D 1 µ F = RGD 1 µ. Om een diepere interpretatie in de afhankelijkheidsstructuur tussen X 1 en X 2 te krijgen, bekijken we de twee laatste vergelijkingen in detail. Uit G = CF D 1 µ volgt dat de j-de rij, g j gegeven wordt door g t j = c t jf D 1 µ = ( c j1 f t c jr f t r)d 1 µ (8.1) Anderzijds vinden we f t i = r t igd 1 µ = ( r i1 g t r ic g t c)d 1 µ (8.2) In beide uitdrukkingen betekent de vermenigvuldiging met D 1 µ dat de d dimensies gewogen worden met de singuliere waarden. Stel nu dat in de j-de klasse van X 2 relatief veel observaties van de i-de klasse van X 1 voorkomen, i.e. c ij is groot. Dan volgt uit Vergelijking 8.1 dat g j sterk zal gedomineerd worden door richting van f i. Hetzelfde volgt uit Vergelijking 8.2. Dus als de rijprofielen in F en de kolomprofielen in G in één figuur weergegeven worden en g j en f i wijzen in dezelfde richting, impliceert dit dat er relatief veel observaties van X 1 = i met X 2 = j voorkomen Grafische Voorstellingswijzen In deze sectie beschrijven we enkele grafische voorstellingswijzen. We illustreren ze aan de hand van deabundance dataset uit Sectie Rijprofielen Uit de voorgaande discussie is het duidelijk dat de gewogen afstand tussen een punt (rijprofiel) en de oorsprong overeenkomt met de bijdrage van de overeenkomstige rij tot de Multivariate Dataverwerking Hoofdstuk 8 p. 7

169 Pearson statistiek. Dus hoe groter deze afstand, hoe meer de conditionele distributie van X 2 (kolommen), gegeven X 1 (de rij), verschilt van de marginale distributie van X 2 (de kolommen). Zonder bewijs, vermelden we nog dat in de getransformeerde ruimte de Euclidische afstand tussen twee rijprofielen overeenkomt met de Pearson afstand tussen de overeenkomstige conditionele distributies van X 2 (de kolommen). Dus hoe dichter twee punten van rijprofielen bij elkaar liggen, hoe minder hun conditionele distributies van elkaar verschillen. > corresp(abundance[, -1], profile = "r") $mu2: [1] e e e e-001 [5] e e e e-002 [9] e e e e-002 [13] e e e e-003 [17] e-032 $perc: [1] [11] $r.marg: [1] [6] [11] [16] $c.marg: [1] [6] [11] [16] [21] [26] [31] [36] Multivariate Dataverwerking Hoofdstuk 8 p. 8

170 [41] [46] $r.names: [1] "S1" "S2" "S3" "S4" "S5" "S6" "S7" "S8" "S9" "S10" [11] "S11" "S12" "S13" "S14" "S15" "S16" "S17" $c.names: [1] "Airpra" "Teenud" "Rumtun" "Viciangus" "Trifdub" [6] "Visvul" "Galver" "Hiepil" "AchMil" "Stegram" [11] "Fesovi" "Plalan" "Trirep" "Tripra" "Tarasp" [16] "Ranbul" "Camrot" "Cerfon" "Filvul" "Luzcam" [21] "Cyncri" "Alchesp." "Agrten" "Antodo" "Saxgra" [26] "Hypmac" "Latpra" "Rumace" "Fesrub" "Conmaj" [31] "Poapra" "Vercha" "Latmon" "Desfle" "Camper" [36] "Vioriv" "Antsil" "Stahol" "Dacglo" "Anenem" [41] "Hepnob" "Priver" "Alliusp" "Poanem" "Moetrin" [46] "Fraexc" "Geuurb" "Verhed" "Ranfic" "Merper" De S-Plus functie corresp geeft de figuur van de rijprofielen. In mu2 zitten de gekwadrateerde singuliere waarden (inertia van de assen) en in perc de overeenkomstige percentages. Voor dit voorbeeld vertegenwoordigen de twee eerste principale assen 27.1% % = 43.9% van de totale inertie (Pearson statistiek). Dit is niet erg groot, maar bedenkt dat er in het totaal 17 assen zijn! In r.marg en c.marg zitten de probabiliteiten van de marginale distributies van respectievelijk de rijen en de kolommen. Tenslotte geeft S-Plus ook nog de namen van de rijen en de kolommen. De rijprofien zijn weergegeven in Figuur 8.1 Kolomprofielen > corresp(abundance[, -1], profile = "c") $mu2: [1] e e e e-001 [5] e e e e-002 Multivariate Dataverwerking Hoofdstuk 8 p. 9

171 CA S1 S2 S3 S4 S5 S6 S CA1 S9S10 S8 S11 S12 S13 S15 S14 S17 S16 Figuur 8.1: Rijprofielen van de abundance dataset [9] e e e e-002 [13] e e e e-003 [17] e-032 $perc: [1] [11] Uiteraard zijn de singulier waarden gelijk aan deze voor de rijprofielen. Figuur 8.2 toont de kolomprofielen in de twee eerste principale dimensies. Rij- en Kolomprofielen De rijen de kolomprofielen mogen ook op één figuur weergegeven worden. In een dergelijke figuur kan de afhankelijkheidsstructuur bestudeerd worden. Het is voornamelijk een goed hulpmiddel om na te gaan welke kolom sterk vertegenwoordigd is in welke rij. > corresp(abundance[, -1], profile = "b") $mu2: [1] e e e e-001 [5] e e e e-002 Multivariate Dataverwerking Hoofdstuk 8 p. 10

172 CA Airpra Teenud Rumtun Viciangus Trifdub Galver Visvul Hiepil AchMil Stegram Fesovi Verhed Camrot Plalan Trirep Tarasp Ranbul Luzcam Geuurb Tripra Cerfon Filvul Antsil Cyncri Agrten Anenem Alliusp Fraexc Alchesp. Antodo Saxgra Rumace Stahol Hepnob Hypmac Latpra Poapra VerchaCamper Dacglo Vioriv Fesrub Conmaj Latmon Desfle Priver Poanem Moetrin Ranfic Merper CA1 Figuur 8.2: Kolomprofielen van de abundance dataset Multivariate Dataverwerking Hoofdstuk 8 p. 11

173 CA S17 S16 Airpra Ranfic Teenud Rumtun Viciangus S1 Trifdub Galver Visvul Hiepil AchMil S2 Stegram S3 Fesovi Verhed Camrot S15 Plalan S4 S14 Trirep Tarasp Ranbul Luzcam Geuurb Tripra Cerfon Filvul Antsil S5 S11 Cyncri Agrten Anenem Alliusp Fraexc Alchesp. Antodo Saxgra S6 Rumace Stahol Hepnob Hypmac LatpraS7 Poapra VerchaCamper Dacglo S9S10 S8 Vioriv S12 Fesrub Conmaj Latmon Desfle S13 Priver Poanem Moetrin Merper CA1 Figuur 8.3: Rij- en kolomprofielen van de abundance dataset [9] e e e e-002 [13] e e e e-003 [17] e-032 $perc: [1] [11] Figuur 8.3 toont het resultaat. Multivariate Dataverwerking Hoofdstuk 8 p. 12

Nog meer weergeven