Onderzeksmethden II: het multivariaat lineair mdel 1. Overzicht methdes 1.1. Inleiding Vrbeeld: meerdere afhankelijke variabelen Vernderstel dat we q (afhankelijke) variabelen beschikken. Een nderzeker wil weten f scres p de q vakken significant verschillen tussen de mannelijke en de vruwelijke studenten. Twee alternatieven: Univariate benadering: we kunnen q keer de tw sample t tets uitveren: we krijgen q p waarden die al f niet significant kunnen zijn. Multivariate benadering: we kunnen 1 multivariate tets uitveren: we verkrijgen 1 p waarde: deze tets kan significant zijn f niet. Multivariaat tetsen: waarm? Het gebruik van q univariate tetsen leidt tt een inflatie van de type I fut 1.( 2 ) Univariate tetsen huden geen rekening met het eventueel gecrreleerd zijn van de te tetsen variabelen. In veel gevallen heeft een multivariate tets een grter nderscheidingsvermgen 3 (pwer 4 ). 1.2. Tetsen met betrekking tt een vectr van gemiddelden ( ) Het univariaat geval Data: a randm sample van n bservaties allen uitdezelfde nrmaal verdeeld ppulatie met. De nulhypthese stelt dat het gemiddelde gelijk is aan een vrpgestelde waarde : vs. 1 Een fut van de eerste srt, k fut van type I f type I fut geheten, is de verkeerde beslissing die genmen wrdt als een tets een ware nulhypthese verwerpt. 2 Een fut van de tweede srt, k fut van type II f type II fut geheten, is de verkeerde beslissing die genmen wrdt als een tets een nware nulhypthese niet verwerpt. 3 Het nderscheidend vermgen, f nderscheidingsvermgen (Engels: pwer) van een statistische tets is de kans m een nulhypthese terecht te verwerpen, dus de kans dat de tets niet een fut van de tweede srt (type II-fut) maakt. 4 De pwer van een tets is de kans dat verwrpen wrdt indien inderdaad vals is.
Het multivariaat geval. Data: een randm sample van n bservaties van telkens q scres. De nulhypthese stelt dat de vectr met q gemiddelden gelijk is aan een vrpgestelde vectr met q waarden : vs. Deze tetsstatistiek is gekend nder de naam Htelling s T²; de distributie van T² werd bekmen dr Htelling en is afhankelijk van q en het aantal vrijheidgraden (v = n -1): T² ~ T² (q, v) Bemerkingen: Het is ndzakelijk dan n-1 > q, z niet is S singulier en T² kan niet wrden berekend. De vrijheidgraden zijn analg met het univariate geval. De alternatieve hypthese is altijd tweezijdig. De T² verdeling wrdt vandaag niet meer gebruikt, we kunnen immers de F verdeling hanteren. Univariaat versus multivariaat: Punten binnen de ellips, maar buiten de rechthek zullen leiden tt verwerping van de nulhypthese bij minstens één univariate tets, teerwijl de multivariate tets de nulhypthese zal behuden: dit illustreert de inflatie van de bij meerdere univariate tetsen. Punten buiten de ellips, maar binnen de rechthek zullen leiden tt verwerping van de nulhypthese p basis van de multivariate tets, terwijl beide univariate tetsen de nulhypthese zullen behuden, in deze gevallen heeft de multivariate tets meer nderscheidingsvermgen. Bemerk dat het resultaat van de multivariate tets afhankelijk is van de crrelatie (cvariantie) structuur tussen de variabelen: indien de crrelatie negatief zu zijn, zu de ellips in de andere richting geriënteerd zijn, waardr we zuden aanvaarden; idem indien de crrelatie tussen de twee variabelen nul zu zijn: in dit geval wrdt de ellips een cirkel, en pnieuw zuden we behuden. 1.3. Het multivariaat lineair mdel De structuur van het mdel Het multivariaat lineair mdel kunnen we als vlgt nteren: Afhankelijke variabelen = () (regressiecëfficiënten) + ()
Y is een respns matrix van rde n x q; elke rij van Y crrespndeert met de q scres van 1 bservatie. X is de mdel matrix van rde n x (p+1) (inclusief de intercept). Deze matrix is van dezelfde rde als in het univariaat lineair mdel. is een (p+1) x q matrix van regressiecëfficiënten, we hebben een aparte klm van s vr elke klm van Y. is een matrix van dezelfde rde als Y en bevat de randm futtermen vr elke bservatie, vr elke afhankelijke variabele. Stchastische assumpties De basisassumpties: het mdel is vlledig en lineair: zwel als 0 zijn n x q matrices en dit impliceert: Var ( ) = vr alle i ( is een q x q matrix ) dit impliceert: vr alle i. Cv ( ) = 0 vr alle i j. Parameterschatting: kleinste kwadraten methde. Het gefit multivariaat lineair mdel is: met e = Y XB de matrix met futtermen. De kleinste kwadraten methden minimaliseert: De plssing is analg aan het univariate geval: Bemerk dat de waarden in de klmmen van B dezelfde zijn als mchten we ze apart hebben geschat vr elke klm van Y afznderlijk. Krtm, f we nu univariaat f multivariaat te werk gaan, de parameterschattingen blijven gelijk. Een schatter vr : een nvertekende schatter vr is gegeven dr: Waarbij we de vlgende ntatie hanteren: Vrbeeld Data: 377 werknemers/ Variabelen: 25. Drie afhankelijke variabelen: chi, stress en depres. 4 cntinue predictren: decaut, psydem, age2, skillet
1.4. Multivariate tetsen Mdelvergelijking: vlledig versus gereduceerd mdel Ntatie = vlledig mdel 5 ; = gereduceerd mdel Onder de nulhypthese stellen we dat het gereduceerd mdel evenwaardig is met het vlledig mdel (krtm de extra predictren zijn verbdig): De geschatte mdellen zijn: H is het verschil in aantal predictren, dus h is het aantal regressiecmpnenten dat je schrapt. De E en H matrices In het univariaat geval is SSE (sum f squares errr) de kwadratensm van de futtermen: indien we een nderscheid maken tussen een vlledig en een gereduceerd mdel hanteren we de ntatie. De mutivariate tegenhanger van term is de errr sum f squares and crss prduct (E-SSCP) matrix E: Alle paren van klmmen wrden met elkaar vermenigvuldigd. Wrdt een matrix. 5 Full and reduced.
De multivariate tegenhanger vr de term is: Een multivariate tegenhanger vr de term is de hypthesis sum f squares and crss prduct (H SSCP) matrix H: F tets= met = 0,05 (altijd 5% kans dat we de verwerpen terwijl dit niet ndig is). He kleiner het mdel, he beter. He kleiner de getallen, he beter de matrix. H matrixen (hypthese). Waarm meerdere? 4 predictren. 1 ste niet relevant. Vlgende 4 wel = predictren. Vlledig mdel ene variabele eruit dan psydem speelt geen rl resultaten. Zijn predictren significant?? P waarde ndig? E matrix (errr termen). Vier multivariate tetsstatistieken Vier veel gebruikte multivariate tetsstatistieken zijn (frmules niet kennen, wel kunnen gebruiken). Wilk s Lambda. Wilks Lambda crrespndeert met de likelihd rati test: Functie van E en H. E/H maar delen bestaat niet bij matrixen. Dus mvrmen. determinant van E functie vr E en H.
Pillai s tracé. De tetsstatistiek. Gewn p andere manier gecmbineerd. Een functie van E en H. Alternatieve naam: Barlett Nanda Pillai tracé Htelling Lawyley tracé. Alternatieve naam: htelling s generalized T² - statistic Ry s largest rt; Er is geen gede F-benadering vr ; men kan enkel een bvengrens vr F berekenen. Ze zijn allemaal gebaseerd p E en H. In de meeste gevallen is de exacte verdeling van deze statistieken nder de nulhypthese niet gekend, maar benaderen ze na transfrmatie een F- verdeling. Indien h = 1, kunnen alle 4 de tetsstatistieken wrden getransfrmeerd naar een exacte F statistiek en kunnen ze geschreven wrden als een functie van T². SPSS GLM multivariaat Opletten vr een multivariate tets! Hier z, maar zal niet altijd z zijn. F = transfrmatie. Significant effect van decaut p gehele pakket. Age2 en skillut zijn niet significant, maar p - waarden zijn affectief en ze zijn berekend p één dataset verandering mgelijk. Multivariate tetsen in de praktijk In de sciale wetenschappen rapprteert men z ged als altijd enkel Wilks Lambda. Het is belangrijk bij de rapprtering dit te vermelden.
Enkel indien de multivariate tets significant blijkt, kijkt men naar de univariate tetsen. Onderscheid met univariate want multivariate hudt rekening met de nderlinge relaties. Het is niet tegelaten m significante univariate tetsen te vermelden indien de crrespnderende multivariate tets niet significant is. Indien multivariate tets significant: interpretatie p basis van de univariate regressiecëfficiënten. Als je multivariate tets, dan multivariate uitkmst accepteren. Wanneer significantie aangetnd is dan kijken naar de univariate tets m te kijken f significantie p alle 3 de actren. 1.5. Vrbeeld MANCOVA Vrbeeld Data: 377 werknemers De variabelen: 25 Twee afhankelijke variabelen: stress en depress als indicatren van geestelijke gezndheid; 1 cntinue predictr: psydem 6. 2 categrische predictren: sex en educlev 7 pleidingniveau. 2 interactietermen: sex:edulev en sex:psydem. Multivariate test: tabel: Enkel Wilks Lambda! Sex: significant (<0.05). Edulev: niet significant. Psydem: significant. Sex*educlev: niet significant. Sex*psydem: significant. F (2, 368)= 3,176; p=0,043. Significante relaties interpreteren Er is een significant effect van sex en psydem (sex*psydem) met F(2, 368)=3,176 en significantie van p=0,043. Hierbij werd Wilks Lambda gebruikt. 6 Psychlgical demands. 7 Educatinal level.
Indien je interactie - effect hebt alleen interactie vermelden maar a+b niet. Parameter Estimates: tabel: He meer psydem, he meer stress vr vruwen. Bij mannen is dit minder (-0.60). He meer psydem, he meer depres vr vruwen. Maar is grter bij mannen (+0.192). Stress [sex=2] 0 wil zeggen dat dit het referentieniveau is en dit is gelijk aan 0. Stress psydem 0.112 psitief getal dat p referentiegetal slaat. Stress [sex=1]*psydem -0,06 verschil tussen mannen en vruwen. He sterker effect, he grter de hellingsgraad. Depres [sex=2] 0 wil zeggen dat dit het referentieniveau is en dit is gelijk aan 0. Depres psydem 0,139 psitief getal dat p referentiegetal slaat (vruwen want vruwen=2). Stress [sex=1]*psydem 0,192 verschil tussen mannen en vruwen. Interpretatie Welke multivariate tetsen zijn significant: sex, psydem, sex*psydem. Bemerk dat de twee univariate tetsen vr het interactie effect niet significant zijn; niet vr stress (p=0.055) en niet vr depres (p=0.417); de multivariate tets heeft echter beduidend meer pwer. Enkel het interactie- effect dient men te interpreteren; de hfdeffecten zijn van ndergeschikt belang. Het betreft hier een interactie tussen een categrische (dichtme 8 ) en een cntinue predictr: de slpe (= sterkte van relatie) tussen psydem en de afhankelijke variabele verschilt tussen mannen en vruwen. 8 Een dichtme variabele is een variabele slechts twee mgelijke waarden kan aannemen.
Vr stress:psydem = 0,112 vr het referentieniveau van sex (2=vruwen); vr mannen is de slp psydem =0,112-0,060 = 0,052; krtm zwel vr manen als vr vruwen geldt: er is een psitief verband tussen psydem en stress, he meer psychlgical demands, he meer stress; echter, dit verband is sterker vr vruwelijke werknemers dan vr de mannelijke werknemers. Vr depres: psydem = 0,139 vr het referentieniveau van sex (2=vruwen); vr mannen is de slpe psydem = 0,139 + 0,192 = 0,331; krtm zwel vr mannen als vr vruwen geldt: er is een psitief verband tussen psydem en depres, he meer psychlgical demands, he meer depressie; echter, dit verband is nu sterker vr de mannelijke werknemers dan vr de vruwelijke werknemers.