Multivariate dataverwerking Olivier Thas



Vergelijkbare documenten
SAMPLE 11 = + 11 = + + Exploring Combinations of Ten + + = = + + = + = = + = = 11. Step Up. Step Ahead

Add the standing fingers to get the tens and multiply the closed fingers to get the units.

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 8 februari 2010

Classification of triangles

z x 1 x 2 x 3 x 4 s 1 s 2 s 3 rij rij rij rij

Vergaderen in het Engels

S e v e n P h o t o s f o r O A S E. K r i j n d e K o n i n g

Ontpopping. ORGACOM Thuis in het Museum

Duurzaam projectmanagement - De nieuwe realiteit van de projectmanager (Dutch Edition)

MyDHL+ Van Non-Corporate naar Corporate

Ouderlijke Controle en Angst bij Kinderen, de Invloed van Psychologische Flexibiliteit

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

Het Effect van Verschil in Sociale Invloed van Ouders en Vrienden op het Alcoholgebruik van Adolescenten.

Appendix A: List of variables with corresponding questionnaire items (in English) used in chapter 2

Understanding and being understood begins with speaking Dutch

The first line of the input contains an integer $t \in \mathbb{n}$. This is followed by $t$ lines of text. This text consists of:

De grondbeginselen der Nederlandsche spelling / Regeling der spelling voor het woordenboek der Nederlandsche taal (Dutch Edition)

(1) De hoofdfunctie van ons gezelschap is het aanbieden van onderwijs. (2) Ons gezelschap is er om kunsteducatie te verbeteren

Global TV Canada s Pulse 2011

ANGSTSTOORNISSEN EN HYPOCHONDRIE: DIAGNOSTIEK EN BEHANDELING (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

Lichamelijke factoren als voorspeller voor psychisch. en lichamelijk herstel bij anorexia nervosa. Physical factors as predictors of psychological and

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

CHROMA STANDAARDREEKS

C - de totale constante kosten. N - de normale bezetting in stuks

Beïnvloedt Gentle Teaching Vaardigheden van Begeleiders en Companionship en Angst bij Verstandelijk Beperkte Cliënten?

COGNITIEVE DISSONANTIE EN ROKERS COGNITIVE DISSONANCE AND SMOKERS

Introductie in flowcharts

General info on using shopping carts with Ingenico epayments

Academisch schrijven Inleiding

Ae Table 1: Aircraft data. In horizontal steady flight, the equations of motion are L = W and T = D.

Comics FILE 4 COMICS BK 2

Opgave 2 Geef een korte uitleg van elk van de volgende concepten: De Yield-to-Maturity of a coupon bond.

Value based healthcare door een quality improvement bril

Luister alsjeblieft naar een opname als je de vragen beantwoordt of speel de stukken zelf!

Keuzetwijfels in de Emerging Adulthood rondom Studie- en Partnerkeuze. in Relatie tot Depressie

Read this story in English. My personal story

PRIVACYVERKLARING KLANT- EN LEVERANCIERSADMINISTRATIE

Buy Me FILE 5 BUY ME BK 2

Settings for the C100BRS4 MAC Address Spoofing with cable Internet.

Engels op Niveau A2 Workshops Woordkennis 1

RECEPTEERKUNDE: PRODUCTZORG EN BEREIDING VAN GENEESMIDDELEN (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

Esther Lee-Varisco Matt Zhang

Davide's Crown Caps Forum

My Inspiration I got my inspiration from a lamp that I already had made 2 years ago. The lamp is the you can see on the right.

Tentamen T1 Chemische Analysemethoden 6 maart 2014

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Examination 2DL04 Friday 16 november 2007, hours.

AE1103 Statics. 25 January h h. Answer sheets. Last name and initials:

Emotionele Arbeid, de Dutch Questionnaire on Emotional Labor en. Bevlogenheid

It s all about the money Group work

Chapter 4 Understanding Families. In this chapter, you will learn

Main language Dit is de basiswoordenschat. Deze woorden moeten de leerlingen zowel passief als actief kennen.

Table 1: Aircraft data. Figure 1: Glider

Laboratory report. Independent testing of material surfaces. Analysis of leaching substances in treated wood samples conform guide line EU 10/2011

OPEN TRAINING. Onderhandelingen met leveranciers voor aankopers. Zeker stellen dat je goed voorbereid aan de onderhandelingstafel komt.

Puzzle. Fais ft. Afrojack Niveau 3a Song 6 Lesson A Worksheet. a Lees de omschrijvingen. Zet de Engelse woorden in de puzzel.

FRAME [UPRIGHT MODEL] / [DEPTH] / [HEIGHT] / [FINISH] TYPE OF BASEPLATE P Base plate BP80 / E alternatives: ZINC finish in all cases

Four-card problem. Input

Angststoornissen en hypochondrie: Diagnostiek en behandeling (Dutch Edition) Click here if your download doesn"t start automatically

20 twenty. test. This is a list of things that you can find in a house. Circle the things that you can find in the tree house in the text.

Screen Design. Deliverable 3 - Visual Design. Pepijn Gieles Docent: Jasper Schelling

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

!!!! Wild!Peacock!Omslagdoek!! Vertaling!door!Eerlijke!Wol.!! Het!garen!voor!dit!patroon!is!te!verkrijgen!op! Benodigdheden:!!

B1 Woordkennis: Spelling

The colour of a pixel in a bit map picture can be presented in different ways. For this assignment, we distinguish two categories:

Online Resource 1. Title: Implementing the flipped classroom: An exploration of study behaviour and student performance

Bijlage 2: Informatie met betrekking tot goede praktijkvoorbeelden in Londen, het Verenigd Koninkrijk en Queensland

Invloed van het aantal kinderen op de seksdrive en relatievoorkeur

Travel Survey Questionnaires

Consumer survey on personal savings accounts

Wij beloven je te motiveren en verbinden met andere studenten op de fiets, om zo leuk en veilig te fietsen. Benoit Dubois

04/11/2013. Sluitersnelheid: 1/50 sec = 0.02 sec. Frameduur= 2 x sluitersnelheid= 2/50 = 1/25 = 0.04 sec. Framerate= 1/0.

Knelpunten in Zelfstandig Leren: Zelfregulerend leren, Stress en Uitstelgedrag bij HRM- Studenten van Avans Hogeschool s-hertogenbosch

Het Asterix project: methodologie van onderzoek bij zeldzame ziekten. Charlotte Gaasterland, Hanneke van der Lee PGO support meeting, 20 maart 2017

Een vrouw, een kind en azijn (Dutch Edition)

De Relatie Tussen Persoonskenmerken en Ervaren Lijden bij. Verslaafde Patiënten met PTSS

1. will + hele werkwoord (Future Simple) 2. shall + hele werkwoord 3. to be (am/is/are) going to + hele werkwoord

Buy Me! FILE 5 BUY ME KGT 2

IDENTITEIT IN DE METHODE?

MyDHL+ ProView activeren in MyDHL+

Example. Dutch language lesson. Dutch & German Language Education Pieter Wielick

/ /

Verschil in Perceptie over Opvoeding tussen Ouders en Adolescenten en Alcoholgebruik van Adolescenten

Preschool Kindergarten

Firewall van de Speedtouch 789wl volledig uitschakelen?

Archief Voor Kerkelijke Geschiedenis, Inzonderheid Van Nederland, Volume 8... (Romanian Edition)

L.Net s88sd16-n aansluitingen en programmering.

After that, the digits are written after each other: first the row numbers, followed by the column numbers.

Interaction Design for the Semantic Web

Intercultural Mediation through the Internet Hans Verrept Intercultural mediation and policy support unit

Verklaring van het beweeggedrag van ouderen door determinanten van. The explanation of the physical activity of elderly by determinants of

Effecten van een op MBSR gebaseerde training van. hospicemedewerkers op burnout, compassionele vermoeidheid en

Joos Vandewalle. wiskunde voor iedereen

Concept of Feedback. P.S. Gandhi Mechanical Engineering IIT Bombay

Data Handling Ron van Lammeren - Wageningen UR

8+ 60 MIN Alleen te spelen in combinatie met het RIFUGIO basisspel. Only to be played in combination with the RIFUGIO basicgame.

Group work to study a new subject.

De Relatie Tussen de Gehanteerde Copingstijl en Pesten op het Werk. The Relation Between the Used Coping Style and Bullying at Work.

Ik kom er soms tijdens de les achter dat ik mijn schoolspullen niet bij mij heb of niet compleet

BEAR. Do you need protection? A bear can help you, because it is big and stands for power. BEAVER

Transcriptie:

Multivariate dataverwerking Olivier Thas 1 Multivariate dataverwerking Olivier Thas 1999-2000 eerste zit OTTOY 1. Verachtingsintervallen van 2. Betrouwbaarheidsintervalllen van lineaire regressie 3. Interpretatie van SPSS-output 4. Aan de hand van SPSS-output betrouwbaarheidsintervallen berekenen 5. Nog 1 of 2 gemakkelijke oefeningen VAN MEIRVENNE 1. PCA : alles uitleggen aan de hand van de matrices ( ook rotatie) 2. Single linkage tegenover complete linkage uitleggen en wanneer single linkage gebruiken? 3. Bereken de semi-variantie ( cfr. Voorbeeld in de cursus ) 4. GEO-EAS : interpreteer een output zonder dat je hem krijgt. Hij vermeld iets en je moet dan kunnen geven hoe je dit in het programma kunt bekomen en wat je uit de bekomen output dan kunt afleiden. ( Gokken ) 2000-2001 eerste zit OTTOY 1. Wat zijn orthogonale, aanvullende en inwisselbare predictoren? Geef het verband met orthogonaliteit van een proefopzet. 2. Leid de verwachtings- en betrouwbaarheidsintervallen af voor enkelvoudige lineaire regressie. Wat is hun betekenis? 3. Oefening over laatste hoofdstuk (dummie variabele, ) aan de hand van SPSS-outputs. VAN MEIRVENNE 1. Waarom wordt bij PCA Bartlett's test of sphericity gedaan? + oefening hierop aan de hand van een SPSS-output 2. Geef de formule van cokriging + geef de betekenis van alle parameters 3. Op welke matrix voert men bij PCA de analyse uit en waarom? 4. Semivariante: X 0 ligt op een meetpunt Geef de waarde van de Lagrange parameter, ²( X 0 ), 5. Oefening op output van Geocas over kriging, z-score 6. Welk model is het beste voor deze output: exponentieel VAN ROLLEGHEM 1. Geef de 3 stappen voor proefopzet. Welke vragen moet men hierbij stellen? Pas ook toe voor proefopzet als men moet kiezen tussen een lineaire functie of een parabolische functie. 2002-2003 eerste zit 1. Interpreteren biplot 2. Afhankelijkheid van een gegeven dataset + interpreteervraagjes 3. Discriminatanalyse + classificatieboom + interpreteervraagjes

Multivariate dataverwerking Olivier Thas 2 2005-2006 eerste zit 1. dataset bestaande uit gegevens van depressieve en niet-depressieve mensen Gevraagd: probeer met 2 methoden te voorspellen of een patient depressief of niet is. Welke methode verkies je en waarom? 2. output gegeven Gevraagd: bepaal Oddsratio en bereken een conditionele kans + bereken ook deze kans aan de hand van een cross tabel en leg het eventuele verschil tussen de kansen uit. 2008 2009 eerste zit Beschrijving van een experiment + R output gegeven 1) Is het logisch dat men een PCA uitvoert met niet-gestandaardiseerde variabele? Waarom wel? waarom niet? 2) Bespreek de biplots 3) Normaliteit van belang bij PCA analyse 4) Vergelijk biplot met scatterplot van Fisher analyse, bespreek gelijkenissen/verschillen 5) 3 bomen: 1 op basis van originele variabelen, 1 op basis van eerste 3 PC's, 1 op basis van alle PC's. Bespreek gelijkenissen/verschillen Beschrijving van een experiment + R output gegeven 1) LDA (homo-+hetero-scedastisch) + classificatie boom: welke verkies je en waarom? 2) Teken de boom 3) Gaat je misclassificatieerror verkleinen als je met gestandaardiseerde variabelen zou werken? 4) Is clusteranalyse waardevol voor discriminantanalyse? Relatie tussen beide? 5) Gaan er discriminatiemethoden uit van normaliteit? 1) PCA analyse op scores (van 1 tot 6) gegeven door de consument, voor verschillende eigenschappen van 23 automerken. a. standaardiseren nodig, nuttig? b. biplots interpreteren c. in output summary, de ontbrekende waarden (stand dev, prop of variance, cum. prop.) voor de vierde component invullen d. PCA voor studie variantie. Waarvoor kan het nog nuttig bij deze dataset? 2) verschillende classificaties gedaan a. wat is de beste methode (discriminant of tree?) (adhv plu-in classificatiefouten) b. wat zou je nog doen in deze analyse? c. er werd uniform gewerkt. Is dit goed? d. Zijn er discriminant analyse-methodes die gebruik maken van de MVN? e. waarvoor kan clusteranalyse hier nog een meerwaarde zijn? Wat is het verschil met discriminantanalyse? f. teken de boom na pruning (output zoals p137 gegeven) g. scatterplot van PCA bespreken.

Multivariate Data Analysis 2010-2011 1) On several car types (I don t remember exactly how many but I believe 15 or so) 40 persons were asked to give marks(1= very good, 6 =very bad) on 8 variables: safety, service, depreciation of value, price(mark 1 = very cheap), economy, easy handling, design and sportive look. A PCA analysis was conducted, relevant output is given. a) This PCA analysis was performed using standardized variables. Was this a good idea? Why or why not? No, it s not strictly necessary to do this because all variables are measured in the same unit. On the other hand it s possible that one or more variables show a large variance. This means that the PCs will be dominated by this/these variable(s). Thus, if we want to treat the variables as equally important, standardization is recommended. b) Calculate the omitted values for component 4 Now, calculating the cumulative variance and the proportion of variance, is quite easy so I ll leave that up to you. My way of calculating the stdev was as follows: ( ) ( ) In some way or another the ratio is quite constant. c) Interpret the biplots. In this case, real car types like Ferrari, BMW, Ford, Opel were used. So when you take a look at the biplots, you will see that Ferrari for example is more expensive than say an Opel Corsa. Even if you don t have a lot of knowledge about car types, you know that Ferrari is indeed more expensive than an Opel. d) A PCA analysis gives us an insight into the data. For what other purposes could it serve based on this dataset? Discuss. Well, my answer was cluster analysis. If you take a look at the biplots certain cars can be grouped. 2) From the dataset Jobtype, 244 people in three different job classifications (customer service personal (1), mechanics (2) and dispatchers(3)) were observed on 3 psychological variables (outdoor interest, social behavior and conservativeness). a) Several discriminant analyses have been performed and classification tree has been calculated. Which of the methods would you prefer? Why? When we calculate the misclassification errors(me) of those analyses, we can conclude that the classificication tree has the lowest ME (0.2049). Based on these results, we could indeed choose this method. Another argument is the fact that this method is a non-parametrical one which means that no distributional nor functional assumptions are made. On the other hand, when we look at the tree it looks very complex. Now, the heteroscedastic model has a slight higher ME( 0.23 or so) but it s less complex. So the method that is finally preferred depends

on whether we want a smaller ME or less complexity. b) Which additional analysis techniques could be conducted in order to support the conclusions of the discriminant analysis? (this answer was found in an example discriminant analysis of this dataset on the Internet so it s rather detailed. Keep it simple) Separate one-way ANOVAs - You could analyze these data using separate one-way ANOVAs for each psychological variable. The separate ANOVAs will not produce multivariate results and do not report information concerning dimensionality. MANOVA- tests of significance are the same as for discriminant function analysis but MANOVA gives no information on the individual dimensions. A PCA analysis could also reveal certain contrasts. c) In the analyses conducted here, uniform priors were used. Do you think this was a good choice? Why or why not? (According to me) No, this wasn t a good choice. Uniform priors mean that the probability to belong to one of the groups is the same for all groups. Now, we can see in reality that people are not equally distributed over the groups. I believe there are certain other factors than the three considered in this study that determines to which group you belong. The most important argument is that we do not have access to the dataset thus we don t have a view on the proportions of the people working in each group. Proportional priors would be a safer option. If the people are indeed uniform distributed over the groups, the proportional priors are equal to the uniform priors. d) What would be the value of a cluster analysis performed on this dataset? What is the relation (if present) with discriminant analysis? If we conduct a cluster analysis and we know that there are 3 clusters. In this particular case, we know which observation belongs to which group (normally when you start a cluster analysis you don t know this). If the cluster analysis results in clusters/groups with (almost) the same observations as in the REAL dataset, the discriminant analysis on these new groups should be equivalent to the one performed on the original groups. If this is not the case then doubts about the predicting power of original discriminant analysis should arise. You can see that if we make a classification rule based on the original groups, a person will be classified in a group according to this rule. If the classification rule derived from the discriminant analysis of the new groups differs, it s possible that the same person is classified in another group. e) Draw the pruned classification tree based on the output of the object job.prune.k1 (see figure1) f) What is represented by figure 2? Give an interpretation. This represents the scatterplot of the 2 canonical discriminant functions. Although the separation isn t quite obvious. We could conclude a difference between dispatchers and customer service in the first discriminant function.. For mechanics it s too difficult(if not impossible) to draw conclusions. To see where dispatchers and customer service differ, we include the Z 1 which is the equation of the first function. The canonical coefficients can be

extracted from the output. Based on the graph and this function we can thus conclude that dispatchers have a higher outdoor interest, a higher conservativeness and worse social behavior than customer service. g) *Memory fails*