Methodologie bij het opstellen en beoordelen van Ikiredietclassificatiemodellen

Maat: px
Weergave met pagina beginnen:

Download "Methodologie bij het opstellen en beoordelen van Ikiredietclassificatiemodellen"

Transcriptie

1 Tijdschrift voor Economie en Management Vol. LIII, 1, 1998 Methodologie bij het opstellen en beoordelen van Ikiredietclassificatiemodellen door Ph. JOOS*, H. OOGHE*" en N. SIERENS"" I. INLEIDING In dit artikel wordt een theoretisch overzicht gegeven van de mogelijkheden en beperkingen die optreden bij het opstellen van classificatiemodellen. Daarnaast wordt een methodologie voorgesteld die gebruikt kan worden bij de beoordeling en vergelijking van verschillende modellen. Om geen louter abstracte uiteenzetting te geven zal steeds vanuit de context van kredietverlening gewerkt worden. Het hoeft echter geen betoog dat de beschreven classificatietechnieken en performantiecriteria ook voor tal van andere onderzoeksproblemen kunnen gebruikt worden. De keuze voor kredietverlening is niet ongegrond. Bij deze activiteit is het immers van uitermate groot belang om het risicoprofiel van de debiteur correct in te schatten. Kredietscoringsmodellen zijn gebaseerd op een groot aantal kredieten uit het verleden en kunnen op een consistente manier het beoordelingsproces ondersteunen. Naast consistentie en objectiviteit hebben kredietmodellen ook de eigenschap efficiëntieverhogend te zijn. De bespreking van de verschillende methodes zal ook steeds beperkt blijven tot twee-groep classificatie. Dit impliceert dat enkel nagegaan wordt of een kredietnemer binnen een vooropgestelde periode zal betalen of niet. Daarnaast zullen ook geen modellen, die naast classificatie ook de exacte timing van de faling proberen te schatten, ~-~- '"raduate School of Business, University of Stanford en Faculiei1 van Economische en Toegepaste Economische Wetenschappen, Universiteit Gent. ";"' Fac~ilteit Econonlische en Toegepaste Economische Wetenschappen, Universiteit Gent.

2 besproken worden. Hiervoor wordt vemezen naar betreffende literatuur'. Het artikel is als volgt gestructureerd: het volgende punt heeft betrekking op de basisbeginselen van een classificatieonderzoek, nl. het bepalen van de populatieklassen waartoe kredieten kunnen behoren en de keuze van steekproef; het derde punt geeft een bondige uitleg over verschillende schattingstechnieken; de keuze en selectie van de variabelen komt in het vierde punt aan bod; de performantiecriteria die kunnen toegepast worden bij de geschatte modellen worden in het vijfde punt aangehaald, en de valideringsvraagstukken komen in het volgende deel voor. Tot slot vat het besluit de belangrijkste aspecten samen en wordt verder onderzoek voorgesteld. 11. POPULATIE EN STEEKPROEF Een eerste uitgangspunt is het definiëren van de populatieklassen waartoe kredieten kunnen behoren. Hierbij zijn diverse alternatieven voorhanden, die kunnen herleid worden tot "subjectieve" en "objectieve" indelingen. Aangezien risicobepaling de hoofddoelstelling is, zal dienen gezocht te worden naar risicoklassen voor kredieten. De subjectieve risico-indeling vertrekt van de indeling door de kredietanalist, is dus onderhevig aan een subjectieve appreciatie. Uit onderzoek is ook gebleken dat er een sterk positief bestand bestaat tussen de ervaring van de analist en de accuraatheid van zijn voorspelling (Jeffrey (1992)). Hiertegenover staat een objectieve risico-indeling, waarbij de klassen worden vastgelegd op basis van juridische criteria, bv. lopende en opgezegde kredieten. Hier ontstaat de gelijkenis met falingspredictie-onderzoek, waarbij het eveneens de bedoeling is ondernemingen in te delen in twee categorieën (falend en niet falend) op basis van financiële ratio's. Het moment van opzegging van een kredietovereenkomst gaat meestal de faillissementsuitspraak vooraf, zodat hier wel een verschilpunt is (Chalos (1985)). Om een model te bekomen dat voorspellend werkt naar de toekomst is het uiteraard belangrijk om gebruik te maken van recente informatie. Daarnaast is het essentieel dat de periode waarin het model geschat wordt een 'representatieve periode' is. Een model dat bij voorbeeld wordt geschat in een periode van extreme hoogconjunctuur, zal in een periode van laagconjunctuur minder accuraat zijn.

3 Specifiek bij falingsonderzoek kan er ook voor geopteerd worden verschillende modellen te gebruiken, met name één jaar voor faling, twee jaar voor faling enz. Er wordt gebruik gemaakt van een state-based sample (Palepu (1986)) i.p.v. een random selectie, aangezien de kans op selectie in de steekproef afhankelijk is van de status van de kredietnemer (falend of lopend), m.a.w. de steekproefproporties zijn niet gelijk aan de populatieproporties. Aangezien het aantal falende eenheden veel kleiner is dan het aantal lopende in de populatie, zou een pure random steekproeftrekking bijzonder kleine falende steekproeven opleveren, wat leidt tot onnauwkeurige parameterschattingen in het model. Het aantal falende kredietnemers is dus oververtegenwoordigd in de steekproef en dat zal voor bepaalde statistische modellen een vertekening van de parameters veroorzaken. Recentelijk zijn er een aantal aanpassingen voorgesteld door Zmijewski (1984), Palepu (1986), Dopuch et al. (1987) en Maddala (1991). Zij verwijzen in deze context naar self-selection bias2 en choice-based sampling. Een goede, representatieve steekproef moet een scoringsmodel opleveren dat toepasbaar is op de totale populatie kredietnemers. In feite kan men echter twee populaties onderscheiden (Foster (1986)): namelijk de populatie van nieuwe kredietnemers (aanvragers) en de populatie van (reeds) aanvaarde kredietnemers. Als nu een scoringsmodel dat gebaseerd is op reeds aanvaarde kredietnemers, gebruikt wordt voor nieuwe kredietaanvragen, is het dus mogelijk dat de bestaande steekproef niet representatief is. Foster (1986) spreekt in dit verband van het pre-screeningprobleem, i.e. de bestaande kredietnemers (lopende en falende) zijn ooit eens als "aanvaard" en dus als goed bestempeld of gescreend op basis van een aantal voor de kredietanalist relevante variabelen. Boyes et al. (1989) vermelden hier de term censored samples omdat bij het scoringsonderzoek enkel wordt gebruik gemaakt van informatie over applicanten die ooit krediet hebben gekregen. Een gevaar bestaat wanneer de kredietverlener bepaalde subjectieve criteria toepast om nieuwe kredietaanvragen af te wijzen. Dit veroorzaakt een zeker element van willekeur bij het aanvaardingsproces en dus ook bij de totstandkoming van de steekproef van aanvaarde kredietnemers (die achteraf worden ingedeeld bij de lopende of falende groep). Kredietnemers met identieke kenmerken (die normaliter zouden moeten worden aanvaard resp. afgewezen) kunnen door verschillende kredietanalisten anders ingedeeld worden. Deze indeling is dus niet gebaseerd op objectieve

4 kenmerken van de kredietaanvrager. Wanneer nu deze subjectieve indelingsfactor gecorreleerd is met de storingsterm in het scoringsmodel, dan leidt censoring tot scheefgetrokken parameterschatters (Boyes et al. (1989)). Het voornaamste gevolg van hetpre-screening fenomeen is dat het scoringsmodel, gebaseerd op een steekproef van aanvaarde dossiers, misschien niet toepasbaar is op de kredietaanvaardingsbeslissing. Een ander gevolg heeft betrekking op het gebrek aan informatie over de verworpen kredietaanvragen, en dus het gebrek aan inzicht in de mate van verkeerdelijk verwerpen van potentieel goede kredietnemers, de zgn. commerciële fout of type I1 fout (cfr. punt V.B) SCHATTINGSMETHODES In deze sectie zullen een aantal classificatietechnieken worden beschreven. Het is onmogelijk en tevens niet de bedoeling van dit artikel een exhaustief overzicht te geven. Er wordt het volgende onderscheid gemaakt: klassieke statistische technieken, recursive partitioning analysis (of tree classification), neurale netwerken en genetische algoritmes. De laatste drie classificatiemethodes brengt men soms onder de algemene noemer van inductive learning, i.e. leerprocessen op basis van voorbeelden (Shaw en Gentry (1991)). Voor een gedetailleerde beschrijving van deze technieken wordt verwezen naar een aantal standaardwerken. De classificatiemodellen worden telkens besproken in het geval van twee-groep classificatie: 1 als kredietnemer i opgezegd of gefaald Yz = 1 O als kredietnemer i lopend is (1) A. Klassieke statistische technieken Hierbij wordt een onderscheid gemaakt tussen een viertal parametrische schattingstechnieken. Uiteraard bestaan er ook non-parametrische statistische methodes waarbij geen veronderstelling wordt gemaakt rond de groepsconditionele verdeling van de variabelen. De meest bekende methode is de kernel discriminant techniek. Voor een goede bespreking hiervan wordt verwezen naar McLachlan (1992). Hieronder zullen twee categorieën parametrische analysetechnieken aan bod komen: discriminantanalyse en regressie met een onafhankelijke dummy variabele.

5 1. Discriminantanalyse R.A. Fisher ontwierp in 1936 deze techniek als multivariate uitbreiding van de univariate variantie analyse. Discriminantanalyse (DA) vergelijkt de verdeling van één of meerdere variabelen bij verschillende groepen of populaties, i.c. de groep van goede en gefaalde kredietnemers. De groepen dienen gekend te zijn, identificeerbaar en mutueel exclusief. Via steekproeftrekking verkrijgt men observaties van de variabelen uit elke groep of populatie. DA is in wezen parametrisch vermits het beroep doet op bepaalde veronderstellingen m.b.t. de verschillen tussen de variabelen gemiddelden (vectoren) en covariantiestructuren tussen de groepen; belangrijk is eveneens dat de verklarende variabelen multivariaat normaal verdeeld zijn (Altman et al. (1981)). Lineaire DA levert in het geval van (1) de volgende discriminant functie op: met Di = discriminantscore van kredietnemer i bo, -.., h = geschatte coëfficiënten. = variabelen of kenmerken van kredietnemer i Het schattingsproces van de coëfficiënten is gericht op het bekomen van de beste discriminatie tussen beide groepen. De toewijzing van een kredietnemer tot een groep, i.e. resp. falend of lopend, gebeurt door zijn discriminantscore Di die in het interval [-m, +m] ligt, te vergelijken met de afkapgrens tussen falende en lopende kredietnemers. Er zal daarop uitgebreid ingegaan worden in punt V.B. 2. Regressie met een afhankelijke dummy variabele a. Lineaire regressie Bij deze methode wordt de kans op faling voorgesteld als een lineaire functie van de verklarende variabelen (zie b.v. Gujurati (1995)): P(y = I I ) = P, () =b, + b,,+...+bk k (3)

6 met P(y = 1 I) = probabiliteit dat een kredietnemer faalt = vector met k kenmerken,,,,...,, b@..., bk = geschatte coëfficiënten,,..., k = variabelen of kenmerken van kredietnemer Hierbij moeten restricties aan en b, opgelegd worden om een output in [0,1] te bekomen3. Een nadeel van deze methode is bovendien dat verondersteld wordt dat het verband tussen de kans op faling en de verklarende variabelen lineair is. Intuïtief wordt aangevoeld dat het gebruik van een sigmoïdale of S-vormige curve een beter beeld kan geven van de realiteit. Dit wordt mogelijk gemaakt door het gebruik van logit of probit analyse. b. Logit analyse Bij logit is het de bedoeling conditionele probabiliteiten te schatten, de zgn. logistieke scores die in het interval [0,1] liggen, op basis van het volgende model (zie b.v. Hosmer en Lemeshow (1989)): De exponent in formule 3 geeft de zgn. logit weer. De schatting van de coëfficiënten gebeurt algemeen o.b.v. de maximum likelihood methode. Hierbij wordt de likelihood function uit onderstaande formule gemaximaliseerd: met p2 (i) = probaliteit dat kredietnemer i faalt b = vector met k te schatten parameters b,, b,..., b, i = vector met kenmerken van kredietnemer i = 1 indien kredietnemer i faalt, zoniet O Y i Logit analyse wordt vaak gebruikt in classificatiestudies omdat het een aantal gunstige kenmerken bezit. O.a. kan hier vermeld worden

7 dat er geen aanpassing van de schattingsmethode vereist is bij disproportionele steekproeven (cfr. Noot 2) aangezien enkel de constante term b, is vertekend. Andere schattingsmethodes vereisen daarentegen wel een aanpassing (Maddala (1992)). c. Probit Analyse Het vertrekpunt hier is dat men de probabiliteit van faling voorstelt door de cumulatieve standaard normaalverdelingsfunctie die een output in het interval [0,1] oplevert (zie b.v. Altman et al. (1981)): De coëfficiënten worden eveneens bepaald a.d.h.v. de maximum likelihood methode. Het verschil tussen het logit en probit model zit in de veronderstelling rond de cumulatieve verdeling van de storingsterm: ui is standaard normaal verdeeld bij probit en logistiek verdeeld bij het logit model. Hoewel het niet kan bewezen worden geldt ook voor deze methode4 dat de coëfficiënten van het model weinig of niet zullen beïnvloed worden door disproportionele steekproeven. De resultaten van logit en probit analyse liggen meestal trouwens zeer dicht bij elkaar (Maddala (1992)). Probit analyse is toegepast door o.a. Zmijewski (1984), Marais et al. (1984), Boyes et al. (1989) en Gentry et al. (1991). Na de hierboven besproken statistische methodes zal hieronder kort worden ingegaan op een aantal recente modelleringstechnieken, die elk een aantal potentiële voordelen inhouden t.o.v. de klassieke methodes. Algemeen kunnen ze onder één noemer worden gebracht, nl. inductieve leer methodes. B. Machine learning Machine learning (ML) is een non-parametrische classificatie techniek gebaseerd op regels of beslissingsbomen. Financiële toepassingen zijn terug te vinden bij o.a. Marais et al. (1984), Frydman et al. (1985), Srinivasan en Kim (1987), Canart (1990), Gentry et al. (1991) en Chung en Tam (1993). ML maakt gebruik van voorbeelden, i.c. kenmerken van kredietnemers, om te komen tot algemene classificatie regels. De voorstelling van deze regels kan gebeuren via een beslissingsboom (decision tree) of een opeenvolging van beslissingsregels

8 (decision rules). De eerste voorstellingswijze is visueel de meest aantrekkelijke en eveneens het gemakkelijkst te interpreteren. Een classificatieboom bestaat uit takken (branches), bladeren (leafs) en knooppunten (nodes). De verzameling voorbeelden of cases, weergegeven door kenmerken (attributen of variabelen) van de steekproef eenheden, wordt sequentieel verdeeld in subsets van cases op basis van een variabele. Daartoe wordt voor deze variabele een afkappunt of splitsingswaarde gezocht die de klassen (i.c. falende en lopende kredietnemers) het best opsplitst. Door deze opsplitsing te maken wordt een beslissingsknooppunt (decision node) gecreëerd. Dit opsplitsingsproces wordt herhaald totdat er voldoende scheiding is ontstaan tussen de klassen. De eindpunten van de boom worden bladeren of leafs genoemd, en de weg die wordt afgelegd om tot zo'n blad te komen is een tak of brunch (Quinlan (1993)). Algemeen zijn er drie fasen te onderscheiden in de constructie van deze bomen (Siegel en Castellan (1988)): 1. selectie van de splitsingswaarden of afkapgrenzen per variabele; 2. beslissing om een knooppunt als eindknooppunt te beschouwen (pruning); 3. toewijzing van een eindknooppunt tot een klasse. Zeer belangrijk is hetpruning-proces waarbij rules of trees vereenvoudigd worden om het overfitting-fenomeen tegen te gaan. Dit treedt op wanneer een model geconstrueerd wordt met zoveel regels dat wel elke onderneming uit de originele steekproef correct geklasseerd wordt, maar dat naar predictie of validering toe veel mindere resultaten geboekt worden ((cfr. punt VI) (Quinlan (1993)). Er zijn een aantal algoritmes ontwikkeld om de 3 fasen stapgewijs proces uit te voeren: CART (Breiman en Stone (1980)), AQ (Michalski en Chilauslq (1980)), ID3 (Quinlan (1983)) en C4.5 (Quinlan (1986)). Uiteraard is deze opsomming niet volledig. Cruciaal bij elk van deze methodes is het criterium waarop de splitsing gebaseerd is. Hier wordt vaak een beroep gedaan op het entropie-concept uit de informatietheorie van Shannon (1948). Er wordt een boom opgesteld die de hoogst mogelijke informatiewaarde of entropie bevat. Dit begrip zal uitgebreid besproken worden in punt V.D. Het Europese STATLOG-projekt, opgestart in oktober 1990 en beëindigd in juni 1993, biedt een overzicht van classificatiemethoden in diverse wetenschapsgebieden. De bestaande ML software krijgt in het

9 STATLOG-project ruime aandacht (Michie et al. (1994)). Een veelbelovende ML methode is het genetisch algoritime. Genetische algoritmen zoeken naar een oplossing voor een probleem door vele kandidaat oplossingen te genereren uit een ruimte bestaande uit alle mogelijke oplossingen. De zoekprocedure is gebaseerd op ideeën afkomstig uit de genetica. Dit ML algoritme bevindt zich nog in een experimentele fase, maar zal naar de toekomst toe ongetwijfeld ruimere bekendheid verwerven in het kredietscoringsonderzoek. C. Neurale netwerken Neurale netwerken zijn computer algoritmen die het menselijke leerproces en de intuïtie nabootsen zonder zich te baseren op een voorgeprogrammeerde kennisbank. Een neuraal netwerk is een sterk vereenvoudigd model van het menselijke zenuwstelsel en vertoont eigenschappen zoals leren, veralgemenen en abstraheren (Hawley et al. (1990)). Neurale netwerken bestaan uit twee essentiële elementen: verwerkingselementen: input, hidden en output units of nodes; interconnecties: verbindingen of connection weights tussen de processing units. Elk venverkingselement ontvangt en combineert input signalen en transformeert die in een output signaal, dat dient als input signaal voor de volgende verwerkingseenheid. De signalen worden door het netwerk gestuurd via gewogen interconnecties tussen de venverkingseenheden. Sinds het midden van de jaren '80 is er een explosie van neurale netwerken die gebruikt worden als classificatie-instrument. Er bestaan verschillende types neurale netwerken, waarvan sommige minder geschikt zijn voor classificatie, maar meer voor clustering of associatieve leerprocessen. Het kent een ruime verspreiding over diverse wetenschapstakken, zoals o.a. spraakherkenning, digitaliseren van handschrift, identificatie van onderzeese objecten en toepassingen in de ruimtevaart. Financiële toepassingen zijn o.a. simulatie van de kapitaalstructuur, beheer van wisselkoersrisico, samenstelling van aandelenportefeuille, cash management en kredietscoring (Hawley et al. (1990)). De netwerken verschillen naargelang het trainingsulgoritme dat de relaties of gewichten bepaalt tussen input elementen (i.c. variabelen m.b.t. de kredietnemer) en output waarden (i.c. lopend of

10 falend). De meest populaire trainingsalgoritmen zijn back propagation en cascade-cowelation (of Cascor). De transformatie van input signalen naar één output signaal wordt uitgevoerd door een niet-lineaire activation function, en neemt vaak de vorm aan van een sigmoïdale, Gaussiaanse of exponentiële functie. Daarnaast zijn er ook voorbeelden van neurale netwerken met een binaire activation function. De activatiewaarde van een node 1 wordt in het geval van een sigmoïdale functie als volgt bepaald (Coats en Fant (1993)) 7 met Y I = activatiewaarde van node 1 I, = connectiegewicht tussen input node i en node 1 4 = waarde van input node i (signaal) De bedoeling van het neurale netwerk algoritme is te komen tot een berekende output die sterk aansluit bij de werkelijke output (falende of lopende kredietnemer). De training van een neuraal netwerk of het leerproces bestaat uit de verandering van de connecties door de optimalisatie van een kostenfunctie (cost function of error function). Een veel gebruikte kostenfunctie is de som van de gekwadrateerde afwijkingen (Michie et al. (1994)). Er bestaat geen formele theorie in verband met de optimale netwerktypologie. Beslissingen in verband met het aantal hidden layers en nodes en de keuze van de activation function moeten dus bepaald worden op louter experimentele basis. De ontwikkeling van neurale netwerken vereist dan ook meer expertise dan het opstellen van statistische modellen. Algemeen geldt wel dat de complexiteit van het netwerk positief gecorreleerd is met interne validiteit, maar negatief met externe validiteit (het zgn. overfitting-probleem). Het grote voordeel van neurale netwerken is dat ze noisy data of onvolledige, foutieve en inconsistente inputgegevens kunnen venverken, nl. door het filteren van de bruikbare informatie (Hawley et al. (1990)). Dit komt immers sterk overeen met de informatie i.v.m. kredietnemers aanwezig in kredietdossiers. Het belangrijkste nadeel bij deze methode is de complexiteit van de interne structuur van het net-

11 werk van interconnecties en de onmogelijkheid om na te gaan welke stappen de inputgegevens afleggen om de output units te bereiken. Dit wordt het black box fenomeen genoemd en is inherent aan neurale netwerken. De enige manier om de consistentie en betrouwbaarheid van het systeem te testen is door de output te bestuderen. Een ander nadeel is de noodzaak aan een groot aantal voorbeelden (i.c. kredietnemers) om het netwerk voldoende te trainen. D. Keuze van de methode Er bestaan dus verschillende methodes om het classificatieprobleem aan te pakken, waarbij de natuurlijke vraag rijst welke methode het meest aangewezen is. Men kan echter niet a priori stellen dat er een methode primeert boven alle andere. Men dient rekening te houden met de voor- en nadelen van elke techniek en deze af te wegen binnen de specifieke probleemsituatie van het onderzoek en de eigenschappen van de dataset. Een leidraad hierbij zijn de ervaringen beschreven in de vakliteratuur binnen het eigen onderzoeksgebied, i.c. de literatuur rond falingspredictie en scoringssystemen. Deze conclusie wordt eveneens getrokken in het STATLOG-projekt (Michie et al. (1994)). Het Europese STATLOG-projekt bestudeert 24 algoritmen die kunnen ondergebracht worden in de hierboven besproken categorieën: klassieke statistische, neurale netwerken en machine learning. Deze algoritmen worden toegepast op 22 datasets uit verschillende wetenschapsdomeinen, die kunnen ondergebracht worden in vier hoofdgroepen: 1. datasets waarbij kosten een belangrijke rol spelen5; 2. kredietdatasets waarmee de beslissing van de analist wordt nagebootst; 3. image datasets (herkenning van beelden, b.v. handschrift); 4. andere datasets (b.v. aidstesten, DNA sequenties, kwaliteitscontrole). Cruciaal voor de keuze van de techniek blijken de specifieke kenmerken van de bestudeerde dataset te zijn, zoals o.a. het aantal variabelen, het meetniveau, de aanwezigheid van missing values (of onbekende waarden), de modelvoorstelling (formule of een set van regels), de mogelijkheid om een kostenfunctie te gebruiken in het schat-

12 tings- en valideringsproces en tot slot de interpreteerbaarheid van de classificatieregel. In Appendix 1 zijn een aantal recente studies uit dit domein chronologisch vermeld, waarbij die verschillende classificatiemethodes met elkaar worden vergeleken. IVO SELECTIE VAN VARIABELEN Het is de bedoeling omvia bovenstaande technieken een model te construeren dat het risico van de kredietnemer zo goed mogelijk in kaart brengt. Daartoe worden relevante kenmerken van de kredietnemer opgenomen als variabelen in het model. A. Welke kandidaat-variabelen? Tot op heden bestaat er geen onderliggende economische theorie voor het bepalen van de relevante beslissingsset, zodat de uitwerking bij de modelbouwer eerder pragmatisch is. De selectie van variabelen zal dus voornamelijk gebeuren op basis van falingsonderzoek uit het verleden en de ervaring van kredietanalisten (Foster (1986)). De elementen waarop de kredietbeslissing gesteund is, worden door Marais et al. (1984) ondergebracht in de volgende categorieën: financiële informatie, betalingshistoriek, kasstroomprojectie en sectortoestand. Uiteraard hoort daar nog de subjectieve beoordeling bij van de ondernemingsleiding en de waardering van de waarborgen. Zoals eerder vermeld is kredietverlening in se toekomstgericht zodat de kredietanalist zoveel mogelijk recente gegevens van de kredietnemer wenst. Dit kan bij de financiële gegevens, i.c. jaarrekeninggegevens, een probleem vormen omwille van het historisch karakter. B. Meetproblematiek Het is niet alleen de bedoeling om de relevante variabelen te selecteren, maar deze tevens zo accuraat mogelijk te meten. Zoals hierboven is gebleken, bestaan er vele mogelijke relevante variabelencategorieën, en dus nog meer mogelijke meetalternatieven.

13 1. Meetniveaus Algemeen kunnen voor de variabelen een aantal meetniveaus onderscheiden worden: 1. nominaal b.v. afzetgebied, sector, jaarrekeningschema; 2. ordinaal b.v. verklaring van de revisor, leeftijd (jong, oud); 3. interval of ratio b.v. schuldgraad, omvang kredietlijn. Sommige variabelen kunnen verschillende meetniveaus aannemen, waardoor ze een andere informatiewaarde krijgen. Een illustratie hiervan is de leeftijd van de onderneming: indien dit gemeten wordt als continue variabele uitgedrukt in jaren, dan veronderstellen de meeste modellen een lineair monotoon verband met risico (i.e. het risico daalt lineair met de leeftijd); indien daarentegen gewerkt wordt met leeftijdsklassen (b.v. jong, oud), dan verliest men weliswaar een deel van de informatie, maar worden daarmee wel eventueel de relevante risicozones aangeduid. Een ander voorbeeld is de financiële hefboom: wanneer de omzetting van interval naar ordinaal niveau (i.e. richting werkt positief of negatief) gebeurt, wordt de nadruk verlegd van de grootte naar de richting van de hefboomwerking. Deze omzetting van interval of ratio naar ordinaal niveau wordt discretionering genoemd. Een probleem dat bij meting van variabelen opduikt is dat van extreme waarnemingen of outliers. Barnett en Lewis (1994) bespreken uitgebreid de univariate en multivariate methodes om deze waarnemingen op te sporen. Een voordeel van discretioneren van continue variabelen is dat daarmee (continue) outliers worden herleid tot de meest extreme klassen. De diverse classificatietechnieken reageren verschillend op de aanwezigheid van outliers. De meetproblematiek is sterk gelieerd met de methodologie en de schattingsmethode die men wil gebruiken. Bij statistische modellen is het immers minder evident om kwalitatieve variabelen op te nemen of variabelen die slechts een beperkt aantal waarden kunnen aannemen. In dit geval moet namelijk steeds met dummy-variabelen gewerkt worden, hetgeen de output minder duidelijk en overzichtelijk maakt. Bovendien kan het gebruik van een hele reeks dummy's zorgen voor een verzadiging van het regressiemodel omdat teveel parameters dienen geschat te worden. Het gebruik van beslissingsbomen of neurale netwerken kan de selectie van kwalitatieve variabelen vergemakkelijken. Beslissingsbo-

14 men kennen echter het tegengesteld probleem dat vooral variabelenklassen als input voor het model fungeren, hetgeen de moeilijkheid oplevert continue variabelen in relevante klassen op te delen zonder dat dit gepaard gaat met informatieverlies. Om dit te vermijden stellen Fayyad en Irani (1996) een methode voor gebaseerd op het entropie-concept. 2. Sectorvergelijking Tot nog toe werd gesproken van het meten van ondernemingskenmerken van de kredietnemer zonder deze te situeren in zijn omgeving. Er bestaat immers een manier om de individuele variabelen van een kredietnemer te koppelen aan de sector waarin deze zich bevindt. Een mogelijkheid bestaat om sectorspecifieke modellen op te stellen, maar hier zit dikwijls het probleem in de afwezigheid van voldoende waarnemingen van gefaalde kredietnemers per sector. Platt en Platt (1990) stellen voor om modellen te schatten met sectorgecorrigeerde financiële ratio's. Zij stellen de volgende methode voor: met xi, sector y i sector y & sectory -- i sectory = sectorgecorrigeerde ratio van kredietnemer i = ratio van kredietnemer i = gemiddelde ratio in sector y Dit levert volgens hen drie voordelen op (Platt en Platt (1991)): e stabielere financiële ratio's6; e stabielere modelparameters (in tijd); o minder afwijking tussen misclassificatiepercentages van de schattings- en valideringssteekproef. Indien de verdeling van de ratio sterk afwijkt van de normaalverdeling kan i.p.v. het gemiddelde ook de mediaan worden gebruikt. Een alternatief voor formule 8 is een standaardisering van de ratio op de volgende manier: - ;,sector y IQR (xsecrory)

15 - sector. y = mediaan van ratio in sector y IQR(secro,.y) = interquartile range of spreiding tussen eerste en derde kwartiel Sectorrelatering zorgt ervoor dat zeer heterogene sectorspecifieke variabelen, die onvoldoende discrimineren tussen individuele falende en lopende kredietnemers, toch zullen opgenomen worden in het model en kunnen bijdragen aan de classificatieresultaten. Deze laatste vaststelling geldt voor alle in hoofdstuk I11 besproken classificatiemodellen. Daarnaast maakt sectorrelatering ook ratiovergelijking van ondernemingen uit verschillende sectoren mogelijk aangezien dezelfde metrische schaal wordt gebruikt voor alle ondernemingen. Het grote discussiepunt bij sectorgerelateerde ratio's blijft de omlijning van de sectoren: Platt en Platt gebruiken de 4-digit SIC indeling, in Europa bestaat een gelijkaardige NACE-indeling en de NBB stelt voor België een hergroepering van jaarrekeningen op basis van 37 PU en 103 meer verfijnde DI-sectoren voor. Aldus is er een keuze voor het niveau sectordetaillering waarvoor er geen optimale beslissing bestaat. C. Selectie van de relevante variabelen In punt 1V.A werden de kandidaat-variabelen omschreven. Het is evident dat niet al deze variabelen significant het risico van de kredietnemer verklaren en dat er dus een selectie moet plaatsvinden. 1. Preliminair Onderzoek Vooreerst kan een preliminair onderzoek uitgevoerd worden: dit bestaat uit univariate testen, het opsporen van collineariteit en het verwerken van missing values. Deze testen zijn vooral van toepassing bij statistische methodes maar kunnen ook nuttig zijn bij de andere beschreven methodes. Bij univariate testen wordt het discriminerend vermogen van elke individuele variabele nagegaan. Bij continue variabelen kan hiervoor bij voorbeeld de two-sample Kolmogorov Smirnov test (cfr. punt V.A) gebruikt worden, bij nominale variabelen en continue variabelen met een beperkt aantal waarden kan men dan een chi-kwadraat-test toepassen. Wel moet steeds voor ogen gehouden worden dat een univar-

16 iaat niet discriminerende variabele in een multivariate context eventueel wel een significante bijdrage kan bieden. Om geen variabelen ten onrechte uit te sluiten is het daarom aangewezen niet te strenge afkapgrenzen te gebruiken. Deze univariate testen worden in de meeste onderzoeken als eerste schiftingsmechanisme aangewend, ongeacht de gekozen schattingsmethode. Bij discriminantanalyse moet daarnaast ook de normaliteitsvoorwaarde van de variabelen nagegaan worden. Collineariteit betekent dat er een lineair verband bestaat tussen de verschillende onafhankelijke variabelen waardoor onstabiliteit van de coëfficiënten kan voorkomen bij statistische modellen (b.v. Greene (1993)). Voor het opsporen van collineariteit kan men verschillende methodes toepassen zoals het gebruikvan correlatiecoëfficiënten, variante inflation factoren (V.I.F.) en condition indices. Voor verdere uitwerking wordt naar gespecialiseerde literatuur verwezen. Het probleem van collineariteit stelt zich niet bij machine learning. De poblematiek van missing values7 kan opgelost worden door de betreffende populatie-eenheden uit de steekproef te verwijderen. Een andere methode bestaat erin om vervangingswaarden te schatten door middel van een lineaire regressie. In deze vergelijking is de variabele met de missing values dan een afhankelijke variabele die verklaard wordt door de andere onafhankelijke variabelen. 2. Variabelenselectie en modelbouw Er is nood aan een selectieprocedure die enkel de meest significante verklaringsvariabelen opneemt in het classificatiemodel. Bij de klassieke statistische technieken wordt hierbij gebruik gemaakt van de stapsgewijze selectie of subset selectie. Deze laatste techniek stelt modellen op bestaande uit alle mogelijke combinaties van variabelen (modellen met 1 variabele, 2 variabelen,...) en is dus zeer rekenintensief. Bij discriminantanalyse worden variabelen stapsgewijze toegevoegd op basis van criteria voor Wilk's h of partiële F-ratio's. Bij methodes waarbij de coëfficiënten bepaald worden door de maximum likelihood methode is het gebruikelijk om telkens deze variabele toe te voegen die het meest significant is volgens de scoretest. Daarnaast wordt er door de likelihood ratio test (cfr. punt V.C.2) nagegaan of geen variabelen uit het model kunnen verwijderd worden. Voor een verdere uitwerking van deze testen wordt opnieuw naar gespecialiseerde literatuur verwezen.

17 Bij de klassieke statistische methodes zijn er tevens significantietoetsen aanwezig voor de geschatte parameters zoals de Waldtest en scoretest (Huberty (1994)). Daarnaast worden de variabelen waarvan de coëfficiënten een contra-intuïtief teken hebben, verwijderd (Altman et al. (1994)). Bij machine learning wordt vaak het information gain criterium gebruikt om variabelen toe te voegen aan het model (cfr. punt VD). Hier wordt niet de mogelijkheid geboden de verklaringskracht per individuele variabele na te gaan. Wel kunnen significantietesten per brunch of per decision rule uitgevoerd worden. In de meeste onderzoeken met betrekking tot neurale netwerken, worden vooral de meest significante variabelen geselecteerd die reeds opgenomen werden in eerder gebruikte statistische modellen. Er bleek geen eenduidigheid te bestaan over andere beperkende of versoepelende criteria. Bij neurale netwerken is het eveneens onmogelijk de significantie te meten van de connectiegewichten tussen de verschillende knooppunten. D. Verklarende factoren voor de insignificantie van variabelen Foster (1986) geeft een overzicht van verklaringen voor de insignificantie van bepaalde variabelen: 1. Prescreening: Zoals vermeld in hoofdstuk I1 wordt de steekproef meestal samengesteld op basis van reeds bestaande kredietnemers. In de steekproef zullen er zich dus relatief minder ondernemingen bevinden die zeer slecht scoren op criteria die door analisten vaak gehanteerd worden. Dit kan als implicatie hebben dat bepaalde variabelen die in se sterk discrimineren tussen lopende en falende kredietnemers niet zullen opgenomen worden in het model. Door het prescreening-probleem kan de externe validiteit van het model niet gewaarborgd worden. 2. manipulatie door de kredietnemer: Het kan voorkomen dat de kredietnemer zelf bepaalde variabelen manipuleert in zijn voordeel. Voorbeelden hiervan zijn gemanipuleerde afschrijvingen, resultaat- en kasstroomprojecties. 3. slechte steekproef: De steekproef dient steeds respresentatief te zijn voor de populatie van kredietnemers, zoniet kan het voorkomen dat een significante variabele in de populatie, niet signi-

18 ficant is in de steekproef. De random selectie verzekert de representativiteit. 4. meetfouten: cfr. punt 1V.B. 5. gecorreleerde i/ariabelea: cfr. punt 1V.C. 1. V. PERFORMANTIECRITERIA De performantie van een classificatiemodel duidt aan hoe het model presteert en wordt in de econometrische literatuur aangeduid met goodness-offit. De context waarbinnen deze prestatie bekeken wordt, kan verschillend zijn: de schattingsomgeving (i.e. kredietnemers gebruikt bij het opstellen van het model) of een valideringsdataset. In dit punt wordt het gebruik van 4 soorten performantiemaatstaven bij de oorspronkelijke steekproef behandeld. De valideringsaspecten worden besproken in punt VI. A. Maatstaven gebaseerd op een classificatieregel Aangezien classificatie de centrale doelstelling is van de ontwikkelde modellen is deze performantiemaatstaf de meest gebruikte in het kredietbeoordelingsonderzoek. Op basis van een classificatievegel wordt een kredietnemer toegewezen tot de falende of de lopende categorie. Bij binaire scoremodellen zoals beslissingsbomen en neurale netwerken met binaire transformatiefuncties gebeurt de classificatie rechtstreeks, hoeft dus geen afkapgrens bepaald te worden en kan de accuraatheid van het model direct bepaald worden. Binnen een continue scoremodel kan de classificatieregel algemeen als volgt worden voorgesteld: 1 als de score j, van kredietnemer i >y5'; = i O als de score j; van kredietnemer i (10) l y'b met * Y ji Y = toegewezen klasse van kredietnemer i = falingsscore van kredietnemer i (b.v. logit score) = afkapgrens, treshold of cutoffpoint

19 Een classificatieregel verdeelt de scores dan in twee groepen8 waarbij twee types misclassificaties optreden: 1. Type I fout: de fout dat men een gefaalde kredietnemer klasseert als een lopende; 2. Type II fout: de fout dat men een lopende kredietnemer klasseert als een falende. Het is de bedoeling deze afkapgrens te bepalen waarbij beide fouten geminimaliseerd worden. Er spelen echter nog twee factoren een rol bij de bepaling van het optimale afkappunt, nl. de populatieproporties en de misclassificatiekosten. Depopulatieproporties (cfr. punt 11) geven de frequentie van falingen in de populatie kredietnemers aan. Men heeft de falende en de lopende populatieproportie, waarbij deze laatste soms tot 50 keer groter is dan de eerste. Het model is gebaseerd op steekproeven lopende en gefaalde kredietnemers waarvan de proporties niet overeenstemmen met deze uit de populatie, i.e. de gefaalde gevallen zijn oververtegenwoordigd. Wanneer men het classificatiemodel toepast op de werkelijke populatie moet gecorrigeerd worden voor deze scheeftrekking: in werkelijkheid (i.e. de populatie) komen veel minder falende kredietnemers voor dan in de steekproef. De misclassijïcatiekosten9 zijn in de context van kredietverlening eveneens sterk verschillend voor beide fouten: een falende kredietnemer foutief als lopend klasseren weegt vaak zwaarder door dan een lopende als falend klasseren. Volgens Altman (1980) kiinnen de volgende componenten van de type I kost onderscheiden worden: e recuperatieratio (terugwinning via waarborgen); e verloren interestopbrengsten op het nog uitstaand bedrag; 8 opportuniteitskost van tijd die gespendeerd wordt aan de afhandeling van slechte debiteuren; e juridische kosten (o.a. advocaatkosten). De type I1 kost is heel wat moeilijker te kwantificeren aangezien meestal geen informatie bijhouden wordt over de verworpen kredietaanvragen. Deze kost is een opportuniteitskost en is opgebouwd uit de volgende componenten: a verloren winstmarge (t.o.v. een referentierente of kapitaalkost); e verloren winstmarges op toekomstige kredieten; e verloren winstmarges op eventuele andere verrichtingen.

20 Marais et al. (1984) spreken van de lossfunction, i.e. een matrix opgesteld door kredietanalisten met de relatieve misclassificatiekosten. Deze kosten kunnen sterk verschillen naargelang de specifieke kredietnemer. Onderstaande formule bundelt al deze bedenkingen om te komen tot de te minimaliseren kostenfunctie (Koh (1992)): met expected cost = EC = 7 t ~ ~ l ~ Type C I ~ + ~ nlopcdp,, a Type II (11) fai, I, = populatieproportie falende resp. lopende kredietnemers C,, C,, = kost van Type I en Type I1 fout. Type I, Type 11 = misclassificatiepercentages ten gevolge van type I, resp. type I1 fouten. Steele (1995) vermeldt dat tot nog toe weinig aandacht besteed is aan de invloed van misclassificatiekosten en populatieproporties, de zogenaamde subjectieve factoren, op het afkappunt. Een uitzondering n C~ypr~ hierop is Koh (1992), die een reeks kostenverhoudingen - voor- C~vm II opstelt en daarbij telkens liet optimale afkappunt berekenty~en model kan bij voorbeeld beter presteren dan een ander bij een kostenverhouding van 1:1, maar minder (i.e. een grotere EC vertonen) bij een andere verhouding. Hierdoor wordt duidelijk dat de keuze van het beste model voor een groot deel wordt bepaald door het risicogedrag van de kredietbeslisser, nl. hoe staat hij t.o.v. de foutkosten. Er bestaat een mogelijkheid om - zonder rekening te houden met de subjectieve factoren - de classificatieperformantie van een model statistisch te testen. De significantie wordt getoetst met de Kolmogor- OV-Smirnov test. De Kolmogorov-Smirnov two-sample test is een nietparametrische test die nagaat of twee onafhankelijke steekproeven getrokken zijn uit dezelfde populatie (of populaties met dezelfde verdeling). De one-tailed KS two-sample test wordt gebruikt om te bepalen of de observaties in de populatie waaruit één steekproef (b.v. de falende steekproef) werd getrokken stochastisch groter zijn dan de waarden van de populatie waaruit de tweede steekproef werd getrokken (Siegel en Castellan (1988)). Toegepast op kredietscoring betekent dit het volgende: De KStest gaat na of de of de scores van de falende kredietnemers signifi-

21 cant hoger liggen dan deze van de lopende kredietnemers. De KStest maakt gebruik van de cumulatieve verdelingsfuncties van de kredietscores van de lopende (F,,) en de falende kredietnemers (Ff,,). Het grootste verschil tussen beide functies drukt uit of de steekproeven al dan niet uit dezelfde populatie komen. waarbij Dlol,,fal = max [F,, (Y) - Ff.1 (Y) l met DloP, fa, = maximaal verschil tussen lopende en falende scoreverdeling Fl, (Y) = cumulatieve verdeling van de scores y van lopende kredietnemers Ff,, (Y) = cumulatieve verdeling van de scores y van falende kredietnemers no J y11 = aantal lopende resp. gefaalde kredietnemers De bovenstaande testgrootheid benadert een %'-verdeling met 2 vrijheidsgraden wanneer de steekproeven groot zijn. De score waarbij het maximaal verschil tussen de lopende en falende cumulatieve distributiefunctie voorkomt, is tevens het optimale afkappunt op basis van de minimalisatie van de misclassificatiefouten (en dus met abstractie van de subjectieve factoren). Dit verband wordt toegelicht in Appendix 2. B. Maatstaven gebaseerd op het ongelijkheidsprincipe De performantie van een model kan ook grafisch aangetoond worden door de constructie van de trade-offfunctie. De cumulatieve waarschijnlijkheidsfuncties voor lopende en falende ondernemingen gemeten bij elke score1 worden dan gesitueerd in een assenstelsel met als -as de type I-fout (Ff,,(y)) en als Y-as de type 11-fout (l-f,jy)) (Steele (1995)). Een model presteert "beter" naarmate de curve dichter bij de assen ligt. Het best presterende model en meest discriminerende model vertoont een trade-off functie die langs de assen loopt. Een perfect model classificeert immers elke 'falende' kredietnemer als wer-

22 kelijk falend (de type-i fout is dus steeds 0) en een lopende onderneming als lopend (de type I1 fout is eveneens O voor elke waarde). Het slechtst presterende model (i.e. een model dat geen onderscheid kan maken tussen falende en lopende kredietnemers) verloopt daarentegen lineair dalend van 100% type IS tot 100% type I. In dit geval vallen FfL,,(y) en F,,(y) immers samen (voor elke score zijn er evenveel lopende als falende kredietnemers) waardoor de type I en type SI-fouten voor elke score steeds complementair zijn. Elk punt op de curve vertegenwoordigt een optimaal afkappunt bij een gegeven foutkost (C,,,, I en CDp, Ir) en populatieproporties (q,, en n,,)). De procedure voor het bepalen van het optimale afkappunt rekening houdend met de foutkost en de populatieproporties is opgenomen in figuur 1. In het voorbeeld wordt uitgegaan dat een standaardkrediet van 500 BEF voor 70% van de hoofdsom verloren gaat bij een faling van de kredietnemer en de commerciële kost 1,2% bedraagt (i.e. 6 BEF op 500 BEF). De populatieproporties worden resp. 98% (lopend) en 2% (falend) verondersteld. Deze subjectieve factoren worden vervolgens gecombineerd in het derde kwadrant terwijl de trade-offfunctie in het eerste kwadrant van Figuur 1 voorgesteld wordt. FIGUUR 1 %de-offfunctie tussen Type I en Type I1 misclassificatiefout en bepaling van het optimaal afkappunt. Type I : 11% ~(&e l/)= 8 BEF prlor(lal)= 2% prior(1op)- 98%

23 De ongelijkheid tussen het geschatte model (de curve) en het slechtst mogelijke model is een geaggregeerde performantiemaatstaf, en wordt voorgesteld door de ginicoëficiëntl l. Deze ligt tussen O en 1 en is gelijk aan de verhouding van enerzijds de oppervlakte gevat tussen de model-curve en het slechtste model (i.e. de gearceerde oppervlakte in Figuur 2) en anderzijds de oppervlakte tussen het slechtste en beste model (i.e. de driehoek met de assen als benen). FIGUUR 2 Het beste, slechtste en geschatte classificatiemodel Geschatte Model Type I fouten

24 Een empirische benadering van de ginicoëfficiënt is weergegeven in onderstaande formule: i> Yr = type I en type I1 fout bij afkapgrens i,,,, 1 Y, = maximaal type I en type 11, i.e. elk 100% Er bestaan eveneens mogelijkheden voor de berekening van de spreiding of variantie van de ginicoëfficiënt. Dit levert een beeld van de betrouwbaarheid van de schatting op. Een empirisch georiënteerde methode wordt voorgesteld door Wygard en Sandström (1989): via jackknifing (cfr. punt VI.B.3) of de systematische weglating van één observatie wordt de ginicoëfficiënt telkens herrekend. De schatting van de variantie ziet er als volgt uit: met n-l n (GINI) = - C (GINII') - GINI" )2 (14) n ;=I ôj~,,(gi~i) = geschatte variantie van de ginicoëfficiënt GINI@) = geschatte ginicoëfficiënt bij weglating van observatie i G INI~) = gemiddelde van alle GI&I(~) Bovenstaande definitie van de ginimaatstaf is slechts één mogelijke formulering van ongelijkheid. Zeer vaak wordt in classificatiestudies beroep gedaan op het entropieconcept van Theil. Dit zal hieronder verder worden besproken. In punt VB werd de KS-test aangehaald als significantietoets van de afstand tussen de cumulatieve verdeling van de lopende scores en deze van de falende scores. Bij vergelijking van verschillende modellen zal bij het best presterende model het grootste verschil tussen de

25 cumulatieve verdeling van de lopende en falende ondernemingen genoteerd worden. Dit houdt verband met de ongelijkheid tussen twee verdelingen en kan dus ook onder de huidige performantiecategorie gebracht worden. C. R2-type maatstaven Dit type maatstaf duidt het percentage van de variantie aan dat verklaard wordt door het model. Dit gebeurt door vergelijking van de voorspelde waarden (i.e. falingsscores die in het interval [0,1] liggen) met de werkelijke waarden (i.e. O of I) van de afhankelijke variabele. Deze maatstaf kan dus niet gebruikt worden bij discriminantmodellen die een output tussen -m en +m opleveren en waarbij ook geen variantie hoeft verklaard te worden. Bij deze discriminantmodellen kan men wel eventueel gebruik maken van eenzgn. count (cfr. punt V.C.4). In de context van twee-groepen classificatie zijn er een aantal alternatieve R' maatstaven. Altman et al. (1981) merken op dat deze maatstaven gemakkelijk interpreteerbaar zijn voor de vergelijking van verschillende modellen gebaseerd op dezelfde steekproef. De resultaten zijn echter sterk afhankelijk van zowel de steekproef als de distributie van de verklarende variabelen. 1. Maatstaven gebaseerd op residuen Een residu is het verschil tussen een voorspelde en een werkelijke waarde: ~(y,-j,)~. Er bestaan voor kwalitatieve modellen een aantal dergelijke maatstaven. De meest gebruikelijke is deze van Efron (Maddala (1991)): In bovenstaande formule wordt de gekwadrateerde fout vermenigvuldigd met een factor waarbij n, het aantal gefaalde kredietnemers (met y= l) en n, het aantal lopende kredietnemers (met y=o) voorstelt. Domencich en McFadden (1975) verfijnen de bovenstaande R' door een gelijkaardig residu te construerenvoor het zogenaamd naïef model, i.e. een model waarin alle observaties dezelfde probabiliteiti, hebben doordat de verklarende variabele enkel uit een constante bestaat.

26 R2 uit formule 15 wordt voor dit naief model bekomen door 9, in de teller te vervangen door 9, die gelijk is aan de proportie falende kredietnemers in de steekproef. De McFadden R2 ziet er als volgt uit (Altman et al. (1981)): -+ (y1 -Y,) 2 Bovenstaande maatstaven zijn echter minder betrouwbaar in kleinere steekproeven, zodat McFadden zelf een meer robuuste maatstaf voorstelt, gebaseerd op de log-likelihoodfunctie. 2. Maatstaven gebaseerd op likelihood ratios Deze maatstaf kan enkel gebruikt worden modellen waarbij de coëfficiënten bepaald worden op basis van de Maximum Likelihood Methode.Tot deze categorie behoren de logit en probit-modellen die eerder besproken werden (cfr. punt III.A.2.b en III.A.~.c)'~. De log-likelihood functie is de natuurlijke logaritme van formule 5: waarbij n, het aantal gefaalde kredietnemers (met y=l) en n, het aantal lopende kredietnemers (met y=o) voorstelt. Net zoals hierboven wordt deze grootheid vervolgens opgesteld voor het naïef model door in formule 17 de scorej, te vervan~door de proportie falende elementen in de steekproef. Dit levert In L op (Altman et al. (1981)). De likelihood ratio test is gebaseerd op het verschil tussen de log-likelihood van het geschatte en het naïef model, en is x2-verdeeld met het aantal variabelen als vrijheidsgraden (of het aantal parameters k min 1):

27 De zogenaamde McFadden pseudo is een alternatief voor bovenstaande test en is weergegeven door de volgende formule (Maddala (1991)): Fz~(F~)+ Z~n(1-y~) i=l (19) McFadden pseudo R' = l - '=' n, ln(j) -t n, ln(1-9) Dezepseudo index heeft nog maar weinig te maken met de R2 binnen de context van lineaire regressie. 3. Hosmer-Lemeshow testgrootheid Deze testgrootheid wijkt af van de klassieke R2 berekening, maar is wel gebaseerd op de afwijking tussen geobserveerde y's (O of 1) en geschatte y's. De techniek is enkel van toepassing op modellen die een falingsprobabiliteit opleveren tussen O en 1 (Hosmer en Lemeshow (1989)). Het vertrekpunt is een rangschikking van de n geschatte pi waarden, die ingedeeld worden ing groepen, de zgn. ~isico~roe~enl~. Binnen elkegroep wordt vervolgens het aantal gefaalde kredietnemers bepaald en omgezet in een proportie 0. De verwachte proportie E is gebaseerd op de geschatte scores, vb. logit scores (liggen tussen O en l). Deze grootheden O en E worden voor elke risicogroep als volgt berekend: waarbij nk het aantal waarnemingen binnen de risicogroep k voorstelt. De Hosmer-Lemeshow testgrootheid HL wordt hieronder weergegeven:

ISSN 0772-7674. rijdschrif t.- voor

ISSN 0772-7674. rijdschrif t.- voor rijdschrif t.- voor ISSN 0772-7674 Driemaandelijks publikatie van de Faculteit der Economische en Toegepaste Economische Wetenschappen van de Katholieke Universiteit Leuven, uitgegeven met medewerking

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Continuous Learning in Computer Vision S.L. Pintea

Continuous Learning in Computer Vision S.L. Pintea Continuous Learning in Computer Vision S.L. Pintea Continuous Learning in Computer Vision Natura non facit saltus. Gottfried Leibniz Silvia-Laura Pintea Intelligent Sensory Information Systems University

Nadere informatie

Oplossingen Datamining 2II15 Juni 2008

Oplossingen Datamining 2II15 Juni 2008 Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

College 4 Inspecteren van Data: Verdelingen

College 4 Inspecteren van Data: Verdelingen College Inspecteren van Data: Verdelingen Inleiding M&T 01 013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek.

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 6 mei 2010 1 1 Introductie De Energiekamer

Nadere informatie

Data Mining: Classificatie

Data Mining: Classificatie Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot EWMA Control Charts in Statistical Process Monitoring Inez M. Zwetsloot Samenvatting EWMA Regelkaarten in Statistische Procesmonitoring

Nadere informatie

Summary in Dutch 179

Summary in Dutch 179 Samenvatting Een belangrijke reden voor het uitvoeren van marktonderzoek is het proberen te achterhalen wat de wensen en ideeën van consumenten zijn met betrekking tot een produkt. De conjuncte analyse

Nadere informatie

Samenvatting. geweest als de gemaakte keuzes, namelijk opereren. Het model had daarom voor deze patiënten weinig toegevoegde waarde.

Samenvatting. geweest als de gemaakte keuzes, namelijk opereren. Het model had daarom voor deze patiënten weinig toegevoegde waarde. Klinische predictiemodellen combineren patiëntgegevens om de kans te voorspellen dat een ziekte aanwezig is (diagnose) of dat een bepaalde ziekte status zich zal voordoen (prognose). De voorspelde kans

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking Gegevensverwerving en verwerking Staalname - aantal stalen/replicaten - grootte staal - apparatuur Experimentele setup Bibliotheek Statistiek - beschrijvend - variantie-analyse - correlatie - regressie

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Wetenschappelijk Instituut Volksgezondheid. Verwerking van gecensureerde waarden

Wetenschappelijk Instituut Volksgezondheid. Verwerking van gecensureerde waarden Wetenschappelijk Instituut Volksgezondheid Dienst Kwaliteit van medische laboratoria Verwerking van gecensureerde waarden 1 ste versie Pr. Albert (februari 2002) 2 de versie Aangepast door WIV (toepassingsdatum:

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Methodebeschrijving. Centraal Bureau voor de Statistiek. Nieuwbouwwoningen; outputprijsindex bouwkosten, 2010 = 100

Methodebeschrijving. Centraal Bureau voor de Statistiek. Nieuwbouwwoningen; outputprijsindex bouwkosten, 2010 = 100 Methodebeschrijving Nieuwbouwwoningen; outputprijsindex bouwkosten, 2010 = 100 1. Inleiding Dit is een methodebeschrijving van de statistiek Nieuwbouwwoningen; outputprijsindex bouwkosten (O-PINW). De

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende

Nadere informatie

Hoe goed of slecht beleeft men de EOT-regeling? Hoe evolueert deze beleving in de eerste 30 maanden?

Hoe goed of slecht beleeft men de EOT-regeling? Hoe evolueert deze beleving in de eerste 30 maanden? Hoe goed of slecht beleeft men de EOT-regeling? Hoe evolueert deze beleving in de eerste 30 maanden? Auteur: Ruben Brondeel i.s.m. Prof. A. Buysse Onderzoeksvraag Tijdens het proces van een echtscheiding

Nadere informatie

beoordelingskader zorgvraagzwaarte

beoordelingskader zorgvraagzwaarte 1 beoordelingskader zorgvraagzwaarte In dit document geven we een beoordelingskader voor de beoordeling van de zorgvraagzwaarte-indicator. Dit beoordelingskader is gebaseerd op de resultaten van de besprekingen

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00 3de bach TEW KBM Theorie Q www.quickprinter.be uickprinter Koningstraat 13 2000 Antwerpen 168 6,00 Online samenvattingen kopen via www.quickprintershop.be BOEK 1: ENKELVOUDIGE EN MEERVOUDIGE REGRESSIE

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011 Meten: algemene Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011 OPZET College 1: Algemene College 2: Meting van attitudes (ISSP) College 3: Meting van achtergrondvariabelen via MTMM College 4:

Nadere informatie

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Dat economie in essentie geen experimentele wetenschap is maakt de econometrie tot een onmisbaar

Nadere informatie

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK 1 1. INLEIDING Parametrische statistiek: Normale Verdeling Niet-parametrische statistiek: Verdelingsvrij Keuze tussen de twee benaderingen I.

Nadere informatie

Klantonderzoek: statistiek!

Klantonderzoek: statistiek! Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van

Nadere informatie

Hoofdstuk 7: Selectie van steekproeven

Hoofdstuk 7: Selectie van steekproeven Hoofdstuk 7: Selectie van steekproeven Inhoudsopgave 7.1. Inleiding... 2 7.1.1. Onderzoekseenheden, populatie en steekproef... 2 Onderzoekseenheden op verschillende niveaus... 2 7.1.2. Steekproeven: twee

Nadere informatie

Begrippenlijst Anders Dit is onderzoek

Begrippenlijst Anders Dit is onderzoek Begrippenlijst Anders Dit is onderzoek Begrippenlijst door F. 1080 woorden 15 april 2016 9,1 2 keer beoordeeld Vak Anders Dit is onderzoek! 2.4 Steekproef Onderzoek met een kleine groep met de bedoeling

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Wat betekent het twee examens aan elkaar te equivaleren?

Wat betekent het twee examens aan elkaar te equivaleren? Wat betekent het twee examens aan elkaar te equivaleren? Op grond van de principes van eerlijkheid en transparantie van toetsing mogen kandidaten verwachten dat het examen waarvoor ze opgaan gelijkwaardig

Nadere informatie

College Week 4 Inspecteren van Data: Verdelingen

College Week 4 Inspecteren van Data: Verdelingen College Week 4 Inspecteren van Data: Verdelingen Inleiding in de Methoden & Technieken 2013 2014 Hemmo Smit Dus volgende week Geen college en werkgroepen Maar Oefententamen on-line (BB) Data invoeren voor

Nadere informatie

Samenvatting Nederlands

Samenvatting Nederlands Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.

Nadere informatie

1. Statistiek gebruiken 1

1. Statistiek gebruiken 1 Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................

Nadere informatie

Samenvatting (Summary in Dutch)

Samenvatting (Summary in Dutch) In dit proefschrift worden een aantal psychometrische methoden beschreven waarmee de accuratesse en efficientie van psychodiagnostiek in de klinische praktijk verbeterd kan worden. Psychodiagnostiek wordt

Nadere informatie

Statistische variabelen. formuleblad

Statistische variabelen. formuleblad Statistische variabelen formuleblad 0. voorkennis Soorten variabelen Discreet of continu Bij kwantitatieve gegevens gaat het om meetbare gegeven, zoals temperatuur, snelheid of gewicht. Bij een discrete

Nadere informatie

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA 16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

DEEL 1 Probleemstelling 1

DEEL 1 Probleemstelling 1 DEEL 1 Probleemstelling 1 Hoofdstuk 1 Van Probleem naar Analyse 1.1 Notatie 4 1.1.1 Types variabelen 4 1.1.2 Types samenhang 5 1.2 Sociaalwetenschappelijke probleemstellingen en hun basisformat 6 1.2.1

Nadere informatie

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Examen Kansrekening en Wiskundige Statistiek: oplossingen Examen Kansrekening en Wiskundige Statistiek: oplossingen S. Vansteelandt Academiejaar 006-007 1. Een team van onderzoekers wil nagaan of een bepaald geneesmiddel Triptan meer effectief is dan aspirine

Nadere informatie

Statistische methoden en technieken tentamen

Statistische methoden en technieken tentamen Statistische methoden en technieken tentamen Course information C OURSE BKB0019T AC ADEMIC YEAR 2017-2018 EC 3 LANGUAGES Nederlands PROGRAMME bachelor 2 / Bedrijfskunde (Business Administration) pre-master

Nadere informatie

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent. Hoofdstuk 12 : Regressie en correlatie Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Regressie en correlatie p 1/26 Regressielijn Vraag : vind het

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen. Tentamen Inleiding Intelligente Data Analyse Datum: 19-12-2002 Tijd: 9.00-12.00, BBL 420 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Exponentiële Functie: Toepassingen

Exponentiële Functie: Toepassingen Exponentiële Functie: Toepassingen 1 Overgang tussen exponentiële functies en lineaire functies Wanneer we werken met de exponentiële functie is deze niet altijd gemakkelijk te herkennen. Daarom proberen

Nadere informatie

Toegepaste Statistiek, Week 3 1

Toegepaste Statistiek, Week 3 1 Toegepaste Statistiek, Week 3 1 In Week 2 hebben we toetsingstheorie besproken mbt een kwantitatieve (ordinale) variabele G, en met name over zijn populatiegemiddelde E(G). Er waren twee gevallen: Er is

Nadere informatie

Samenvatting (in Dutch)

Samenvatting (in Dutch) Samenvatting (in Dutch) Geordende latente klassen modellen voor nonparametrische itemresponstheorie Een geordend latente klassen model kan als een nonparametrisch itemresponstheorie model beschouwd worden.

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor 4 juni 2012 Het voorkomen van ziekte kan op drie manieren worden weergegeven: - Prevalentie - Cumulatieve incidentie - Incidentiedichtheid In de

Nadere informatie

Inleiding statistiek

Inleiding statistiek Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) DATA STRUKTUUR Afhankelijke variabele: Eén kontinue variabele Onafhankelijke variabele(n): - één discrete variabele: één gecontroleerde factor - twee discrete variabelen:

Nadere informatie

Samenvatting (Summary in Dutch)

Samenvatting (Summary in Dutch) Samenvatting (Summary in Dutch) Dit proefschrift is een verzameling van vijf essays over verschillende onderzoeksproblemen met betrekking tot discrete-keuzemodellen. De vijf essays worden behandeld in

Nadere informatie

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE Rapport aan isterie van de Vlaamse Gemeenschap Departement Leefmilieu en Infrastructuur Administratie Waterwegen en Zeewezen AFDELING WATERWEGEN KUST VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Optimalisatie van de eerste klinische studies in bi ondere patie ntengroepen: op weg naar gebruik van semifysiologische

Optimalisatie van de eerste klinische studies in bi ondere patie ntengroepen: op weg naar gebruik van semifysiologische Nederlandse samenvatting Optimalisatie van de eerste klinische studies in bi ondere patie ntengroepen: op weg naar gebruik van semifysiologische farmacokinetische modellen Algemene inleiding Klinisch onderzoek

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren Hoofdstuk 18 Verbanden tussen variabelen vaststellen en interpreteren Analyse van verbanden Analyse van verbanden: bij de analyse van verbanden stel je vast of er een stabiel verband bestaat tussen twee

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

Statistiek: Vorm van de verdeling 1/4/2014. dr. Brenda Casteleyn

Statistiek: Vorm van de verdeling 1/4/2014. dr. Brenda Casteleyn Statistiek: Vorm van de verdeling /4/204 . Theorie Enkel de theorie die nodig is voor de oefeningen is hierin opgenomen. Scheefheid of asymmetrie Indien de meetwaarden links van de mediaan meer spreiding

Nadere informatie

3. Structuren in de taal

3. Structuren in de taal 3. Structuren in de taal In dit hoofdstuk behandelen we de belangrijkst econtrolestructuren die in de algoritmiek gebruikt worden. Dit zijn o.a. de opeenvolging, selectie en lussen (herhaling). Vóór we

Nadere informatie

Les 1: de normale distributie

Les 1: de normale distributie Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

variantie: achtergronden en berekening

variantie: achtergronden en berekening variantie: achtergronden en berekening Hugo Quené opleiding Taalwetenschap Universiteit Utrecht 8 sept 1995 aangepast 8 mei 007 1 berekening variantie Als je de variantie met de hand moet uitrekenen, is

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

SPSS. Statistiek : SPSS

SPSS. Statistiek : SPSS SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik

Nadere informatie

Rapport. Rapportage Bijzondere Bijstand 2013

Rapport. Rapportage Bijzondere Bijstand 2013 w Rapport Rapportage Bijzondere Bijstand 2013 T.J. Slager en J. Weidum 14 november 2014 Samenvatting In 2013 is er in totaal 374 miljoen euro door gemeenten uitgegeven aan bijzondere bijstand. Het gaat

Nadere informatie

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &

Nadere informatie

Fish Based Assessment Method for the Ecological Status of European Rivers (FAME)

Fish Based Assessment Method for the Ecological Status of European Rivers (FAME) Fish Based Assessment Method for the Ecological Status of European Rivers (FAME) Overleg i.v.m. verdere verfijning en validatie van de nieuw ontwikkelde visindex op Europese schaal (EFI = the European

Nadere informatie

A. Week 1: Introductie in de statistiek.

A. Week 1: Introductie in de statistiek. A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.

Nadere informatie

4. Resultaten. 4.1 Levensverwachting naar geslacht en opleidingsniveau

4. Resultaten. 4.1 Levensverwachting naar geslacht en opleidingsniveau 4. Het doel van deze studie is de verschillen in gezondheidsverwachting naar een socio-economisch gradiënt, met name naar het hoogst bereikte diploma, te beschrijven. Specifieke gegevens in enkel mortaliteit

Nadere informatie

uitwerkingen voorbeeldexamenopgaven statistiek wiskunde A havo

uitwerkingen voorbeeldexamenopgaven statistiek wiskunde A havo uitwerkingen voorbeeldexamenopgaven statistiek wiskunde A havo uitwerkingen voorbeeldexamenopgaven statistiek wiskunde A havo - 5-6-205 lees verder Kijkcijfers maximumscore 4 Het toepassen van de formule

Nadere informatie

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items 1. Gegeven zijn de itemsores van 8 personen op een test van 3 items item Persoon 1 2 3 1 1 0 0 2 1 1 0 3 1 0 0 4 0 1 1 5 1 0 1 6 1 1 1 7 0 0 0 8 1 1 0 Er geldt: (a) de p-waarden van item 1 en item 2 zijn

Nadere informatie

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek Hoofdstuk 19 Voorspellende analyse bij marktonderzoek Voorspellen begrijpen Voorspelling: een uitspraak over wat er naar verwachting in de toekomst zal gebeuren op basis van ervaringen uit het verleden

Nadere informatie

Voorspellen van webwinkel aankopen met een Random Forest

Voorspellen van webwinkel aankopen met een Random Forest Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen

Nadere informatie

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen Tom Heskes IRIS, NIII Inhoud De bouwstenen van het zenuwstelsel: neuronen en synapsen Complex gedrag uit eenvoudige elementen McCulloch-Pitts neuronen Hopfield netwerken Computational neuroscience Lerende

Nadere informatie