Stochastische sterftemodellen op basis van mortality improvement factoren

Transcriptie

1 Stochastische sterftemodellen op basis van mortality improvement factoren Ryan Tjin ( ) Universiteit van Amsterdam, Faculteit Economie en Bedrijfskunde Bachelorscriptie Actuariële Wetenschappen Begeleider: Prof. dr. ir. M.H. Vellekoop

2 Abstract Sinds de 17 e eeuw is er sprake geweest van een aanzienlijke verbetering in de levensverwachting van de mens, hier lijkt geen eind te komen aan. Inzichten in sterfte zijn van cruciaal belang voor de staat, pensioenfondsen, verzekeraars en financiële instellingen. Daarom worden er al eeuwenlang sterftemodellen gemaakt, waarvan de meeste de de centrale sterftekans proberen te voorspellen. Er zijn een aantal onderzoeken die aan de hand van mortality improvement rates (MIR) bepaalde sterftetrends aantonen. Echter zijn er nauwelijks sterftemodellen die MIR proberen te voorspellen. Dit onderzoek heeft getracht de vraag te beantwoorden of de implementatie van mortality improvement rates leidt tot betere projecties van sterftedata. Om dit te onderzoeken zijn MIR geïmplementeerd in het klassieke Lee- Cartermodel. Het klassieke Lee-Cartermodel en zijn MIR implementatie zijn daarna met elkaar vergeleken door hun toekomstige projecties te vergelijken en backtests uit te voeren. Uit deze vergelijkingen is geen eenduidig antwoord op de onderzoeksvraag gekomen. Wel wordt het klassieke Lee-Cartermodel geprefereerd boven zijn MIR implementatie, omdat er bij het projecteren van MIR voor sommige leeftijden stijgende sterftekansen worden geprojecteerd. 1

3 Inhoud 1. Inleiding Sterftemodellen Het stochastische sterftemodel Mortality rates en mortality improvement rates Het gebruik van mortality improvement rates Onderzoeksopzet Data Het tijdsinterval Het leeftijdsinterval Fitten Het Lee-Cartermodel Het mortality improvement rate model Extrapolatie Resultaten en analyse Data beschouwing Projecties Backtesting Conclusie Appendix A R-implementatie A.1 Data A.2 Fitten van het Lee-Cartermodel A.3 Fitten van het MIR-model

4 A.3 Extrapolatie Appendix B: Backtest parameters Appendix C: Eenjarige sterftekansen 65-jarige mannen en vrouwen Bibliografie

5 1. Inleiding Sinds de 17 e eeuw is de levensverwachting van de mens bijna verdubbeld, vooral in de 20 e eeuw is er sprake geweest van een aanzienlijke verbetering. Volgens Pitacco, Denuit, Haberman en Olivieri (2009) worden de trends van de afgelopen eeuw door alle sterftemodellen onderschat. Daarnaast geven zij aan er nog geen bewijzen zijn waaruit blijkt dat de stijging van de levensverwachting af zal remmen. Deze constante verbetering en het uitblijven van het perfecte sterftemodel, brengt problemen met zich mee op onder andere sociaal, politiek en economisch niveau. Denk hierbij aan de huidige pensioensituatie waarin Nederland zich verkeert. Sterftemodellen zijn al eeuwen in ontwikkeling. Het zijn de modellen waarop sterftetafels worden gebaseerd, deze vormen samen met renteontwikkelingen de basis van de actuariële wetenschap. De eerste producten, die deze wetenschap als grondslag hadden, waren de lijfrenten die aan burgers uitgegeven werden door de overheid in de 17 e eeuw. Deze lijfrenten zijn het onderwerp van één van de eerste boeken die gerekend wordt tot de actuariële wetenschap, namelijk: "Waardije van Lyf-renten naer Proportie van Los-renten" van Johan de Witt uit Hierin beschreef hij hoe de waarde van een lijfrente berekend kan worden aan de hand van een lineair sterftemodel en een constante rente. Tegenwoordig zijn inzichten in sterfte niet alleen van cruciaal belang voor de staat, maar onder andere ook voor pensioenfondsen, verzekeraars en financiële instellingen bij het creëren en onderhouden van hun producten. Als pensioenfondsen bijvoorbeeld een sterftekans hebben berekend die hoger is dan de werkelijke sterftekans, dan zullen ook de werkelijke uitbetalingen hoger zijn dan de verwachte en maakt het fonds verlies. Daarnaast kunnen zij zonder goede sterfteprojecties geen goed beeld vormen van de risico s die zich voordoen. Het projecteren van sterftedata kan op veel verschillende manieren. Eén daarvan is het veel gebruikte generalized linear model (GLM), waarbij leeftijd en tijd covariaten zijn. Daarnaast zijn er de log-bilineaire modellen gebaseerd op het Lee- Cartermodel (Lee en Carter, 1992), waarbij, in tegenstelling tot GLM, alleen tijd een factor is. Op dit model zijn een aantal recente onderzoeken gebaseerd (Renshaw en Haberman, 2003). Een ander model, dat in deze scriptie centraal staat, is het sterftemodel dat gebaseerd is op mortality improvement rates (verder: MIR). Dit 4

6 model is afgeleid van de partiële afgeleide van de logaritmisch sterftekans naar tijd (Haberman en Renshaw, 2011). Het doel van deze scriptie is nieuwe inzichten te verschaffen over dit model en deze te programmeren zodat deze is te vergelijken met andere sterftemodellen. De centrale onderzoeksvraag luidt daarom: leidt de implementatie van mortality improvement factoren tot een betere projectie van sterftedata? Om de onderzoeksvraag te beantwoorden, wordt in hoofdstuk 2 de theorie over het MIR-model besproken. Daarna worden de voor- en nadelen van de implementatie van het model toegelicht. Ook komen de modellen aan bod welke zullen dienen als vergelijkingsmateriaal. Nadat de theorie is besproken, wordt in hoofdstuk 3 de opzet van het onderzoek uitgelegd. Daarna komt het gebruikte model aan bod in hoofdstuk 4 en hoe deze is geprogrammeerd in softwarepakket R. In hoofdstuk 5 worden de bevindingen weergegeven en vergeleken met andere onderzoeken. Uiteindelijk worden daar in hoofdstuk 6 conclusies uit getrokken. 2. Sterftemodellen In dit hoofdstuk worden mortality rates en mortality improvement rates toegelicht. Als eerste wordt besproken wat een stochastisch sterftemodel is. Vervolgens worden de definities voor MR en MIR besproken en wordt er afgesloten met mortality improvement factoren in de praktijk. 2.1 Het stochastische sterftemodel Het sterftemodel op basis van mortality improvement factoren is een stochastisch sterftemodel. De meeste sterftemodellen proberen een uitspraak te doen over de eenjarige sterftekans q! (of een afgeleide daarvan, bijvoorbeeld de centrale sterftekans) met als parameters de leeftijd x en de tijd t (of functies daarvan). Elk van deze modellen bestaat uit een deel met waargenomen sterftefrequenties of -kansen (het verleden) en een deel dat geprojecteerd moet worden (de huidige en toekomstige sterftekansen). De simpelste vorm van een sterftemodel is een extrapolatie met behulp van historische data. Hierbij worden de geobserveerde waarden als harde waarden beschouwd en zijn de geprojecteerde sterftekansen schattingen van deze harde waarden. Het stochastische sterftemodel ziet de historische data niet alleen als waarde, 5

7 maar kent deze een statische waarde toe. Elke geobserveerde waarde wordt gezien als een uitkomst van stochastische variabelen. Deze variabelen stellen samen de historische sterftekans voor. De geprojecteerde sterftekansen zijn daardoor ook uitkomsten van stochastische variabelen. Het voordeel hiervan is dat de uitkomst van het model niet alleen toekomstige sterftekansen geeft maar ook de kans-intervallen behorende bij deze sterftekansen. Doordat de historische data hiermee uitkomsten zijn geworden van willekeurige trekkingen van verscheidene variabelen, moeten er voor deze variabelen wel bepaalde aannames gemaakt worden. Daarnaast moet er een statistische methode worden bepaald welke de geprojecteerde data met de geobserveerde data verbindt (Pitacco et al. 2009). Daarna kan met behulp van de aannames en statistische methode een geschikte projectiemethode gekozen worden. Uiteindelijk wordt er een methode gekozen die de extrapolatie beëindigd. Samenvattend bevat de constructie van een stochastisch sterftemodel de volgende onderdelen welke terugkomen in hoofdstuk 3: 1. Dataselectie 2. Fitten 3. Extrapolatie 2.2 Mortality rates en mortality improvement rates De central rate of mortality (MR), de centrale sterftekans, is het aantal mensen van een bepaalde leeftijd die binnen een jaar sterven gedeeld door de gemiddelde populatie van die leeftijd in dat jaar. m x,t = d x,t e x,t (2.1) Mortality improvement is de vermindering van de centrale sterftekans van een bepaald jaar en het jaar ervoor. Mortality improvement rates worden normaal gesproken gedefinieerd als: z!,! = 1 m!,! /m!,!!! (2.2) De terugkoppeling van MIR en MR naar de eenjarige sterftekans volgt middels de volgende formule: q!,! 1 e!!!,! (2.3) 6

8 2.3 Het gebruik van mortality improvement rates Mortality improvement rates zijn al in een aantal onderzoeken gebruikt. Willets (2004) kijkt met behulp van MIR naar het cohorteffect in het Verenigd Koninkrijk. Het cohorteffect is de benoeming van het fenomeen dat de generatie die geboren is in de U.K. tussen 1925 en 1945 een significant hogere mortality improvement heeft dan de generaties die niet in dat interval zijn geboren. Baxter (2007) onderzoekt of er een minimumwaarde voor MIR te vinden is en wat de gevolgen van dien zijn. MIR wordt ook gebruikt door onder andere Society of Actuaries Group Annuity Valuation Table Task Force (1995) bij de constructie van hun sterftetafel, zij hebben hiervoor gekozen omdat MIR toekomstige verbetering van sterfte toestaat. MIR kent dus al verschillende toepassingen in de praktijk, echter is het modelleren en parametriseren van MIR maar in één artikel onderzocht en beschreven, namelijk Renshaw en Haberman (2011). Daarnaast is MIR nog niet toegepast bij het analyseren van Nederlandse sterftedata. 3. Onderzoeksopzet Om de centrale vraag te beantwoorden worden mortality improvement rates in een bestaand stochastisch sterftemodel geïmplementeerd. Het originele model en het nieuwe model worden vergeleken aan de hand van een aantal criteria en door middel van backtesting. Zodoende wordt er in dit hoofdstuk als eerste de gebruikte data besproken. Daarna wordt besproken hoe deze modellen worden gefit aan deze data en hoe zij worden geprojecteerd. 3.1 Data MR en MIR hebben als afhankelijke variabele de centrale sterftekans of een afgeleide daarvan, deze hangt af van het aantal doden en de exposure (formule 2.1). Daarom wordt er een dataset gebruikt die beide variabelen bevat. De gebruikte data betreft Nederlandse sterftedata voor mannen tot en met 2009, afkomstig uit de database van de Human Mortality Database (HMD), dit is een organisatie die populatiedata verzamelt van overheden en andere instanties. Voordat de data kan worden gebruikt, wordt er een selectie gemaakt van de en de leeftijden waarover wordt gemodelleerd. 7

9 3.1.1 Het tijdsinterval Het tijdsinterval dat wordt gebruikt om de modellen te fitten is van groot belang, voor zowel het voorspellen van toekomstige sterftedata als het backtesten van de gekozen modellen. Er is gekozen om de data van de 1900 tot 1950 buitenbeschouwing te laten, omdat de datakwaliteit niet ideaal is, de trend stabieler is in de na 1950 en om medische redenen. Tot ongeveer 1950 waren infectieziektes de hoofddoodsoorzaak, daarna zijn deze zo goed als verdwenen en werden kanker en hartkwalen de hoofddoodsoorzaken. Door de data uit deze periode niet mee te nemen in de berekeningen wordt het effect van de infectieziektes niet of nauwelijks meegenomen in de extrapolatie. De meeste onderzoeken zijn het eens met bovenstaande bewering, echter bestaat er geen uitsluitsel over welk interval er precies gebruikt moet worden. Baran en Pap (2007) zagen in hun onderzoek dat de dataset van 1989 tot 2003 verlaagde sterftekansen voorspelde, terwijl die op basis van de data van 1949 tot 2003 een verhoogde sterftekans voorspelde. Er zijn twee methodes bekend die assisteren in het kiezen van een juiste fit-periode, die van Denuit en Goderniaux (2005) en die van Booth et al. (2002). De eerste methode selecteert het interval waarop de κ! het beste benaderd wordt met een rechte lijn. Dit komt neer op het maximaliseren van de voorspellingswaarde R 2 van de lineaire regressie van κ!. De tweede methode minimaliseert de ratio tussen de gemiddelde afwijking van het model en de lineaire fit. Echter worden de bovenstaande methoden niet gebruikt in deze scriptie. Het vinden van de juiste kalibratieperiode is voor toekomstige projecties van zeer groot belang, maar voor het vergelijken van de modellen zal dit een minder grote rol spelen. Om een ruwe schatting te verkrijgen van een goede kalibratieperiode is er gekeken naar de vorm van de grafiek van de Nederlandse sterftekans voor mannen door de heen. De methodes van Denuit en Goderniaux (2005) en Booth et al. (2002) zijn beide opzoek naar een periode waarbij er een lineair tijdseffect optreedt, dit is ongeveer het geval vanaf Vanaf 1970 ziet men een daling in de sterftekansen van de Nederlandse mannen, daarom is ook alle data tot 1970 buitenbeschouwing gelaten. Het verloop van deze sterftekansen is te zien in Appendix C. 8

10 3.2.2 Het leeftijdsinterval Ook is het gebruik van alle leeftijden in de berekeningen niet ideaal, daarom is er gekozen om bepaalde leeftijden niet mee te nemen in het model. De groep mensen van 0 tot 20 jaar oud zijn uitgesloten, omdat hun sterftekans heel anders is dan voor andere leeftijden. Denk hierbij bijvoorbeeld aan de sterftekans van net geboren baby s of de verhoogde kans op ongelukken in de tiener. Voor mensen van 90 jaar en ouder is er vaak weinig data verkrijgbaar, als er niet voldoende data beschikbaar is kan dat leiden tot verkeerde resultaten. Als er bijvoorbeeld nog één persoon is van 105 jaar en hij of zij sterft in dat jaar, dan resulteert dat in een sterftekans van 100% voor een persoon van 105 jaar terwijl de werkelijke sterftekans dat natuurlijk niet hoeft te zijn. Bovenstaande redenen leiden tot het gebruik van data voor de leeftijden 20 tot en met 89 jaar. 3.2 Fitten De modellen op basis van MIR kunnen gemaakt worden met behulp van dezelfde methodieken als van MR. Voor het schatten van MR zijn er al veel modellen bedacht, een groot aantal hiervan zijn gebaseerd op het Lee-Cartermodel (LC). Het LC-model wordt gebruikt als basis voor het MIR-model en als vergelijking voor de resultaten. Hier is voor gekozen, omdat het LC-model volgens Gregorkiewicz en Plat (2006) en Cairns et al. (2009) beschikt over een aantal gunstige eigenschappen: het model is praktisch, makkelijk te implementeren, heeft weinig parameters en is algemeen geaccepteerd Het Lee-Cartermodel Het Lee-Cartermodel heeft de volgende vergelijking: ln( m!,! ) = α! + β! κ! + ε!,! (3.1) Hier wordt de logaritme van de centrale sterftekans gemodelleerd aan de hand van: α!, de gemiddelde geobserveerde ln m!,! per leeftijd x. β!, het leeftijdseffect. κ!, het tijdseffect. ε!,! de errorterm. 9

11 Het model kan niet met een standaardregressie geschat worden, want de alpha, bèta, kappa en de storingsterm zijn geen waargenomen waarden. Zij moeten eerst geschat worden aan de hand van de historische data. Voor het fitten van het Lee-Cartermodel aan de historische data wordt de Ordinary Least Squares (OLS) methode gebruikt. De OLS-methode vindt de waarden van alpha, bèta en kappa door de kwadratensom van het model te minimaliseren welke gegeven is door de volgende formule:!,! ln (μ! (t) α! β! κ(t))! (3.2) β! en κ! worden gevonden door middel van de Single Value Decomposition van de matrix ln µ x (t) α : ln μ! (t) α! = UDV! S is een matrix waarvan de kolommen de linker singular value vectoren zijn. U is een matrix met op de diagonaal de singular values. V! is de transpose van de matrix waarvan de kolommen de rechter singular value vectoren zijn. β! en κ! worden berekend met de uitkomsten van de Single Value Decomposition: β! =![!,!], de genormaliseerde eerste linker singular value vector.![!,!] κ! = V i, 1 U i, 1 D[1,1], de eerste rechter singular value maal de som van de eerste linker singular value maal de eerste singular value. Lee en Carter (1992) stellen voor om de κ! aan te passen naar het aantal doden en exposure, door de gevonden alpha en bèta in te vullen in de formule voor de centrale sterftekans (2.1) en vervolgens op te lossen naar κ! : x d x,t = e x,t e α x +β x κ t (3.3) Deze stap wordt achterwege gelaten ter simplificatie van het model Het mortality improvement rate model x In deze scriptie wordt gebruikgemaakt van geschaalde mortality improvement rates, omdat er in de oorspronkelijke definitie van MIR (2.2) een verschil zit tussen de tijd 10

12 van de teller en de noemer. De geschaalde versie uit Haberman en Renshaw (2011) heeft dat niet. Vanaf hier is MIR als volgt gedefinieerd: ( ) ( ) z x,t = 2 1 ˆm x,t / ˆm x,t 1 1+ ˆm x,t / ˆm x,t 1 (3.5) Dit resulteert in de volgende formule voor de geschatte MIR: z!,! = β! κ! (3.6) Als de centrale sterftekans groter wordt is z x,t negatief en als de centrale sterftekans kleiner wordt is positief. wordt gemodelleerd als de uitkomst van een random normaal verdeelde variabele. Vervolgens wordt deze net als het Lee-Cartermodel op twee verschillende manieren gefit met de historische data. De OLS-methode neemt aan dat MIR normaal verdeeld is: Z (x,t ) N ( η x,t,σ 2 ) Dan wordt er gefit door de kwadratensom te minimaliseren, dit komt neer op een sum of squared errors:!,!(z! (t) β! κ(t))! (3.7) β! en κ! worden gevonden door middel van de Single Value Decomposition van de matrix z! (t): z! (t) = UDV! β! =![!,!], de genormaliseerde eerste linker singular value vector.![!,!] κ! = V i, 1 U i, 1 D[1,1], de eerste rechter singular value maal de som van de eerste linker singular value maal de eerste singular value. 3.3 Extrapolatie z x,t z x,t Nadat de modellen gefit zijn aan de historische waarden wordt kappa gemodelleerd als een tijdreeks. Dit wordt gedaan met behulp van de standaard Box- Jenkinstechnieken. Dit komt neer op het fitten van een geschikt Autoregressief Geïntegreerd Bewegend Gemiddelde-tijdreeks (ARIMA) aan de verkregen waarden 11

13 van kappa. Het ARIMA(p,d,q) model beschrijft het verloop van de kappa tijdreeks aan de hand van zijn historie en schokken in de tijd. Het kiezen van de ARIMA parameters p, d en q wordt normaalgesproken gedaan met behulp van de autocorrelatie plots van de jaarlijkse verschillen van kappa. Bij elke projectie met een andere kalibratieperiode of leeftijdsinterval, moet er opnieuw een ARIMA model worden gefit. Verschillende kalibratieperioden of leeftijden leveren andere kappa s op en is er wellicht een ARIMA model, met andere parameters, die beter fit. Omdat dit een complex proces is, worden er in dit onderzoek functies gebruikt in het softwarepakket R die automatisch de parameters berekenen. Hoe dit exact gedaan wordt staat in appendix A sectie 3. Als er een geschikt ARIMA model is gevonden, worden er toekomstige kappa s geprojecteerd. De geprojecteerde waarden voor de logaritme van de mortality rates kunnen vervolgens worden berekend door de gefitte alpha en bèta uit sectie en de nieuwe kappa s in te vullen in formule 3.1. De geprojecteerde mortality improvement rates worden berekend door de bèta s uit sectie en de geprojecteerde kappa s in te vullen in formule Resultaten en analyse In dit hoofdstuk staan de resultaten van de in het vorige hoofdstuk genoemde onderzoeksmethode. Als eerste wordt de input data bekeken, vervolgens worden toekomstige projecties gemaakt en tot slot wordt er een backtest uitgevoerd. 4.1 Data beschouwing Zoals eerder genoemd wordt er gewerkt met sterftedata van Nederlandse mannen van 1970 tot en met In figuur 4.1 zijn de mortality improvement rates geplot voor de leeftijden 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80 en 85 tegenover de tijd. In de figuren zijn ook de gemiddelde mortality improvement rates per leeftijd geplot (de gestippelde grijze lijn). Als men plots bekijkt ziet men voornamelijk horizontale trends in de grafieken. In de één na laatste grafiek is ook de gemiddelde MIR geplot per leeftijd en ziet men een hogere gemiddelde MIR voor de leeftijden rond de 60. In de laatste grafiek is de standaardafwijking van geplot voor alle leeftijden, deze lijkt aftenemen tot leeftijd

14 Figuur 4.1 MIR, gemiddelde MIR en standaardafwijking MIR per leeftijd gem std leeftijden leeftijden In Figuur 4.2 zijn de mortality improvement rates geplot voor mensen met geboortedatum 1910, 1915, 1920, 1925, 1930, 1935, 1940, 1945, 1950, 1955, 1960 en 1965 tegenover de tijd. Hier ziet men dat de MIR bekeken vanuit cohorten met dezelfde geboortedatum ook voornamelijk horizontale trends vertonen. Daarnaast valt direct op dat voor het cohort met geboorte jaar 1920 negatieve MIR hebben voor bijna alle tussen 1970 en Daarnaast lijken de cohorten met een eerder geboortejaar minder spreiding te vertonen dan de cohorten met een later geboortejaar. 13

15 Figuur 4.2 MIR voor vaste geboorte Projecties De projecties voor toekomstige sterftekansen hebben de kalibratieperiode 1970 tot en met De gefitte parameters zijn geïllustreerd in figuur 4.3 voor zowel MR als MIR. Bij het klassieke Lee-Cartermodel zien de parameters eruit zoals verwacht. Bij het MIR-model ziet men een zwakke positieve trend in de kappa en de bèta. Dit duidt op een verbetering van sterfte door de heen en een sterkere verbetering voor oudere personen. 14

16 Figuur 4.3 Parameter plots voor Mortality Rates en Mortality Improvement Rates MR (LC) - Kappa MR (LC) - Beta MR (LC) - Alpha k(t) b(x) a(x) leeftijd leeftijd MIR - Kappa MIR - Beta k(t) b(x) leeftijd Voor beide modellen zijn de som van de gekwadrateerde errors berekend. Bij het LC-model is dit gedaan door het kwadraat te nemen van de geobserveerde mtx minus de gefitte waarden, bij MIR werd hetzelfde gedaan voor. Dit kwam uit op bij het LC-model en bij het MIR-model. Daarnaast zijn de gestandaardiseerde errors geplot in figuur 4.4. Deze zijn verkregen door van elke Figuur 4.4 Gestandaardiseerde errors geplot voor LC en MIR 15

17 error de gemiddelde error af te trekken en te delen door de standaard afwijking van de errors. Bij de errors in het LC-model ziet men dat de errors een kleine spreiding hebben bij hogere leeftijd, dit komt in mindere mate terug bij het MIR-model. Dit is consistent met wat er eerder te zien viel in de MIR plots in figuur 4.1. Zoals beschreven in het onderzoeksopzet zijn de kappa s van beide modellen geprojecteerd over 20 jaar middels ARIMA en ARMA tijdreeksen. Het klassieke LCmodel is geschat met een ARIMA(0,2,2) serie en het MIR-model is geschat met een ARIMA(1,0,0) serie (equivalent aan de ARMA(1) tijdreeks). De geautomatiseerde schattingen van de parameters voor de tijdreeksen staan in tabel 1 en de projecties in figuur 4.5. Voordat de mortality improvement rates vergeleken kunnen worden met de mortality rates, moeten zij eerst omgeschreven worden. De MIR zijn omgeschreven naar centrale sterftekansen met de inverse formule 3.5 en vervolgens worden deze en de geprojecteerde MR naar eenjarige sterftekansen herschreven met formule 2.3. Tabel 1 Tijdreeks coëfficiënten MR (LC) - ARIMA(0,2,2) MIR - ARIMA(1,0,0) with non- zero mean Coefficients: Coefficients: ma1 ma2 ar1 intercept s.e s.e sigma^2 estimated as 1.472: sigma^2 estimated as 4.102: log likelihood= log likelihood= AIC AIC AICc AICc BIC BIC

18 Figuur 4.5 Projectie van kappa voor MR en MIR met 80% en 95% betrouwbaarheidsinterval MR (LC) Kappa projectie met ARIMA(0,2,2) MIR Kappa projectie met ARIMA(1,0,0) Figuur 4.6 Projecties van, kalibratieperiode met MR blauw en MIR - rood e+00 6e

19 In figuur 4.6 staan de waargenomen eenjarige sterftekansen tot 2009, de projecties van MR en de projecties van MIR geplot voor een aantal leeftijden. Hier is te zien dat MIR over het algemeen hogere sterftekansen voorspelt in vergelijking met het LCmodel. Als er gekeken wordt naar het eindpunt van de projecties, dan voorspelt MIR een hogere sterftekans voor de leeftijden: 30, 47, 56, 57, 59 tot en met 89. Ook is het merkwaardig te noemen dat er MIR projecties zijn waarbij de geprojecteerde eenjarige sterftekansen een stijgende trend vertonen (figuur 4.1 leeftijd 20 en 35). Dit is tegenstrijdig met de verwachting dat de sterftekansen blijven dalen met de tijd. Hoewel een stijgende sterftekans niet heel waarschijnlijk is, kan hier niet over geoordeeld worden. De daadwerkelijke sterftekansen zijn immers nog niet bekend. 4.3 Backtesting Om eventueel uitsluitsel te geven over de voorspellende waarde van beide modellen, is er een backtest gedaan. De backtest heeft kalibratieperiode met projecties van Het LC-model is geprojecteerd met een ARIMA(3,1,0) tijdreeks met drift en het MIR-model is geprojecteerd met een ARIMA(3,0,0) tijdreeks. De parameter waarden staan in Appendix B. De projecties bij de backtest zijn net als de projecties uit sectie 4.2 sterk uiteenlopend. Om dit te illustreren staan in figuur 4.7 de MR en MIR projecties geplot tegenover de geobserveerde waarden voor leeftijden 40 en 80. Hier is duidelijk te zien dat de projectie voor leeftijd 40 van het MR-model beter is dan de projectie van het MIR- model en de projectie voor leeftijd 80 van het MIR-model beter is dan het MR-model. Ook ziet men de stijgende Figuur 4.7 Backtest projecties leeftijd 40 en 80. MR - blauw, MIR rood

20 sterftekans terugkomen, welke gezien zijn in sectie 4.2, voor de leeftijden 20, 21, 22, 31, 32, 35, 41, 43, 49,,57, 58, 59, 65, 67, 78 en 86. Dit fenomeen is geïllustreerd in figuur 4.8. Waar er bij de toekomstige projecties geen uitspraak gedaan kon worden over de juistheid van deze projecties, kan dat bij backtesting wel. In figuur 4.8 is voor elk van deze leeftijden duidelijk te zien dat er een neerwaartse trend is van de eenjarige sterftekansen, in tegenstelling tot wat de MIR-projecties zeggen. Bij het MR-model is er geen sprake van projecties met een stijgende sterftekans. Figuur 4.8 plots voor leeftijden waarbij het MIR-model stijgende sterftekansen voorspelt Naast de grafische vergelijking van de modellen wordt er gekeken naar de sum of squared errors van beide modellen. De uitkomsten zijn te vinden in tabel 2. De leeftijden met stijgende sterftekansen hebben een hogere SSE dan hun MR tegenhanger. Ook ziet men een stijging in de sum of squared errors naarmate de 19

21 Tabel 2 Sum of squared errors van de backtest Backtest met kalibratieperiode en projectieperiode Totale sse LC Totale sse MIR x sse LC sse MIR LC<MIR x sse LC sse MIR LC<MIR E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E

22 leeftijd hoger wordt. De SSE over alle leeftijden is voor het LC-model kleiner dan het MIR-model. Ook ziet men dat de SSE bij 48 van de 70 leeftijden kleiner is bij het klassieke Lee-Cartermodel. Daarnaast ziet men dat het MIR-model beter presteert bij leeftijden boven de 75, dit zou samen kunnen hangen met het feit dat er minder spreiding zit in de MIR voor hogere leeftijden (figuur 4.1) en het MIR-model dan wellicht beter fungeert. Als men kijkt naar de sum of squared errors per jaar ziet men dat deze met de tijd toeneemt bij beide modellen (figuur 4.9). Daarnaast is de SSE voor de modellen de eerste 6 jaar ongeveer gelijk, maar daarna is de SSE voor het MIR-model op 1 jaar na altijd hoger dan die van het MR-model. Figuur 4.9 Sum of squared errors van de backtest tegenover. SSE per jaar voor MR (blauw) en MIR (rood) SSE jaar Het vergelijken van de projecties van beide modellen middels backtesting geeft geen eenduidig antwoord op de vraag of de projecties van het Lee-Cartermodel met implementatie van MIR beter zijn dan die van het gewone Lee-Cartermodel. 5 Conclusie Dit onderzoek heeft getracht de vraag te beantwoorden of de implementatie van mortality improvement rates leidt tot betere projecties van sterftedata. Om dit te testen zijn geschaalde mortality improvement rates geïmplementeerd in het klassieke Lee- Carter model. Dit houdt in dat de tijds- en leeftijdseffecten, kappa en bèta, gefit zijn middels de Single Value Decomposition methode. Nadat de modellen gefit zijn, worden deze geprojecteerd met ARIMA tijdreeksen en uiteindelijk weer herschreven naar eenjarige sterftekansen. Het klassieke Lee-Cartermodel (MR-model) en het MIR- 21

23 model zijn vergeleken aan de hand van hun toekomstige projecties en middels backtesting. Bij het evalueren van de gefitte waarden van de mortality improvement rates lieten de standardized residuals geen abnormale dingen zien welke zouden kunnen duiden op een foutief model. Bij de toekomstige projecties kwam naar voren dat de MIR-projecties voor sommige leeftijden sterk verschillen met de MR-projecties. Ook zijn er projecties geconstateerd met toenemende eenjarige sterftekansen, welke tegen algemene verwachting ingaan. Het backtesten van het MIR-model is gedaan door te fitten over periode en te projecteren over periode Hier zag men eveneens uiteenlopende projecties en projecties waarbij het MIR-model stijgende sterftekans projecteert (waar de waargenomen waarden dalende sterftekansen lieten zien). Het vergelijken van de sum of squared errors van de modellen gaf geen uitsluitsel of de MIR-implementatie beter werkt dan de klassieke Lee-Cartermethode. Na het projecteren en backtesten van beide modellen kan er geen eenduidig antwoord gegeven worden of de implementatie van mortality improvement rates leidt tot betere projecties van sterftedata, omdat het MIR-model voor bepaalde leeftijden beter presteert dan het MR-model. Echter wordt het klassieke Lee-Cartermodel wel geprefereerd boven het MIR-model, omdat het MIR-model voor sommige leeftijden stijgende sterftekansen voorspelt. Of dit ook geldt voor andere sterftemodellen is een onderwerp voor vervolgonderzoek. 22

24 Appendix A R-implementatie De in hoofdstuk 3 gedefinieerde modellen en extrapolatiemethodes zijn geprogrammeerd in R, in deze appendix staat de belangrijkste gebruikte R-code met uitleg. A.1 Data De sterftedata van de Nederlandse mannen zijn afkomstig van de Human Mortality Database ( hier zijn de exposures en dodenaantallen te downloaden in.txt files welke geïmporteerd kunnen worden in R. A.2 Fitten van het Lee-Cartermodel Voor het fitten van het model aan de historische data definiëren we in R een nieuwe functie genaamd fitlc met als input de leeftijden, de, de bijbehorende exposures en het aantal doden. In deze functie worden de inputs gebruikt om alpha, bèta en kappa te berekenen aan de hand van de formules in hoofdstuk Als eerste worden de centrale sterftekans matrix en de logaritme ervan geconstrueerd met: mtxm=dtx/etx logmtxm=log(mtxm) Daarna worden de dimensies van de matrix opgeslagen in m en n: n=length(xv) m=length(yv) De berekening van alpha volgt door de vector alpha eerst aan te maken en van elke kolom de gemiddeldes van de logmtx matrix te nemen. alphav=array(0,n) for(j in 1:n){ alphav[j]=sum(logmtxm[,j])/m } Daarna wordt de matrix ln µ x (t) α aangemaakt en geconstrueerd. Vervolgens wordt hiervan de SVD berekend. logmtxminalpha=matrix(0,m,n) for(j in 1:n){ logmtxminalpha[,j]=logmtxm[,j]-alphav[j] } svdm=svd(t(logmtxminalpha),m,n) 23

25 Eerst worden de bèta en kappa vectoren aangemaakt en vervolgens worden de uitkomst van de SVD gebruikt zoals gezegd is in hoofdstuk om de waarden van bèta en kappa te berekenen. betav=array(0,n) betav=svdm$u[,1]/sum(svdm$u[,1]) kappav=array(0,m) kappav=svdm$v[,1]*sum(svdm$u[,1])*svdm$d[1] De gevonden alpha, beta, kappa, mtx-matrix en log(mtx)-matrix worden als output gegeven van de fitlc functie. A.3 Fitten van het MIR-model Het mortality improvement rate model is geprogrammeerd in de functie fitmir met als inputs de leeftijden, de, de exposures en het aantal doden. Als eerste worden de matrix met de centrale sterftekansen geconstrueerd en met formule 3.5 worden de mortality improvement rates uitgerekend, waarbij de MIR voor het eerste jaar gelijk worden gesteld aan 0. mtxm=dtx/etx qtx=1-exp(-mtxm) n=length(xv) m=length(yv) m=matrix(0,m,n) for(j in 1:n) { m[1,j]=0 for(i in 2:m){ m[i,j]=2*(1-mtxm[i,j]/mtxm[i1,j]) /(1+mtxm[i,1]/mtxm[i-1,j]) } } Hierna wordt de SVD berekend over deze matrix en worden de uitkomsten gebruikt om beta en kappa te berekenen: svdm=svd(t(m),m,n) betav=array(0,n) 24

26 betav=svdm$u[,1]/sum(svdm$u[,1]) kappav=array(0,m) kappav=svdm$v[,1]*sum(svdm$u[,1])*svdm$d[1] De gevonden alpha, bèta, kappa, mtx-matrix en -matrix worden als output gegeven van de fitmir functie. A.3 Extrapolatie Het extrapoleren met behulp van ARIMA tijdreeksen wordt gedaan met behulp van het forecast pakket. Deze moet eerst worden geladen (mits hij geïnstalleerd is) voordat hij gebruikt kan worden in R. > library(forecast) Extrapolatie in R wordt uitgelegd aan de hand van de code voor de functie fcmir de functie die projecties maakt voor mortality improvement rates. De projecties voor Lee-Carter volgen dezelfde methodologie. Deze functie heeft als input het gefitte MIR-model heeft en het aantal waarover men wilt projecteren. De functie slaat eerst het gefitte object op onder mirfit en bepaald hiervan de lengte van het gefitte interval en het aantal leeftijden. fcmir=function(mir,jaar){ mirfit=mir yr=jaar n=length(mirfit$x) m=length(mirfit$y) Vervolgens worden de ARIMA parameters bepaald van de gefitte kappa en wordt er een projectie gedaan met deze parameters. Dit gebeurd volgens de functies auto.arima en forecast.arima, afkomstig uit het forecast pakket. kappav.fit<-auto.arima(mirfit$kappa) kappav.pred<-forecast.arima(kappav.fit,h=yr) De geprojecteerde mortality improvement rates worden berekend door deze te vermenigvuldigen met de geschatet bèta s deze worden in de matrix fcm gestopt. 25

27 fcm=matrix(0,yr,n) for(j in 1:n){ for(i in 1:yr){ fcm[i,j]=mirfit$beta[j]*kappav.pred$mean[i] } } Deze matrix wordt herschreven naar mortality rates middels de inverse van formule 3.5 en wordt fcmtxm genoemd. De fcmtxm matrix wordt op zijn beurt omgeschreven naar eenjarige sterftekansen met formule 2.3 en opgeslagen in matrix fcqm fcmtxm=matrix(0,jaar,n) for(j in 1:n){ fcmtxm[1,j]=mirfit$mtx[m,j]*(2- fcm[1,j])/(2+fcm[1,j]) } for(j in 1:n){ for(i in 2:jaar){ fcmtxm[i,j]=fcmtxm[(i-1),j]*(2- fcm[i,j])/(2+fcm[i,j]) } } fcqm=1-exp(-fcmtxm) De functie geeft als output de projecteerde, mtx en matrix. Ook geeft de functie de ARIMA parameters en voorspellingen als output. Appendix B: Backtest parameters Tabel B.1 Kappa projectie van de backtest LC Kappa projectie met ARIMA(3,1,0) MIR Kappa projectie met ARIMA(3,0,0)

28 Tabel B.2 ARIMA parameters van de backtest MR (LC) - ARIMA(3,1,0) met drift MIR - ARIMA(3,0,0) with non- zero mean Coefficients: Coefficients: ar1 ar2 ar3 drift ar1 ar2 ar3 intercept s.e s.e sigma^2 estimated as : sigma^2 estimated as 1.173: log likelihood= log likelihood= AIC 55.8 AIC AICc AICc BIC BIC Appendix C: Eenjarige sterftekansen 65-jarige mannen en vrouwen. In onderstaand figuur zijn de eenjarige sterftekansen van 65 jarige mannen weergeven met de blauwe lijn en de eenjarige sterftekansen van 65 jarige vrouwen met de rode lijn. 27

29 Bibliografie Baxter, S.D. (2007). Should projections of mortality improvements be subject to a minimum value? British Actuarial Journal (13), Booth, H., Maindonald, J., and Smith, L. (2002). Applying Lee Carter under conditions of variable mortality decline. Population Studies (56), Brouhns, N., Denuit, M., Vermunt, J.K. (2002). A Poisson log-bilinear regression approach to the construction of projected life-tables. Insurance: Mathematics & Economics (31), Cairns, A.J.G., Blake, D., Dowd, K., Coughlan, G., Epstein, D., Ong, A., Balevich, I. (2009). A quantitative comparison of stochastic mortality models using data from England & Wales and the United States. North American Actuarial Journal (13-1), Denuit, M., and Goderniaux, A.C. (2005). Closing and projecting life tables using log-linear models. Bulletin of the Swiss Association of Actuaries (1), Gregorkiewicz F., Plat R. (2006). Stochastische prognosemodellen voor sterfte. De actuaris (juli), Haberman S., Renshaw A. (2011), Parametric mortality improvement rate modelling and projecting. Insurance: Mathematics and Economics (50), Lee, R.D., Carter, L. (1992). Modeling and forecasting the time series of US mortality. Journal of the American Statistical Association (87), Pitacco, E., Denuit, M., Haberman, S., Olivieri, A.M. (2009). Modeling Longevity Dynamics for Pensions and Annuity Business. Oxford, Oxford University Press. Renshaw, A.E., Haberman, S. (2003). Lee Carter mortality forecasting with age specific enhancement. Insurance: Mathematics & Economics (33), Society of Actuaries Group Annuity Valuation Table Task Force, (1995) group annuity mortality table and 1994 group annuity reserving table. Transactions of the Society of Actuaries (47), Willets, R.C. (2004). The cohort effect: insights and explanations. British Actuarial Journal (10),