Trendanalyse op maat voor een meetnet waterkwaliteit NHV - dinsdag 6 maart 2012 drs. Paul K. Baggelaar Icastat ir. Eit C.J. van der Meulen AMO 1
Hoofddoelstellingen milieumeetnetten Beschrijven en beoordelen van: 1. de toestand objectiveren met behulp van normen 2. de verandering van de toestand objectiveren met behulp van statistische methoden vergt veel inspanning bij grootschalig meetnet (duizenden reeksen) 2
Trend Vorm van niet-stationariteit Verandering in het centrum van de kansverdeling van meetwaarden over tenminste enkele jaren We richten ons op de monotone trend 3
Onderdelen van trendanalyse 1. Trenddetectie: objectieve uitspraak over wél of géén trend 2. Trendkwantificering: schatting van de grootte van de trend 4
Toetsen op monotone trend Bekendste: toets op lineaire regressiehelling onderzoeksvariabele intercept modelresidu Y t = b 0 + b 1 X t + e t tijdsindex helling tijd 5
Trendtoetsen met lineaire regressie H Toetshypothesen: 0 en H : 0 : 1 a 1 Toetsingsgrootheid: T b 1 s[ b 1 ] 0 Student-t-waarde Verwerp H 0 als T > t (0,975;n-2) 6
Voorwaarden trendtoetsen met lineaire regressie 1. Modelresiduën zijn afkomstig uit (dezelfde) normale kansverdeling 2. Modelresiduën vertonen geen autocorrelatie 7
Voorbeeld lineaire regressie 20 Trendplot M_10J_NA_0% (Testreeks) meetwaarden tijdreekswaarden Lowess trendlijn 15 mg/l 10 5 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 jaar 8
Modelresiduën normaal verdeeld? 5 Tijdreeksplot modelresiduen M_10J_NA_0% (Testreeks) mg/l 0 aantal -5 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 jaar Histogram 30 20 10 0-3 -2-1 0 1 2 3 4 waarde mg/l PP-plot 5 mg/l 0-5 -3-2 -1 0 1 2 3 normaalscore 9
Modelresiduën geen autocorrelatie? 4 Tijdreeks modelresiduen en voortschrijdend gemiddelde (365) M_10J_NA_0% (Testreeks) 2 mg/l 0-2 -4 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 jaar Modelresiduen autocorrelatie? 0.6 95% betrouwbaarheidsinterval 0.4 0.2 0-0.2 5 10 15 20 25 aantal tijdsintervallen 10
Uitgebreide lineaire regressie modelruis Z t = b 0 +b 1 X t + N t N t = 1 N t-1 + e t autoregressieve modelparameter modelresidu 11
Voorbeeld uitgebreide lineaire regressie 20 Trendplot M_10J_NA_0% (Testreeks) meetwaarden tijdreekswaarden Lowess trendlijn 15 mg/l 10 5 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 jaar 12
Modelresiduën geen autocorrelatie? 2 Tijdreeks modelresiduen en voortschrijdend gemiddelde (365) M_10J_NA_0% (Testreeks) mg/l 1 0-1 -2-3 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 jaar Modelresiduen autocorrelatie? 0.3 95% betrouwbaarheidsinterval 0.2 0.1 0-0.1-0.2 5 10 15 20 25 aantal tijdsintervallen 13
Mogelijke kenmerken milieugegevens Ondergrens van nul Gecensureerde meetwaarden (bv. < 1 mg/l) Uitschieters, meestal naar boven Scheve kansverdeling (naar rechts) Seizoenspatroon Correlatie in tijd of ruimte Rekening mee houden bij statistische analyse 14
Nóg uitgebreidere lineaire regressie aantal seizoenen seizoenseffect seizoensindicator seizoensindex Z t = b 0 + b 1 X t + s i= 2 ( i I i )+ N t N t = N 1 t-1 + e t modelruis autoregressieve modelparameter modelresidu 15
Voorbeeld verdelingsvrije toets: Mann-Kendall-toets S = n-1 n t= 1 k=t+ 1 sgn Z k - Z t sgn sgn sgn = 1 als > 0 = 0 als = 0 = 1 als < 0 E S = 0 en Var S = n n 1 2n 5 18 T T = T 0 S S 1 Var Var 1 S S als als als S > 0 S = 0 S < 0 Statistisc h significan te trend als : T U( 1 / 2 ) bij tweezijdi g toetsen 16
Uitbreidingen Mann-Kendall-toets Toetsingsgrootheid per seizoen S g = n g 1 i= 1 ng k=i+ 1 sgn[ Z kg - Z ig ] S * = s g= 1 S g E[ S * ] = s g= 1 E[ S g ] = 0 Var[ S * ] = s g= 1 Var[ S g ] + s s g= 1 h g Cov[ S g,s h ] 17
Toetsen op monotone trend Parametrisch Lineaire regressie +s +a +sa Verdelingsvrij Mann-Kendall +s +a +sa Spearman +s Lettenmaier +a +sa Farrell +s Wanneer welke toets gebruiken? 18
Criteria bij keuze trendtoets 1. Empirisch significantieniveau niet hoger dan gehanteerd significantieniveau ( ) verleent objectiviteit en zeggingskracht aan signaleringsfunctie van het meetnet 2. Hoogste onderscheidend vermogen (1- ) van alle trendtoetsen die aan 1. voldoen er wordt dan zo efficiënt mogelijk informatie gefilterd uit de duur betaalde meetgegevens 19
Voorbeeld keuze trendtoets Onderscheidend vermogen trendtoetsen 100% 1 80% 60% 2 40% 3 20% =5% 0% 0 Trendgrootte -> 20
Percentage trenddetectie bij normale kansverdeling 100% 80% 60% LR MK 40% 20% 0% n = 120 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 Trend [standafw/jaar] 21
Percentage trenddetectie bij lognormale kansverdeling 100% 80% MK 60% LR 40% 20% 0% n = 120 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 Trend [standafw/jaar] 22
Kenmerken verdelingsvrij toetsen 1. Doet bij normale kansverdeling niet veel onder voor parametrisch toetsen 2. Is bij niet-normale kansverdeling krachtiger dan parametrisch toetsen 3. Geen last van uitschieters! 23
En transformeren? Lukt zelden volledig en toepassen van een parametrische toets/schatter is dan niet optimaal Geeft kromme trends in de meetschaal Bij niet-normaliteit geven wij de voorkeur aan verdelingsvrije methoden 24
Toetsen geselecteerd voor de procedure Parametrisch Lineaire regressie en uitbreidingen Verdelingsvrij Mann-Kendall en uitbreidingen 25
Preferentieprocessen van de toetsen Statistische kenmerken van proces Normale kansverdeling Geen normale kansverdeling Toets S A S+ A S A S+ A LR LRs LRa LRsa MK MKs MKsa 26
27
Trendkwantificering Trendtoets (Uitgebreide) lineaire regressie Mann-Kendall Seizoenale Mann-Kendall Seizoenale Mann-Kendall met verdiscontering autocorrelatie Trendschatter Lineaire regressiehelling Theilhelling Kendall-seizoenshelling Theilhelling en Kendall-seizoenshelling zijn beide zuivere en robuuste schatters, met grotere nauwkeurigheid dan lineaire regressiehelling bij scheve kansverdelingen 28
Principe Theilhelling Tijd 1 2 3 4 5 6 7 Tijd Meetwaarde 1.2 1.6 3.4 3.7 5.2 16.0 5.8 1 1.2 2 1.6 0.40 3 3.4 1.10 1.80 4 3.7 0.83 1.05 0.30 5 5.2 1.00 1.20 0.90 1.50 6 16.0 2.96 3.60 4.20 6.15 10.80 7 5.8 0.77 0.84 0.60 0.70 0.30-10.20 Theilhelling is mediaan van de hellingen = 1.00 29
Robuustheid Theilhelling 18 16 14 12 10 8 6 4 2 0 Uitschieter Lineaire regressielijn Theillijn 1 2 3 4 5 6 7 30
Nauwkeurigheid Theilhelling [Hirsch et al., 1991] RMSE Ratio = (RMSE Theilhelling) / (RMSE lin reghelling) 31
Toepassingen procedure Grootschalige meetnetten waterkwaliteit RIWA RWS 10 waterschappen drinkwaterbedrijf Provincie VMM Structureren presentatie uitvoer is uitdaging! 32
Conclusies 1. Maatwerk bij trendanalyse loont: meer onderscheidend vermogen bij trendtoetsen en grotere nauwkeurigheid bij trendschatten 2. Selectie toets/schatter obv soort kansverdeling en al of geen seizoenseffecten en/of autocorrelatie 3. Bij niet-normaliteit verdelingsvrije methoden 4. Selectieprocedure en trendanalyse zijn zodanig geobjectiveerd dat ze automatisch uitgevoerd kunnen worden 33
Vragen? 34