Datakwaliteit en (big) data Datakwaliteit, Master Data Management en Big Data Valori thema avond, 26 maart 2014 Met Michel van Wijk van Human Inference Agenda vanavond Welkom en Inleiding Egbert Bouman, Valori Wat is Datakwaliteit en hoe beoordeel ik dat? Inleiding door Egbert Bouman Master Data Management en Data Governance Michiel van Wijk, Human Inference Pauze Vervolg en discussie Afsluiting, naborrelen 2 (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 1
?? Requirements = Product Backlog?? Bedrijfseisen, gebruikerseisen Systeem eisen?? SCRUM?? Acceptatie test Keten test Datakwaliteit en (big) data Datakwaliteit, Master Data Management en Big Data Valori thema avond, 26 maart 2014 Met Michel van Wijk van Human Inference 3 Valori thema avonden Een begrip in Grip op IT! Geweest, o.a.: Depersonaliseren productiedata Creëren Maskeren Migreren Beheren Converteren Integreren Tools en toolsupport SMART requirements en slim testen ISO9126, 25010 en Security Grip op MsDynamics De nieuwe generatie testtools Test Data Management Getting Things Done Solvency II Scrum en onafhankelijk testen Tools voor Test Management Stretch & Move (met KPN) Moderne systeemontwikkeling: RUP, agile Risicomanagement in de echte wereld Model Based Testen Politiek op de werkvloer Testen en auditing SOA en ketentesten Bevindingenbeheer en SmarTRACK Zorg en ICT Performance testen Usability, met Leonard Verhoef SEPA Datawarehousing en BI De Vrijgavekaart Datakwaliteit Wat bracht Eurostar Zorgverzekeraars Etcetera (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 2
Over Valori Proces Tools Proces Tools Syner gie Al 25 jaar Testen PLUS Test & Acceptatie Business Analyse & Requirements High Performance Maintenance 150 professionals People People Top-200 klanten RABO, Achmea, Interpolis, ING, NIBC, ASR, SNS, Menzis, KPN, Randstad, Tweede Kamer, Prov. Utrecht, etc. SmarTEST aanpak, EXIN-preferred www.valori.nl, www.smartest.nl Service portfolio CONSULTANCY TRAINING & COACHING PROJECTS & SERVICES INTERIM PROFESSIONALS 6 (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 3
Make IT as simple as possible, but not simpler (Valori, Einstein) 7 8 (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 4
Agenda vanavond Welkom en Inleiding Egbert Bouman, Valori Wat is Datakwaliteit en hoe beoordeel ik dat? Inleiding door Egbert Bouman Master Data Management en Data Governance Michiel van Wijk, Human Inference Pauze Vervolg en discussie Afsluiting, naborrelen 9 (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 5
Wat is datakwaliteit Data are of high quality if they are fit for their intended use in operations, decision making and planning (Joseph Juran) Fit for use: situationeel Operations: daily business Decision making Planning Data = informatie! Data informatie! Slechte datakwaliteit, is dat erg? Een behandelaar bij verzekeraar x ziet op zijn scherm: Geslacht = Ja. Kosten: ca 10 mensdagen correctie Mislukking van een ERP implementatie bij bedrijf x Kosten: ca 10 miljoen euro Bombardement Chinese ambassade Belgrado: Kosten: o.a. 3 doden, compensatie 100 mjn dollar Te hoog ingeschatte Oliereserves van Shell Kosten: enorm, kelderende koersen, imagoverlies Verlies industrie door slechte datakwaliteit in de VS Kosten: $611 miljard per jaar (bron: DWH institute) (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 6
De impact van slechte data Zichtbaar Iedereen kent de voorbeelden Vervuilde klantenbestanden Onzichtbaar Veel doorwerking, gevolgschade, toekomstige schade Een sluipend element Bad data are like viruses (Thomas C. Redman) Waarom belangrijk? Datakwaliteit kritische succesfactor voor: ERP, DWH, CRM Supply chain management (zero stock,...) Corporate Performance Management Enzovoort (waar eigenlijk niet?) Negatieve impact op alle niveaus Strategisch Tactisch Operationeel (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 7
Effecten op operationeel niveau Op gebruikerstevredenheid en imago Op de kosten Op het moreel van de werknemers Op de, financiele, rapportages (ook tactische en strategische impact) Verlaagd, klanten en gebruikers hebben weinig begrip voor fouten. Hoge kosten: 10% tot 50% van de omzet (T.C. Redman) Sterk verlaagd, foute data geven veel frustratie en inefficientie Grote problemen met invoeren IAS, IFRS, Basel II, Sarbanes Oxley (SOX) Effecten op tactisch niveau Op de besluitvaardigheid Op data warehousing en business intelligence Op systeemontwikkeling, onderhoud en migratie Op het vertrouwen tussen organisaties, partners Op de productiviteit van werknemers Verlaagd. Management neemt slechte beslissingen, laat of helemaal niet Vertraagde implementatie door slechte data in bronsystemen Slechte datakwaliteit is een groot struikelblok Sterk verlaagd Verlaagd: werken onder hun niveau aan triviale fouten (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 8
Effecten op strategisch niveau Op de strategiebepaling Kost meer tijd, is moeilijker Op de implementatie van strategische wijzigingen Op het vermogen om meer waarde te creeren uit bedrijfsinformatie Op de synergie en samenwerking in de organisatie Op management focus Bemoeilijkt door verwarring op tactisch en operationeel niveau Moeilijk exacerbate. Bemoeilijkt het beleggen van informatieeigenaarschap Gehinderd. Afdelingen communiceren slecht door niet eenduidige data. Verminderd, wordt afgeleid van de wezenlijke issues. Compliancy regelgeving Kwaliteit van bedrijfsdata onvoldoende? Grote kans op ruzie met deze mannen! (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 9
Wat zegt SmarTEST er van? Hoofdstuk 3: IDQ model voor datakwaliteit Onderdeel IPS model Hoofdstuk 19: Testen van datakwaliteit TDQM model Data Profiling Tools Kwaliteit is meer dan een mooi IT-systeem Kwaliteit Het resultaat voor de business, als het project er niet meer is. I P S 360º kwaliteits perspectief Informatie Gegevens in en naar het systeem Processen Organisatie en Processen Systemen Het opgeleverde informatiesysteem (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 10
SmarTEST IDQ model IDQ Exclusiviteit Classificatie Versleuteling Afgrendeling Vertrouwelijkheid Juistheid Integriteit Volledigheid Nauwkeurigheid Plausibiliteit Syntax Objectiviteit Controleerbaarheid Structuur Transparantie Consistentie Eenduidigheid Uniciteit Zelfverklarendheid Traceerbaarheid Tijdigheid Actualiteit Historie Houdbaarheid Frequentie Doeltreffendheid Relevantie Begrijpelijkheid Bondigheid Aggregatie Granulariteit Normalisatie Universaliteit Beschikbaarheid Zeldzaamheid Onderhoudbaarheid Beheerbaarheid Wijzigbaarheid Overdraagbaarheid JuVoTA: Juistheid Volledigheid Tijdigheid Autorisatie The TDQM cycle Based on Deming's PDCA (Plan, Do, Check, Act) cycle Useful holistic approach (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 11
Een commerciele TDQM implementatie Bron: Firstlogic/ Business Objects. Testen van datakwaliteit Cruciaal voor welslagen IT Testers doen nog (te) weinig Wij kunnen dit! Data Juist en onjuist Metadata Juist en onjuist Data Profiling Bevindingen over onjuiste data Accurate metadata (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 12
Data Profiling: Hoe werkt het? Onjuiste data en metadata 1. Kolomanalyse 2. Structuuranalyse 3. Eenvoudige semantische analyse 4. Complexe semantische en business-analyse 5. Aggregatie-analyse Ongeldige waarden (syntax) Foute combinaties van geldige waarden Verdachte frequenties en verdelingen Niet analyseerbaar van binnen uit Data profiling: tools Source: Data Profiling with Trillium Software Discovery, IntoDQ website (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 13
Waarom Tools? Excel werkt prima Draaitabellen Filters Verdere analyse opties Behalve bij BIG DATA Dedicated tools nodig Additionele en gerichte functionaliteit Kunnen grote bestanden crunchen! 27 Big Data, what s new? Ongestructureerd, Niet tekstueel reviewbaar 28 (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 14
Agenda vanavond Welkom en Inleiding Egbert Bouman, Valori Wat is Datakwaliteit en hoe beoordeel ik dat? Inleiding door Egbert Bouman Master Data Management en Data Governance Michiel van Wijk, Human Inference Pauze Vervolg en discussie Afsluiting, naborrelen 29 (c) Valori Presentatie Egbert Bouman op thema avond Datakwaliteit en (big) data, maart 2014 15