Memo Tekstmining. Technieken en toepassingen in de zorg. mei De Praktijk Index

Memo Tekstmining Technieken en toepassingen in de zorg mei 2018 De Praktijk Index Rembrandtlaan 31 3723 BG Bilthoven 030-244 0326 info@depraktijkindex.nl www.depraktijkindex.nl

Haal meer (kwaliteit) uit uw data Probleem: groeiende registratielast De gezondheidszorg wordt geplaagd door grote administratieve lastendruk. Ook ziekenhuizen moeten steeds meer en gedetailleerdere data aanleveren aan zorgverzekeraars, overheden en toezichthouders. Artsen en verpleegkundigen besteden ongeveer 40% van hun tijd aan vastlegging en registratie. Dat is een tijdsbeslag dat ten koste gaat van de zorg voor de patiënt. Daarnaast is het een aanzienlijke kostenpost, zeker als de kosten van het administratieve apparaat dat deze registratielast moet faciliteren (personeel en ICT) wordt meegerekend. Het automatiseren van een deel van het proces van registratie biedt een oplossing voor dit probleem. Oplossing: van digitalisering naar automatisering Met de komst van nieuwe EPD s wordt de registratie in ziekenhuizen gedigitaliseerd. Daarmee zijn alle patiëntgegevens digitaal beschikbaar en vaak ook te ontsluiten voor de patiënt. De administratieve last is hiermee in de meeste gevallen echter niet teruggedrongen. Artsen en verpleegkundigen zijn nog steeds veel tijd kwijt met de handmatige invoer van gegevens. Het aantal (digitale) formulieren en checklists dat zij moeten doorlopen is er niet minder op geworden. Er is winst te behalen door na deze digitalisering ook een automatiseringsslag te maken. Daarmee bedoelen we het automatisch afleiden van informatie uit de primaire bron, namelijk dat wat de zorgverlener vastlegt in het patiëntendossier. Het grootste gedeelte hiervan betreft geschreven tekst. Tekstmining technieken kunnen deze berg data ontsluiten. Tekstmining: toepassingsmogelijkheden in de zorg Vrije tekst in het patiëntendossier betreft onder meer ontslagbrieven, klinische decursus, verpleegkundige notities, OK verslagen, etc. Deze vrije tekst is niet alleen van groot belang voor het primaire zorgproces en overdracht tussen zorgverleners. Het is ook de bron voor verschillende toepassingen en aanvullende registratieprocessen. Denk aan de medische codering, bron voor indicatoren, DBC codering, etc. De tekst wordt handmatig gelezen en geïnterpreteerd. Dit deel kan met tekstmining geautomatiseerd worden. Verderop gaan we in op de verschillende technieken en methoden die hiervoor beschikbaar zijn. Er zijn talrijke toepassingsmogelijkheden van deze tekstmining technieken in de zorg. We lichten er een drietal uit die hieronder nader worden toegelicht. Pagina 1 van 4

Automatische codering van ICD10 en DBC codes Probleem: codering van ICD10 codes en DBC codes kost veel tijd, loopt achter en is onnauwkeurig of onvolledig. Oplossing: toepassing van tekstmining om automatisch ICD10 of DBC codes af te leiden uit de vrije teksten in het dossier. Voordeel is dat er geen variatie is tussen codeurs of artsen die de codes handmatig moeten invullen. Resultaat: eerste resultaten bij ICD10 codes voor de meest voorkomende diagnosen binnen chirurgie en cardiologie worden met een precisie van 0,94 toegekend. Dat wil zeggen dat in 94% van de gevallen de juiste code wordt gekozen. Businesscase: alleen al de medische codering van ICD10 diagnosen kost een gemiddeld ziekenhuis zo n 150.000 tot 200.000 euro. Als het ziekenhuis de ICD10 codes door de medisch specialist laat vastleggen zijn de kosten nog veel hoger. Daarnaast zijn in ieder ziekenhuis meerdere DBC controleurs aan het werk. Het automatiseren van deze processen levert een enorme besparing op. Automatisch in kaart brengen voorgeschiedenis Probleem: De informatie over de voorgeschiedenis van patiënten is versnipperd aanwezig in het EPD. De consequentie is dat artsen veel tijd kwijt zijn met zoeken naar de juiste informatie en niet zeker weten of ze een compleet beeld hebben. Dit kan tot gevolg hebben dat er soms relevante informatie wordt gemist, met de bijbehorende risico s voor de kwaliteit en patiëntveiligheid. Oplossing: Via tekstmining en gerelateerde technieken zowel de gestructureerde informatie als de vrije tekst met relevante informatie over de voorgeschiedenis van de patiënt bij elkaar te brengen. Resultaat: Artsen hebben sneller inzicht in de voorgeschiedenis van patiënten doordat de beschikbare informatie in één overzicht samengevat wordt gepresenteerd, met doorklikmogelijkheid naar de bron. Businesscase: Het alternatief voor bovengenoemde oplossing is het laten bestaan van de huidige situatie, waar artsen veel tijd kwijt zijn aan zoeken naar informatie op verschillende plekken in het EPD, met de nodige frustratie en risico s. Een ander alternatief is dat artsen handmatig alle gegevens in het (nieuwe) EPD invoeren: daarmee worden de duurste krachten van het ziekenhuis ingezet voor administratieve taken. De businesscase voor deze oplossing is dus snel gemaakt. Automatische detectie van adverse events Probleem: een ziekenhuis heeft slechts versnipperd inzicht in adverse events, op basis van meldingen of een zeer beperkte steekproef van dossiers waar handmatig tijdrovend dossieronderzoek wordt uitgevoerd. Daardoor is het lastig om patronen te herkennen en tot concrete verbeterpunten te komen. Oplossing: toepassing van tekstmining om adverse events op te sporen op dossiers van álle patiënten. Op die manier wordt de omvang en lokalisatie duidelijk. Dit biedt focus voor verbeterinitiatieven. Resultaat: eerste resultaten laten een precisie van 0,7 zien. Momenteel wordt in vier ziekenhuizen tekstmining toegepast voor detectie van adverse events. Businesscase: handmatig dossieronderzoek op een steekproef van dossiers, wat de meeste ziekenhuizen doen, kost jaarlijks ca. 75.000 euro. Het levert resultaten op van een zeer beperkte steekproef van patiënten, waarvan het doorgaans lastig is om tot concrete verbeterpunten te komen. Automatische detectie van adverse events levert niet alleen een besparing op, maar levert inzicht in adverse events over de gehele ziekenhuispopulatie. De tijd van betrokken professionals kan zo worden besteed aan de gebieden waar het grootste verbeterpotentieel ligt. Pagina 2 van 4

Tekstmining: methoden en technieken Tekstmining is volgens Wikipedia het proces om met allerhande ICT-technieken waardevolle informatie te halen uit grote hoeveelheden tekstmateriaal. Met deze technieken wordt gepoogd patronen en tendensen te ontwaren. Concreet gaat men teksten softwarematig structureren en ontleden, transformeren, vervolgens inbrengen in databanken, en ten slotte evalueren en interpreteren. De technologie die we gebruiken is afkomstig uit de wereld van big data science, tekstmining en kunstmatige intelligente. Een deelgebied van tekstmining is Natural Language Processing (NLP). Dit behelst de mogelijkheid van software om menselijke geschreven of gesproken taal te begrijpen. Concreet betekent dit dat de software verschillende eigenschappen van natuurlijke taal herkent, zoals synoniemen, typefouten, afkortingen, vage formuleringen en dialect. Dit is onder andere mogelijk doordat de software niet kijkt naar losse woorden maar naar de totale context waarin ieder woord staat. NLP maakt gebruik van kunstmatige intelligentie. Met kunstmatige intelligentie wordt menselijke intelligentie nagebootst door middel van computertechnologie. Om intelligentie, bijvoorbeeld het herkennen van een zorggerelateerde infectie, te vatten in een computermodel moet dit model gevuld worden met kennis over ziekenhuisinfecties. Dit leren van de computer kan enerzijds geoperationaliseerd worden door tussenkomst van mensen, dit heet supervised learning. Er wordt bijvoorbeeld een lijst met trefwoorden (concepten) ingevoerd die geassocieerd zijn met infecties in het ziekenhuis. Het is ook mogelijk dat de computer zelf in staat is om te leren zonder dat dit expliciet is ingeprogrammeerd (unsupervised learning). Deze techniek heet machine learning of deep learning. We maken gebruik van zowel NLP als machine learning. De software die wij toepassen is een verzameling van licentie software, open source software en maatwerk software. Het geheel kan beschouwd worden als de gereedschapskist van de hedendaagse data-scientist. Door toepassing van deze tekstmining technieken wordt een kennismodel opgebouwd over diverse werkgebieden. Dit model combineert de kennis van verschillende ziekenhuizen, uit zowel tekstbronnen als gestructureerde informatie. Ieder ziekenhuis dat tekstmining toepast zal dus gebruik maken van de beschikbare kennis uit andere instellingen. Uiteraard wordt altijd eerst de voorspellende waarde in de specifieke situatie van het ziekenhuis bepaald (zie ook onder het stappenplan). Plan van aanpak Wat is er nodig/ randvoorwaarden De data (tekstbestanden) waar de tekstmining op wordt losgelaten worden op een server in het ziekenhuis klaargezet. De data verlaat het ziekenhuis dus niet. Het gaat om een kopie van de data, waardoor het dus niet intervenieert met het primaire zorgproces. Er wordt door het ziekenhuis dus een lokale server beschikbaar gesteld. Medewerkers van ICT/ beheerders van het datawarehouse van het ziekenhuis zetten de data klaar op deze server. Afhankelijk van het ZIS/ EPD van het ziekenhuis en de omvang van de populatie kost dit ca 20 tot 40 uur. Dit kan eventueel ook door data-analisten van de Praktijk Index worden uitgevoerd. De Praktijk Index richt vervolgens de server in met de benodigde programmatuur en bewerkt de data zodat het in het juiste format staat om van start te kunnen met de tekstmining. Wordt de tekstmining real time toegepast (op dossiers van patiënten die op dat moment in het ziekenhuis liggen), dan is het noodzakelijk de data bijvoorbeeld dagelijks of ieder uur te actualiseren. Daarvoor moet de data-extractie uit het EPD worden geautomatiseerd. Pagina 3 van 4

Stappenplan Bij tekstmining toepassingen worden over het algemeen de volgende stappen doorlopen: 1. Initiatie: inrichten van de server, klaarzetten en voorbewerking van de data 2. Selectie: afhankelijk van het onderwerp en de toepassing wordt de selectie van dossiers gemaakt waar de tekstmining op wordt losgelaten. 3. Classificatie: Als input voor het te trainen model wordt gebruik gemaakt van betrouwbare geclassificeerde data die al aanwezig is in het ziekenhuis. Wanneer dit niet of onvoldoende aanwezig is, wordt een deel van de geselecteerde dossiers handmatig geclassificeerd door experts van de Praktijk Index, eventueel samen met experts van het ziekenhuis. Dit gebeurt door middel van onze classificatiesoftware. 4. Training: op basis van ca. 80% van de geclassificeerde dossiers wordt een kennismodel gemaakt voor de specifieke toepassing. Dit wordt waar van toepassing gecombineerd met de reeds beschikbare kennismodellen uit andere tekstmining toepassingen. 5. Validatie: de resterende 20% van de geclassificeerde dossiers worden gebruikt om het ontwikkelde kennismodel te toetsen en de nauwkeurigheid de sensitiviteit en positieve voorspellende waarde (recall) - te bepalen. Soms is het nodig een aantal iteraties van classificatie, training en validatie uit te voeren om tot de gewenste nauwkeurigheid te komen. Dit hangt uiteraard af van het onderwerp en de toepassing. 6. Toepassing: wanneer tijdens de validatie de gewenste nauwkeurigheid is gebruikt, kan het kennismodel op de andere dossiers worden losgelaten. Uiteraard kan vanuit de toepassing altijd kennis worden gegenereerd die weer kan worden gebruikt om het kennismodel verder te verbeteren. Het wordt daarmee continue doorontwikkeld en beweegt mee met veranderingen en ontwikkelingen. Het resultaat: werkende software die handmatige processen automatiseert De toepassing van tekstmining is vooral bedoeld om tijdsintensieve en dure processen in het ziekenhuis te automatiseren. Het resultaat is bijvoorbeeld een kennismodel waarmee ICD10 codes worden afgeleid, de voorgeschiedenis wordt geëxtraheerd of adverse events worden gedetecteerd. Deze resultaten worden in een softwaretool opgeleverd, afhankelijk van de specifieke wensen van het ziekenhuis. Privacy Zoals gezegd wordt de tekstmining lokaal in het ziekenhuis uitgevoerd, op een server waar de data beschikbaar wordt gesteld. De data verlaat het ziekenhuis dus niet. Het ziekenhuis bepaalt wie er toegang hebben tot de server en de resultaten van de tekstmining. Desgewenst kunnen de teksten geanonimiseerd worden door middel van speciale software die namen herkent en verwijdert. Patiënten kunnen een onderzoeksnummer toegekend krijgen, waarmee de herleidbaarheid naar de patiënt voor het ziekenhuis wordt geregeld, zonder dat onnodig tot de persoon herleidbare gegevens worden gebruikt. Uiteraard wordt de geheimhouding contractueel vastgelegd in een overeenkomst met de Praktijk Index. Contact en meer informatie Voor meer informatie kunt u contact opnemen met de Praktijk Index: Pieter-Frank van Boven 030-244 0326 / 06-41132465 info@depraktijkindex.nl www.depraktijkindex.nl Pagina 4 van 4