MACHINE LEREN VOOR E-DISCOVERY

Vergelijkbare documenten
Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Test doc.

Smartphone en computer als plaats delict

SEO & Retail Hoe maak je het verschil?

3. Charles Jeurgens E-discovery in de wereld van small and big data

Plan van Aanpak. Plan van Aanpak. November Student Naam: David Fremeijer Studentnr:

Een Visie op Datamanagement

Sourcing & Technologie. Gerard Mulder, Commercieel directeur, mulder@textkernel.nl,

Wilco te Winkel, Liesbeth Mantel Erasmus University Rotterdam,NL

WEB OF SCIENCE & SCOPUS

Van Papier naar Papierloos met iventionles,

Transformatie en Innovatie bij KPN Finance

SOFTWARE ENERGY FOOTPRINT LAB

Knowledge

Personeelsselectie: Van de theorie naar de praktijk

Evidence Based Practise versus Practice Based Evidence

Smart Cities Hoe technologie onze steden leefbaar houdt en slimmer maakt

TranSearch WEBPlus. Overzicht

Privacy aspecten van apps

Active2Gether. Smart coaching strategies that integrate social networks and modern technology to empower young people to be physically active

ALLEEN SUCCES MET EEN GOEDE ONDERZOEKSVRAAG!

Hoeveel gezondheid levert onze gezondheidszorg op?

uitnodiging 9 december 2015 symposium Eigen regie van werkenden met arbeidsrelevante klachten Lectoraat Arbeid & Gezondheid onderzoek

Laatst bijgewerkt op 2 februari 2009 Nederlandse samenvatting door TIER op 25 mei 2011

SPONSORPROGRAMMA. 22 e. International Student Congress of (bio)medical Sciences A LEADING FORUM IN WORLDWIDE RESEARCH EXCHANGE

Hoe kan wetenschappelijk onderzoek versneld worden met de diagnosethesaurus? Jan Verschuuren. Symposium DHD 24 september 2015

Jira Handleiding. DEVENTit - Implementatieplan Blad 1/10

Onderzoeksprogramma Crossmedia, Archiving, Discovery. Jaarverslag 2012

automatische zoekverbetering

Innovatiegericht Inkopen in de praktijk

Whitepaper. Personal Targeting Platform. De juiste content Op het juiste moment Aan de juiste persoon

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

Helpt het hulpmiddel?

LECTORAAT ZORG & INNOVATIE IN PSYCHIATRIE. Risicofactoren, leefstijl en de mondzorg bij jong volwassenen na vroege psychose

MISSING DATA van gatenkaas naar valide uitkomsten

Lectoraat & afstuderen. Goede resultaten voor bedrijven, afstudeerders en ICA-onderzoek

INHOUD WORKSHOP. Introductie Korte informatie over interventies. Interactieve discussie

Het ALICE Project: Beeldbellen voor ouderen

Welkom! GertJan Coolen

Zuiveren met verstand. RFID tags als verklikkers in de afvalwaterzuivering. S.A.C. (Saskia) Hanneman Innovatietechnoloog Waterschapsbedrijf Limburg

DE IMPACT VAN SAMENWERKING

Lessons Learned omtrent Predictive Analytics

Lieke van der Scheer, Department of Philosophy Lieke van der Scheer ISOQOL

EP-Nuffic Jaarcongres 2015 Doorlopende leerlijn: Internationale Competenties in het hoger onderwijs. Jos Walenkamp Lector Internationale Samenwerking

Systeemarchitecturen en opslag van gegevens

Masterproeven Wireless & Cable Research Group (WiCa) Aanbevelingssystemen

SpringerLink Quick Training

Evidence piramide. Gecontroleerde studies. Welk studie type? 19/02/ me ta.eu. Niet dezelfde piramide voor elke vraag. me ta.eu. me ta.

ASIS Benelux - VBN Nieuwjaarsbijeenkomst

E-Discovery Information Governance, Digital Archiving en AVG

Welcome. at Maastricht University. Faculteit der Rechtsgeleerdheid/Faculty of Law

Nieuws & RSS in DotNetNuke

Data driven. Het plan naar data driven business door advanced analytics Business.

Tinnitus kwaliteit van leven en kosten. Besluitvorming. Vergoeding in Nederland. Effecten: kwaliteit van leven. Economische Evaluatie

Bedrijfsbezoeken Edwin van Dijk Karen Jelgerhuis Swildens Asu Theisens. 28 januari 2014 Stibbe Annual Competition Law Update

Overzicht kwaliteitsregistraties in Nederland

Op zoek naar wetenschappelijke literatuur?

Van Samenwerking tot Valorisatie in Translationeel Diabetes Onderzoek

De invloed van curriculum-herontwerp op beeldvorming over wijkverpleegkunde en interventiekeuzen in de zorgverlening

Voorbereiding interactieve deel

Modernisering van het Dengue surveillance-systeem in Suriname

Electronisch affect monitoren met feedback-interventie in de behandeling van depressie: een randomized controlled trial

Klik om de stijl te bewerken. Welkom. Studeren met autisme

Turn-key platform Newz. Big Content & Semantics

Welkom bij de Partners van DAISY Jan Louws & Bob Versteeg

SEO voor lokale bedrijven

Inzet van kunstmatige intelligentie in het juridische domein

UvA-DARE (Digital Academic Repository) VR as innovation in dental education de Boer, I.R. Link to publication

MOTIE BEERTEMA 27/3/12:

Onderzoek naar de informatiehuishouding. Twee vragenlijsten vergeleken

AI & Big Data bij Defensie

SelfMED. Medicatie in eigen beheer van de patiënt gedurende de ziekenhuisopname Maken de voordelen de organisatorische uitdaging zinvol?

Transcriptie:

MACHINE LEREN VOOR E-DISCOVERY Hans Henseler Lector E-Discovery, HvA Symposium E-Discovery Robotisering van Informatiemanagement 21 april 2016, Congrescentrum van de Gemeente Amsterdam 1

KENNISKRING E-DISCOVERY Carla Bombeld David van Dijk Elmer Hoeksema Annika Kuyper Paul Rijnierse Zaochun Ren (UvA) David Graus (UvA) Nina Kramer (elaw) 2

3

EARLY CASE ASSESSMENT Early case assessment (ECA) verwijst naar het inschatten van het risico (kosten in tijd en geld) om een juridische zaak aan te spannen of te verdedigen. Grote organisaties worden met regelmaat verzocht electronische documenten beschikbaar te maken als gevolg van juridische discovery en disclosur verzoeken. http://en.wikipedia.org/wiki/early_case_assessment 4

EPLORATIEF ZOEKEN Onderzoekers weten niet precies waar ze naar op zoek zijn. Technologie kan gebruikers ondersteunen bij het verkrijgen van nieuwe inzichten in de data Bijvoorbeeld door interactieve zoekmogelijkheden aan te bieden Meta data helpt onderzoekers om zoekresultaten te filteren en in te zoomen op relevante delen. 5

SEMANTIC SEARCH IN E-DISCOVERY Project met Prof. Maarten de Rijke, Universiteit van Amsterdam (UvA) met subsidie van NWO. 3 PhD studenten. Slimmer zoeken naar bewijs in een grote hoeveelheid digitale informatie, zoals email en documenten.. Door semantisch te zoeken wordt er rekening gehouden met de betekenis van woorden in de contxt waarin ze gebruikt worden. Lectoraat E-Discovery https://ediscoverynl.dmci.hva.nl/

SEMANTIC SEARCH IN E-DISCOVERY Relevant projects in the past years: - Recipient recommendation (David Graus et al) - Topic detection and clustering (Zaochun Ren et al) - Semantic enrichment YourHistory (David Graus et al) - Who is involved (David van Dijk et al) - Uforia Universal Forensic Indexer (Arnim Eijkhoudt et al) - Time-aware Multi-viewpoint Summarization of Multi-lingual Social Tekst Streams (Zaochun Ren et al) - Dynamic collective entity representations for entity ranking (David Graus et al.) - Participation in Total Recall track from TREC (David van Dijk et al) http://ilps.science.uva.nl/publications/

TECHNOLOGY ASSISTED REVIEW Linear Review Keyword Search Linear Review Technology Assisted Review (TAR) 8

LINEAR VS PERFECT VS TAR Linear review (random ranking): Perfect review (all relevant docs first): Technology assisted review (improved ranking): 9

LINEAR VS PERFECT VS TAR 30 30 Linear 25 25 20 20 15 15 10 10 5 5 0 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 Linear Linear Perfect Perfect TAR Linear 10

TTR: INSPIRED BY PREDICTIVE CODING (TAR 1.0) 11

NADELEN VAN TAR 1.0 Het machine leren model wordt maar één keer getrained Een senior advocaat moet de voorbeeld verzameling samenstellen: Dat kost tijd Omdat er een random selectie wordt gedaan zullen er relatief veel oninteressante documenten door de senior beoordeeld moeten worden Vaak komen documenten in batches binnen Het werkt niet met verzamelingen waarin weinig relevante documenten zitten Verzameling met relatief weinig relevante documenten (low prevalence): 12

TTR: CONTINUOUS ACTIVE LEARNING (TAR 2.0) http://www.catalystsecure. com/blog/2014/08/continu ous-active-learning-fortechnology-assistedreview-how-it-works-andwhy-it-matters-for-ediscovery/ 13

TREC 2015: TOTAL RECALL (TTR) Taak: Identificeer alle documenten in een corpus die relevant zijn voor een bepaald onderwerp, stuk voor stuk, met zo weinig mogelijk inspanning Doel: evalueer, door een gecontroleerde simulatie, methoden om een hoge recall (tegen de 100%) te krijgen met een mens in de loop. Hoe: testen worden uitgevoerd in een testomgeving waarin zoeksystemen getest kunnen worden zonder dat gevoelige data toegankelijk hoeven te worden gemaakt aan de deelnemers. De testomgeving werkt als een black box, zodat de deelnemers ook de zekerheid hebben dat hun eigen systemen niet makkelijk nagebouwd kunnen worden. 14

TTR: TEST COLLECTIONS Oefenmateriaal: 20 Newsgroups Dataset (19K documents, three topics) Reuters-21578 Test Collection (22K documents, four topics) Enron dataset (724K emails, 2 topics) Competitie op eigen computers met downloads: Jeb Bush emails (redacted) (290K emails,10 issues) Illicit goods (465K web documents, 10 topics) Local politics (902K articles, 10 topics) Competitie in de testomgeving van TRAC (op afstand): Kaine email collection (402K emails, four categories) MIMIC II Clinical dataset (32K patient ICU reports, 19 ICD codes) 15