Handout Workshop Open Refine



Vergelijkbare documenten
Databank - Basis 1. Inhoud. Computervaardigheden en Programmatie. Hoofdstuk 4 Databank - Basis. Terminologie. Navigeren door een Venster

Handleiding Producten importeren via een spreadsheet programma

Handleiding invoeren van referenties in RefWorks

2.ouderbeleid.3.plaatsingsprocedure werk admini Pagina 1 van 14

Tips & Trucs ARCHICAD 117: Programma van Eisen add-on voor KeyMembers

ARCHIEFBEHEER. Basis gebruikersgids. > RS-Web

Opdracht 5a Kruistabellen

Uitleg site maken. Stap 2) Nu kiezen we de lay-out. Je kunt het aantal kolommen kiezen. Je kiest nu de eerste. Maar dit kun je later veranderen

Augustus& Handleiding - Publisher Tool 3

CEST-RICHTLIJNEN INVENTARISEREN. Bert Lemmens & Henk Vanstappen (PACKED vzw)

INDESIGN CS2 EEN KALENDER AUTOMATISCH OPMAKEN IN ADOBE INDESIGN CS2

U ziet de progressie van de download aan de groene blokjes in het balkje helemaal onder aan de pagina.

Handleiding Beaphar Retail Portal

FILEMAKER PRO Handleiding december 2009 Tine Defour

Bij het maken van deze opgave worden de volgende vragen beantwoord:

Instellen back up Microsoft SQL database Bronboek Professional

TEKST INVOEREN EN BEWERKEN

Handout bij de cursus RefWorks

Instructies annotatie experiment

Technische nota AbiFire Rapporten maken via ODBC

Met een LightSwitch applicatie een OData service uit de Windows Azure Marketplace consumeren

Handleiding Kaltura via Blackboard

B3Partners. Beheerhandleiding Datastorelinker 4.2. Gewijzigd: 28 maart B3Partners BV Bedrijvenpark Lage Weide Zonnebaan 12c 3542 EC Utrecht

Handleiding tabel binnen Tridion

6.8 Lijsten: oefeningen

TMC Summerschool. Workshop MicroStation CONNECT Editie: Werken met Item Types.

Using Google Maps Engine Connector for QGIS

Handleiding Kaltura via Blackboard

Spoilerfoto s meenemen op een GPSr.

In het CMS is het mogelijk om formulieren aan te maken. Voorafgaand een belangrijke tip:

Single Sign-On in ZIVVER met Okta

Inhoudsopgave. versie 0.8

Gebruikershandleiding 123OPSLAAN.NL. Gebruikershandleiding. Pagina 1

Blackboard Toetsvragen maken in Word

Statistische Operaties 1

cbox UW BESTANDEN GAAN MOBIEL! VOOR ANDROID-SMARTPHONES EN -TABLETS GEBRUIKERSHANDLEIDING

Met deze handleiding kunt u in alle rust de werking van het LeadQ lead management systeem in u opnemen.

Automatische Installatie op IIS server

Formulierbeheer Importeren bestaand (model)formulier... 2 Wat is exporteren/importeren eigenlijk?... 3 Formulier aanpassen/opbouwen...

Mei. Handleiding - Publisher Tool 1

Meten, weten & beleid. 'Kennisopbouw en kennisuitwisseling databeheer' Workshop 4 2. En in Gent? Stadsmonitorresultaten in vogelvlucht.

Een website maken met Weebly

Eindgebruikershandleiding TYPO3 CMS

Exporteren t.b.v. facturatiecontrole

Handleiding sms-dienst Adviesburo Pompoen

Subrapporten. 5.1 Inleiding

1. HOE MAAK IK EEN IPART EN PLAATS IK DEZE IN HET CONTENT CENTER?

1. Gebruikers & voertuigen Hoe voeg ik een gebruiker toe?... 3

WEBVERSIES met VUSURVEY Instructieblad vs 4 17 december 2013

Toelichting upgrade naar DNN 6.2.2

opstarthandleiding mysqlworkbench November 2012 Fons van Kesteren HVA- CMD- V1 Datamodelleren

Keuzepakket: ICT en onderwijs

Stappenplan App maken

HAND- OUT. password: statistieken support

Akternatieve doorrekenen. 7.2 Tabellen

Om de toegang te krijgen tot de. download het programma.

Een website maken met Weebly Alva ICT Karsten Campsteyn Jan Penders

Doelgroepselecties inladen in Linkedin

Tips & Trucs Solibri 010: Het maken van een Company Extension

Installatiehandleiding. ixperion Word Import. voor Windows 2008 R2 64bit. Smartsite ixperion WordImport Implementatie. Copyright

SQL is opgebouwd rond een basisinstructie waaraan één of meerdere componenten worden toegevoegd.

Waarom (geen) Excel? En: hoe komt u aan data?

OVM 2.0. Stappenplan. Leerling exporteren en importeren

In de tabel hieronder vindt u een beschrijving van de verschillende velden die kunnen voorkomen in uw import-bestand.

Editing Guide v1.2.2

Stappenplan OVM Leerling exporteren en importeren. DataCare maart Versie

Handleiding Kaltura via Blackboard

Searching and Downloading OpenStreetMap Data

Licht Catalogus CMS handleiding. Weij Reclamestudio

SQL manipulatietaal. We kunnen er data mee toevoegen, wijzigen en verwijderen uit een database.

Wat leuk dat je wilt werken met Glogster ( Maar wat is het?

User accounts maken in een Wandy Hotspot, d.m.v. een batch.

1) Inloggen op beheer omgeving a. Aanmelden b. Wachtwoord vergeten 2) Berichten a. All posts

CMS HANDLEIDING

BEDRIJVEN MONITOREN MET HET RISICO REGISTER

Handleiding P2Go upload

Het Gegevensmodel en draaitabellen in Excel 2013 (tip 193)

Koppeling Sooqr CCV Shop

Instructies voor aanpassen wandelroutes op openstreetmap.org

1. Introductie tot SPSS

Een account aanmaken voor weebly.

Stappenplan Infographic maken

Een XML SDD B2B bestand creëren op basis van een CSV bestand in Telelink6. Versie maart ing.be/sepa

b. Maak een histogram van de verdeling van het groeiseizoen. Kies eerst klassen en maak een geschikte frequentietabel.

Snel aan de slag met BasisOnline en InstapInternet

Report generator Gegevens zoeken en kolommen selecteren Rapporten opslaan en beheren... 6

1. Gebruikers & voertuigen Hoe voeg ik een gebruiker toe?... 3

1 Aanmelden nieuwe parkeer dataset

LES 11: VAN LOKAAL NAAR ONLINE. Lesoverzicht: Aan de slag Domeinnaam Web hosting FTP gegevens FTP programma s Database exporteren Samenvatting

Transcriptie:

Handout Workshop Open Refine Adlibgebruikersgroep 30.04.2015 Alina Saenko PACKED vzw Inge van Stokkom Rijksmuseum Inhoud: Deel 1. Introductie... 2 1.1 Installeren... 2 1.2 Dataset importeren in Open Refine... 2 1.3 Look & Feel... 2 1.4 Onnodige kolommen verwijderen... 2 1.5 Onnodige rijen verwijderen... 2 Deel 2. Schonen... 3 2.1 Waardes aanpassen (Grel expressions)... 3 2.2 Concepten samenvoegen (Cluster and edit)... 3 Deel 3. Normaliseren en verrijken... 3 3.1 Via een export - twee tabellen linken... 3 3.2 Reconciliation service... 4 3.3 Gegevens ophalen uit VIAF... 4 3.4 Gegevens ophalen uit AAT... 5 3.5 Gegevens ophalen uit Wikidata... 5 3.6 Gegevens ophalen uit Geonames... 6 Deel 4. Export... 6 4.1 Export voor adlib... 6 1

Deel 1. Introductie 1.1 Installeren http://openrefine.org/ 1.2 Dataset importeren in Open Refine Create Project -> Choose Files -> Next -> Character encoding: UTF-8 -> Parse data as (kies het juiste bestandsformaat) -> Voor csv-import: Columns are separated by > commas (CSV) -> Vul in een Project name -> Create Project 1.3 Look & Feel Verschillende manieren om je tabel te manipuleren: - Kolommen / cellen - Show as: rows/records - Show: 5 10 25 50 records - «first previous 1-10 next last» Eerste manipulaties - Facet&Filter - Undo/Redo - Sort 1.4 Onnodige kolommen verwijderen All > Edit columns > Re-order/remove columns -> Drag & drop columns > OK 1.5 Onnodige rijen verwijderen Stel in: Show as: rows Maak gebruik van facets en filters om een keuze te maken Voorbeeld 1: - Zet een ster tegenover rijen die je wilt verwijderen - Kies All -> Facet by star -> Select True - All > edit rows > remove all matching rows Voorbeeld 2: - Kies kolom Gemeente -> Text Facet -> Kies Brussel - All > edit rows > remove all matching rows 2

Deel 2. Schonen 2.1 Waardes aanpassen (Grel expressions) Voorbeeld: Vervang ongewenste schrijfwijze in kolom Materiaal Kies kolom -> Edit cells -> Transform -> Vul in de GREL expression: value.replace('potlood en inkt','potlood, inkt') Let op! cursieve tekens in de functie worden als een fout aangegeven Overzicht GREL functies: https://github.com/openrefine/openrefine/wiki/grel-functions 2.2 Concepten samenvoegen (Cluster and edit) Voorbeeld: Cluster and edit - in kolommen Ontwerpers en Type Gebouw Kies kolom met termen-> Edit cells -> Cluster and edit -> Kies de nodige waardes -> Klik op Merge Selected Deel 3. Normaliseren en verrijken Er zijn in ieder geval vier methodes voor reconciliation - geautomatiseerd de eigen termen met die van een autoriteit matchen. Ten eerste kan de autoriteit als lokaal bestand geüpload en vervolgens gekoppeld aan de eigen thesaurus worden (3.1). Er kan gebruik gemaakt worden van een speciaal opgezette reconciliation service, zoals Packed heeft gedaan voor de ODIS/RKD (3.2). Ten derde kunnen via de optie add column by fetching URLs gegevens automatisch opgehaald worden bij webservices zoals Openstreetmap.org (geografische coördinaten), Geonames.org (plaatsnamen), Wikidata, Viaf, en de Getty thesauri (AAT, TGN). Daarnaast is er een extension van OpenRefine ontwikkeld (DERI RDF Extension), waarmee de connectie met een autoriteit gemaakt kan worden. Dit staat verder uitgelegd op de bijzonder informatieve website Freeyourmetadata.org (een aanrader!) en wij gaan er hier niet verder op in. 3.1 Via een export - twee tabellen linken - Upload AAT bestand in OpenRefine - Werk verder in het project Adlibgebruikersgroep_workshop Maak een nieuwe kolom voor AAT-ids: Kies kolom Meubel > Edit column > Add column based on this column -> Enter a new column name AAT-id -> Laat GREL expression op value -> OK Kies kolom AAT-id > Edit cells >Transform > vul in de GREL expression: cell.cross("aat", "record - uf").cells["record - recordid"].value[0] -> OK 3

3.2 Reconciliation service Op voorbeeld van door PACKED opgestelde ODIS - reconciliation service -Kies kolom met de oorspronkelijke waardes -> Edit column -> Add column based on this column -> New column name: vb. ODISrecon -Reconciliation service toevogen: Kies Reconcile kolom -> Edit cells -> Reconcile -> Start reconciling -> Add standard service -> Enter the service's URL: Voor ODIS: http://projects.packed.be/reconciliation/reconciliation-generic/reconciliate_odis.php - Auto-match candidates with high confidence uitvinken -> Start reconciling -Kies van de voorgestelde resultaten de juiste -Haal de id en de term van de beste kandidaat op uit de gereconciled data: Kies kolom met persoonsnamen -> Edit column -> Add column based on this column -> New column name: ODISid -> vul in een GREL expression: cell.recon.match.id Kies kolom met persoonsnamen -> Edit column -> Add column based on this column -> New column name: ODISname -> vul in een GREL expression: cell.recon.match.name >> screenshot van RKD 3.3 Gegevens ophalen uit VIAF Identificeren met VIAF - Kies kolom met ontwerpers -> Edit column -> Add column by fetching URLs -> New column name: VIAFjson -> vul in de GREL expression: 'http://viaf.org/viaf/autosuggest?query=' + escape(value, 'url') -> optioneel wachttijd verminderen: zet Throttle delay op 1000 milliseconds - > OK - Haal VIAF id: Kies kolom VIAFjson -> Edit column -> Add column based on this column -> New column name: VIAFid -> vul in de GREL expression: value.parsejson().result[0].viafid - Haal VIAF term: Kies kolom VIAFjson -> Edit column -> Add column based on this column -> New column name: VIAFname -> vul in de GREL expression: value.parsejson().result[0].term - Maak persistente URI s ahv VIAF id s: Kies kolom VIAFid -> Edit column -> Add column based on this column -> New column name: VIAFuri -> vul in de GREL expression: 'http://viaf.org/viaf/' + value 4

Verrijking met geboorte- en sterfdatum uit VIAF - Kies kolom VIAFid -> Edit column -> Add column by fetching URLs -> New column name: VIAFxml -> vul in de GREL expression: 'http://viaf.org/viaf/' + escape(value,'url') + '/viaf.xml' -> zet Throttle delay op 1000 milliseconds -> OK - Kies kolom VIAFxml -> Edit column -> Add column based on this column -> New column name: VIAFbirth -> vul in de GREL expression: value.parsehtml().select('ns2 birthdate')[0].owntext() - Kies kolom VIAFxml -> Edit column -> Add column based on this column -> New column name: VIAFdeath -> vul in de GREL expression: value.parsehtml().select('ns2 deathdate')[0].owntext() 3.4 Gegevens ophalen uit AAT - Het volgende stappenplan haalt de AAT-identifier aan de hand van Nederlandse termen, om vervolgens daarmee de Engelse termen op te halen. Voor uitgebreider stappenplan zie de (verder ook zeer nuttige) website Semantic Web - Haal json op bij het Getty: Create column by fetching URLs -> 'http://vocab.getty.edu/sparql.json?query=select%20*%20{?x%20skos:inscheme%20aat :;%20%28xl:prefLabel xl:altlabel%29/gvp:term%20%22' + escape(value, 'url') + '%22@nl}' - Parse de url uit de json met -> Add column based on this column -> value.parsejson().results.bindings[0].x.value - Parse de identifier uit de url -> value[27,37] - Haal de Engelse term op met -> Add column by fetching URLs op de identifier-kolom -> 'http://vocab.getty.edu/sparql.json?query=select+*+where%0d%0a{%0d%0a++%3fx+g vp%3apreflabelgvp+[skosxl%3aliteralform+%3flabel]%3b%0d%0a++dc%3aidentifie r+%22' + escape(value, 'url') + '%22%0D%0A+++++}&_implicit=false&implicit=true&_equivalent=false&_form=%2Fspar ql' - Parse de json om de Engelse term eruit te halen met: -> value.parsejson().results.bindings[0].label.value 3.5 Gegevens ophalen uit Wikidata - Kies de kolom met namen -> Edit column -> Add column by fetching URLs -> name wikidata - > vul in de GREL expression: "http://www.wikidata.org/w/api.php?action=query&list=search&format=json&srwhat=text&srinfo= totalhits&srprop=titlesnippet&srlimit=1&srbackend=cirrussearch&srsearch=" + value - Haal wikidata ID: Kies kolom wikidata -> Edit column -> Add column based on this column -> New column name: vb. wikidataid -> vul in de GREL expression: foreach(value.parsejson().query.search,v,v.title).join(";") 5

- Maak persistente URI s: Kies kolom wikidataid -> Edit column -> Add column based on this column -> New column name: wikidatauri -> vul in de GREL expression: value.replace("q",http://www.wikidata.org/wiki/q) 3.6 Gegevens ophalen uit Geonames - Kies de kolom met namen -> Edit column -> Add column by fetching URLs -> name Geonames -> vul in de GREL expression: 'http://api.geonames.org/search?q=' + value + '&maxrows=10&username=demo' *Tip: Demo is voor een beperkt gebruik. Voor meer mogelijkheden creer een user account voor jezelf: http://www.geonames.org/login Op het einde van de GREL expression gebruik dan je username ipv demo - Haal Geonames ID: Kies kolom Geonames -> Edit column -> Add column based on this column -> New column name: vb. GeonamesID -> vul in de GREL expression: value.parsehtml().select('geonameid')[0].owntext().tonumber() - Maak persistente URI s: Kies kolom GeonamesID -> Edit column -> Add column based on this column -> New column name: GeonamesURI -> vul in de GREL expression: 'http://www.geonames.org/' + value Deel 4. Export 4.1 Export voor adlib Data exporteren uit OpenRefine Dataset in Adlib-tagged-bestand veranderen. Splits de kolommen waarin meerdere occurences voorkomen, met Edit column: split column into several columns. Voeg de tag van de kolom toe aan elke occurence, met Transform tostring("tag " + value) (bijv. TK + value) Voer bij elke kolom de acties Edit cells -> common transforms -> trim leading and trailing whitespace én -> collapse consecutive whitespace Voeg een extra kolom toe met in elke cel **, via Edit column, add column based this column **. Maak van de kolommen rijen, door op de eerste kolom te kiezen: Transpose cells across columns into rows, to 2 columns, Key column = naam1, Value column = naam2 Verwijder kolom naam1 (de oude kolomnamen) Export: csv/tsv, opslaan als.dat bestand via een teksteditor zoals Notepad++ Haal in Notepad de kolomnaam boven de enig overgebleven kolom weg 6