REVEALING SPATIAL AND TEMPORAL PATTERNS FROM FLICKR SANDER VAN DER DRIFT
TOENEMENDE ZORGEN OVER TOERISME EEN SELECTIE VAN RECENTE NIEUWS ARTIKELEN Toeristentrekker Amsterdam bezwijkt onder populariteit Algemeen Dagblad, 23 april 2015 'Amsterdam dreigt te disneyficeren' Het Parool, 8 februari 2015 Groei toerisme wordt Amsterdam te veel BNR Nieuwsradio, 23 april 2015 'Ze lopen kotsend en plassend over de Zeedijk' NOS, 5 december 2014 In 2030 heeft Amsterdam twee keer zoveel toeristen als nu Het Parool, 9 december 9 2014
A DAM INSTITUTE FOR ADVANCED METROPOLITAN SOLUTIONS NIEUW WETENSCHAPPELIJK INSTITUUT Kunnen we toeristenstromen in Amsterdam analyseren op basis van (geo)tweets? Maar waarom Twitter? Wat denken jullie van Flickr? Twitter Flickr Aantal gebruikers + + + + Hoeveelheid data + + + + Relatie tussen data en echte locatie + / - + + Gebruik door toeristen + / - + + Interval tussen Tweets / foto s + / - + +
ONDERZOEKSVOORSTEL DOEL Het doel van dit exploratieve onderzoeksproject is om methoden te ontwikkelen, implementeren en testen waarmee ruimtelijke en temporele patronen van toeristen kunnen worden afgeleid van een grote dataset met geotagged Flickr photos GLOBALE INHOUD VAN ONDERZOEKSVRAGEN RQ-01: Literatuurstudie RQ-02: Ontwikkeling en implementatie van methoden RQ-03: Validatie van resultaten
FLICKR DATA DOWNLOADEN OVERZICHT VAN STAPPEN & TECHNIEKEN
FLICKR DATA DOWNLOADEN OVERZICHT VAN STAPPEN & TECHNIEKEN Request Metadata Flickr database (API) XML-file Java applicatie Lokale database (PostgreSQL) Restrictie: 1 request per seconde
FLICKR DATA DOWNLOADEN STAP 1: VERZAMELEN VAN PHOTO ID S PER BOUNDING BOX (1550) Zoek parameters: Xmin, Xmax, Ymin, Ymax Minimale datum: 1 januari 2005 Maximale datum: 31 december 2014 Resultaat: Foto ID Gebruikers ID Foto titel
FLICKR DATA DOWNLOADEN STAP 2: VERZAMELEN VAN AANVULLENDE METADATA Zoek parameters: Foto ID, geïdentificeerd in stap 1 Resultaat: Latitude, longitude (locatie) Datum en tijd Gebruikersnaam Thuislocatie van gebruiker Tags Foto URL Nauwkeurigheid locatie 2.849.261 foto s Downloadtijd: +/- 5 weken
FLICKR DATA VERKENNING ALLE FOTO S OP EEN KAART
FLICKR DATA VERKENNING SELECTIE VAN FOTO S IN GOOGLE EARTH
CLASSIFICATIE VAN TOERISTEN GEBASEERD OP THUIS LOCATIE VAN GEBRUIKER
CLASSIFICATIE VAN TOERISTEN GEBASEERD OP THUIS LOCATIE VAN GEBRUIKER 1. Classificatie met behulp van SQL (8628 users - 54%) UPDATE users SET countryname = 'Japan', istourist = 'True', classification = 'SQL' WHERE geoname = '' AND userid IN (SELECT userid FROM users WHERE (userlocation ~* '\y(japan nippon 日 本 )\y')) 2. Classificatie met behulp van online geocoding (450 users - 3%) Tokyo Tokyo PostgreSQL (Lokale database) Japan Java Applicatie Japan Geonames API (Externe database) Locatie gebruiker = Tokyo Tokyo = Japan
CLASSIFICATIERESULTATEN AMSTERDAM AANTAL UNIEKE FOTOGRAFEN 7.000 5.250 6.257 6.914 3.500 1.750 2.821 0 Locals Toeristen Onbekend 17,6% 39,1% 43,2% Overall accuracy = 99%
CLASSIFICATIERESULTATEN AMSTERDAM AANTAL UNIEKE FOTO S 160.000 154.599 120.000 132.213 107.016 80.000 40.000 0 Foto s locals Foto s toeristen Onbekend 39,3% 27,2% 33,6% Overall accuracy = 99%
CLASSIFICATIERESULTATEN AMSTERDAM FOTO S VAN EEN AANTAL JAPANSE TOERISTEN IN AMSTERDAM
CLASSIFICATIERESULTATEN AMSTERDAM FOTO S VAN EEN AANTAL LOCALS IN AMSTERDAM
CLASSIFICATIERESULTATEN AMSTERDAM RELATIEF AANTAL TOERISTEN PER NATIONALITEIT (2013) Verenigde Staten Verenigd Koninkrijk Duitsland Italië Spanje Frankrijk 0% 5% 10% 15% 20% Nationaliteiten op basis van Flickr foto s (2013) Nationaliteiten op basis van CBS hotelovernachtingen (2013)
TEMPORELE SPREIDING VERSCHILLENDE SCHAALNIVEAUS
TEMPORELE SPREIDING RELATIEF AANTAL TOERISTEN VERGELEKEN MET FOTO S TOERISTEN (2005-2014) 10% 8% Toeristen Foto s toeristen Relatief veel foto s overdag 6% 4% 2% 0% 1:00 2:00 3:00 4:00 5:00 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 22:00 23:00 0:00
TEMPORELE SPREIDING RELATIEF AANTAL TOERISTEN VERGELEKEN MET LOCALS (2005-2014) 10% 8% 6% Toeristen Locals Ander piekmoment Locals maken meer foto s in de avond 4% 2% Toeristen maken relatief meer foto s in de nacht 0% 1:00 2:00 3:00 4:00 5:00 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 22:00 23:00 0:00
TIMESTAMP VALIDATIE TIJDSVERSCHIL TUSSEN TIJD VAN FOTO EN ECHTE TIJD Exacte match 2 uur verschil
TIMESTAMP VALIDATIE TIJDSVERSCHIL TUSSEN TIJD VAN FOTO EN ECHTE TIJD Selectie alle foto s met clock tag alle foto s bij het centraal station 1032 foto s van locals 1134 foto s van toeristen Resultaat 70 geschikte foto s van toeristen 50 geschikte foto s van locals
TIMESTAMP VALIDATIE TIJDSVERSCHIL TUSSEN TIJD VAN FOTO EN ECHTE TIJD 80% 60% Locals Toeristen 40% 20% 0% -10:00:00-9:00:00-8:00:00-7:00:00-6:00:00-5:00:00-4:00:00-3:00:00-2:00:00-1:00:00 0:00:00 1:00:00 2:00:00 3:00:00 4:00:00 5:00:00 6:00:00 7:00:00 8:00:00 9:00:00 10:00:00
TEMPORELE SPREIDING FOTOGRAFEN PER DAG VAN DE WEEK (2005-2014) 20% 15% Toeristen Locals 10% 5% 0% Maandag Dinsdag Woensdag Donderdag Vrijdag Zaterdag Zondag
TEMPORELE SPREIDING FOTOGRAFEN PER MAAND (2005-2014) 12% 10% Toeristen Locals 8% 6% 4% 2% 0% Januari Februari Maart April Mei Juni Juli Augustus September Oktober November December
TEMPORELE SPREIDING TOERISTEN EN BUITENLANDSE HOTELGASTEN PER MAAND (2012+2013) 12% 10% Toeristen (Flickr 2012 + 2013) Buitenlandse hotelgasten (CBS 2012 + 2013) 8% 6% 4% 2% 0% January February March April May June July August September October November December
TEMPORELE SPREIDING FOTOGRAFEN PER DAG VAN HET JAAR (2005-2014) Locals Toeristen Koninginnedag 1 365
RUIMTELIJKE SPREIDING GRID-BASED CLUSTERING
RUIMTELIJKE SPREIDING GRID-BASED CLUSTERING 1 1 2 1 1 1 1 1 2 3 1 1 1 1 1 1 1 1 2 1 1 1 1
RUIMTELIJKE SPREIDING GRID-BASED CLUSTERING RECHTHOEKIG GRID HEXAGON GRID Voordelen van een hexagon grid: Minst afwijkende vorm van cirkel waarmee een grid kan worden gevormd 6 topologisch gelijke buurcellen Minder richting bias, geschikter voor het visualiseren van corridors
RUIMTELIJKE SPREIDING UNIEK AANTAL TOURISTEN PER HEXAGON IN GOOGLE EARTH
RUIMTELIJKE SPREIDING ÉÉN VAN DE TOP HIGHLIGHTS, 'I AMSTERDAM'
RUIMTELIJKE SPREIDING DENSITY-BASED CLUSTERING
RUIMTELIJKE SPREIDING DENSITY-BASED CLUSTERING DBSCAN: Density-Based Spatial Clustering for Applications with Noise Ontdekt clusters van verschillende vormen and maten Niet gevoelig voor ruis zeer geschikt voor social media data Eps: radius zoekgebied MinPts: minimum aantal punten in zoekgebied Eps Noise MinPts=4
RUIMTELIJKE SPREIDING ALLE FOTO S OP EEN KAART
RUIMTELIJKE SPREIDING TOEWIJZEN PUNTEN AAN CLUSTERS
RUIMTELIJKE SPREIDING CONCAVE HULL OM CLUSTERS
RUIMTELIJKE SPREIDING IDENTIFICATIE VAN CLUSTERS DOOR FOTO TAGS VAN GEBRUIKERS
TOERISTISCHE ROUTES
TOERISTISCHE ROUTES ÉÉN DAG IN HET LEVEN VAN EEN TOERIST
TOERISTISCHE ROUTES LINEAIRE ROUTES VAN MEERDERE TOERISTEN
TOERISTISCHE ROUTES LINEAIRE ROUTES TUSSEN CLUSTERS
TOERISTISCHE ROUTES RELATEREN ROUTES AAN STEDELIJK WEEFSEL MET ROUTING ALGORITME Lineaire route Route over het netwerk
TOERISTISCHE ROUTES TOERISTEN NEMEN VAAK DE MEEST POPULAIRE ROUTES
TOERISTISCHE ROUTES FOTO S SELECTEREN VOOR ROUTING ALGORITME 1. Lijst opstellen met paren van opeenvolgende fotolocaties per toerist Fotolocatie A Fotolocatie B Fotolocatie B Fotolocatie C 2. Berekenen afstand, tijdsinterval en snelheid per foto paar 3. Selecteren van foto paren binnen de volgende thresholds: Afstand > 50 m en < 750 m Tijdsinterval > 0 sec en < 600 sec Snelheid > 1 km/h en < 5 km/h 4. Berekenen network node voor start en eindpunt van elk paar
TOERISTISCHE ROUTES BEREKENEN ROUTES AND SAMENVOEGEN TOT ROUTE DENSITY MAP 1. Berekenen routes voor 6,477 foto paren met routing algoritme 2. Samenvoegen en tellen van overlappende delen van routes 3. Visualiseren van toeristische routes
TOERISTISCHE CLUSTERS EN ROUTES VALIDATIE VAN RESULTATEN Probleem: Geen vergelijkbare kwantitatieve data beschikbaar Oplossing: Expert judgement met behulp van enquette Deelnemers: 8 toerisme experts van verschillende afdelingen van de gemeente Amsterdam
TOERISTISCHE ROUTES VALIDATIE VAN RESULTATEN DOOR 38 TOERISME EXPERTS -> ZELFVERZEKERD (5/5) Match: 100% 75% Match: 50% 67% Match: 75% 67% Match: 100% Match: 100% Match: 100% 63%
TOERISTISCHE CLUSTERS AND ROUTES VALIDATIE VAN RESULTATEN * ** Correctheid Bruikbaarheid # Functie resultaten[1-5] resultaten 1 Beleidsmaker verkeer & publieke ruimte 4 [1-5] 5 2 Data Analist, Informatie en Statistiek 4 4 3 Senior Adviseur Verkeersmanagement 4 4 4 Onderzoeker, Informatie en Statistiek 3 4 5 Senior Adviseur Verkeersonderzoek 5 4 6 Stedenbouwkundige 5 5 7 Stedenbouwkundige 4 5 8 Stedelijk ontwerper 4 5 4.1 4.5 Hoe goed vertegenwoordigen de resultaten de echte situatie? Zijn de uitkomsten bruikbaar voor u of uw organisatie? * **
BEDANKT VOOR JULLIE AANDACHT! NEEM GERUST CONTACT OP VOOR VRAGEN OF OPMERKINGEN