Modellen en data-acquisitie. acquisitie. Bart de Boer University of Washington Center for Mind, Brain and Learning & AI-Lab Vrije Universiteit Brussel

Vergelijkbare documenten
In deze les. Het experiment. Hoe bereid je het voor? Een beetje wetenschapsfilosofie. Literatuuronderzoek (1) Het onderwerp.

Cover Page. The handle holds various files of this Leiden University dissertation.

Continuous Learning in Computer Vision S.L. Pintea

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

Gemeente Rotterdam TNO Ministerie van OCW Ministerie van BZK. Rotterdamse Data Science Analyse Jeugd

Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse

Educational dataforensics

MACHINE LEARNING. Een egocentrische presentatie door een data scientist van Axians. Michel van Gelder Data Scientist bij Axians

Cover Page. The handle holds various files of this Leiden University dissertation.

PHOTOSHOP KLEURENBEELDEN OMZETTEN NAAR ZWART WIT ARTISTIEKE OPLEIDING > OSTYN G

A Data Driven Journey Pieter de Kok RA AANJAGER CONEY. 31 oktober 2018

David Weenink. Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam. Spraakverwerking per computer. David Weenink.

Verandert AI ons werk?

Algemene Taalwetenschap. Hogeschool van Amsterdam Josefien Sweep

KWANTITATIEF TESTEN. experimenteel ontwerp (MIT 14) statistische analyse (MIT 15)

Replicatieonderzoek. Foeke van der Zee (Hulp bij Onderzoek, Groningen, versie 2, februari 2016)

Betekenis van vaderschap

STEM STEM. Wat? Waarom? Hoe? STEM kader. Science Technology Engineering Mathematics. Wetenschap Techniek Ontwikkeling Wiskunde

Transfer en toegang tot Universele Grammatica in tweedetaalverwerving door volwassenen

Samenvatting SAMENVATTING

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

Efficient Coding in Speech Sounds: Cultural Evolution and the Emergence of Structure in Artificial Languages T. Verhoef

nederlandse samenvatting Dutch summary

Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016

Living Labs : NFI & RvdK Samen onderweg naar meer grip op data. JenV I-tour presentatie 24 april 2018

De ontwikkeling van een heropnamemodel. Corine Penning, Jan van der Laan, Agnes de Bruin (CBS) Landelijke Themabijeenkomst Heropnamen DHD

Classification - Prediction

Psychoakoestiek. Universität Göttingen,

Kleine hersenen die voor grote verrassingen zorgen

KWANTITATIEF TESTEN. experimenteel ontwerp (MIT 14) statistische analyse (MIT 15)

REACH. Meetgegevens zijn nuttig onder REACH

94 Samenvatting te vervormen, wordt de huid bijzonder stijf bij grotere vervormingen. Uit onderzoek is gebleken dat deze eigenschap deels toe te schri

Nederlandse samenvatting. Spraak bij verschillende soorten:

WAAR JE ZIT IS WAAR JE STAAT

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Computer Vision: Hoe Leer ik een Computer Zien?

Workshop. Dataverzameling. Van onderzoeksvraag naar data

Het voorspellen van de akoestiek in sportzalen

Akoestiek. Geluid zichtbaar gemaakt. Golfvormen. Geluid zichtbaar gemaakt. Golfvormen. Golfvormen. Overzicht

Mens en machine. Gert-Jan Lokhorst

LESSON STUDY IN DE TWEEDEGRAADS LERARENOPLEIDING

Workshop. Dataverzameling. Van onderzoeksvraag naar data

Onderzoekswegen voor pedagogisch onderzoek

Laagfrequent geluidshinder klacht woning Losser

Amsterdam University of Applied Sciences. Leren redeneren en experimenteren met concept cartoons Kruit, P.M. Link to publication

Samenvatting Impliciet leren van kunstmatige grammatica s: Effecten van de complexiteit en het nut van de structuur

3M SCIENCE CHALLENGE VOOR DE LEERLINGEN

11. Multipele Regressie en Correlatie

INZET VAN MACHINE LEARNING

Assignment impulse measurement door David Cok

Cover Page. The handle holds various files of this Leiden University dissertation.

A. Business en Management Onderzoek

In Pursuit of Lepton Flavour Violation. A search for the τ -> μγγ decay with ATLAS at s = 8 TeV. I. Angelozzi

De multimodale interface van de smartphone. Hester van Slooten

Examenprogramma wiskunde D vwo

M629 M650 M665 M686 M628

Digitale overheid van de Toekomst, 28 september Workshop: De praktijk in een datalab

Cover Page. The handle holds various files of this Leiden University dissertation.

Dutch summary

Lagers: stop de test?

Samenvatting. Synchronisatie met fractal ritmes: Complexiteit matching bij statistische structuur

Betere resultaten door onbewust leren. Cogitare! Frances S. Voet

Data driven. Het plan naar data driven business door advanced analytics Business.

ASSR als onderdeel van de audiologische diagnostiek bij jonge kinderen

HETEROGAMIE IN OPLEIDINGSNIVEAU:

Nationaal verkeerskundecongres 2017

Populaties beschrijven met kansmodellen

Cover Page. Author: Herbonnet R.T.L. Title: Unveiling dark structures with accurate weak lensing Date:

Nederlandse samenvatting. Verschillende vormen van het visuele korte termijn geheugen en de interactie met aandacht

Data Mining. Arno Siebes

Hoofdstuk 5. Het onderzoeksontwerp

Strategiegebruik en prestaties bij vermenigvuldigen en delen in groep 8

Quantum theorie voor Wiskundigen. Velden en Wegen in de Wiskunde

Dynamisch testen. Bruikbaar voor het inschatten van leerbaarheid? Hileen Boosman, Anne Visser-Meily, Caroline van Heugten

Machinaal leren, neurale netwerken, en deep learning

Ontsluiten van gesproken documenten. Arjan van Hessen

Proeftentamenvragen UE&UX Utrecht, 20 juni Disclaimer

Taalverwerving en Interpretatie (cursushandleiding)

Het (on)meetbare brein

Fysieke fitheid meten bij kinderen met een verstandelijke beperking. Marieke Wouters, Aleid Laan, Laurine Croonen NVFVG congres - april 2015

TECHNISCHE HANDLEIDING IQ TEST

werkcollege 7 - D&P10: Hypothesis testing using a single sample

Achter de schermen bij een chatbot selectie en implementatie. Muriël Serrurier Schepper

Wat te doen met die lange variabele- labels in SPSS?

Onderzoek naar aardbevingen en de relatie met activiteiten in de ondergrond

Het computationeel denken van een informaticus Maarten van Steen Center for Telematics and Information Technology (CTIT)

Bouw je eigen serre!

Informatie ophalen uit het Alfabet

Veldwerk innovatie project

Ontdek jouw persoonlijke top-3 interessante studies met deze 5-stappen oefening.

Rol van de leerkracht in exploratie- en redeneerproces van kinderen

SMART SOCIETY IN NEDERLAND

Creatief onderzoekend leren

WETENSCHAPPELIJK ONDERZOEK. Wat is dat? Eva van de Sande. Radboud Universiteit Nijmegen

Hoe doe ik een onderzoeksproject

Samenvatting Gedragsexperimenten

Controle van de romp bij lagerugpijnpatiënten

FEAST. Europees project 5 science centers ontwikkelen workshops voor ouders

Personiceren van stemmen met Deep Learning

Data Mining: Classificatie

Transcriptie:

Modellen en data-acquisitie acquisitie Bart de Boer University of Washington Center for Mind, Brain and Learning & AI-Lab Vrije Universiteit Brussel

In deze les Nadere kijk op de empirische cyclus Waarom en hoe modelleren? Problemen van data-acquisitie Case-study over hoe spraak geleerd wordt

De empirische cyclus 1) Observatie van een fenomeen 2) Maak een voorlopige theorie 3) Maak een voorspelling/formuleer een vraag 4) Doe een gecontroleerd experiment 5) Kijk of data je vraag beantwoordt 6) Pas theorie aan en ga naar stap 3)

Voor welke wetenschap? Natuurwetenschap Makkelijk te controleren experimenten Vaste werkelijkheid Sociale- & menswetenschap Vaste werkelijkheid (?) Experimenten moeilijk te controleren Niet: filosofie, theologie, wiskunde Geen vaste werkelijkheid

Focus in deze les Hoe vergaar je data? Hoe test je een theorie? Vooral over cognitieve vraagstukken Niet altijd evident Experimenten lastig/onethisch/onuitvoerbaar Daarom: modelleren

Problemen met experimenten Lastig Experimenten met grote hoeveelheden proefpersonen, of met lastig te controleren variabelen Onethisch Veel experimenten met cognitieve ontwikkeling Onuitvoerbaar Klimaatsveranderingen

Computermodellen (1) Je kunt ermee doen wat je wilt Maar: je test niet de werkelijkheid, maar de theorie Overeenkomst model/werkelijkheid onderzoeken Ook: Soms is je theorie zo complex dat je niet zomaar het gedrag kunt voorspellen Sommige fenomenen zijn (nog) niet meetbaar

Computermodellen (2) Interactie model-werkelijkheid Test model met echte data Vergelijk gedrag van het model met gedrag van de werkelijkheid Computermodel maakt dataacquisitie niet overbodig

Data-acquisitie acquisitie (1) Meten is niet eenvoudig Gegeven een theorie en een vraag over die theorie Voorbeelden: klimaatsverandering Wat voor input hebben kinderen nodig voor het leren van taal?

Data-acquisitie acquisitie (2) Wat meet je? Welke grootheid vertelt je iets over het probleem? Welke waarden kan die grootheid aannemen? Hoe meet je die grootheid? Meten niet altijd makkelijk (temperatuur) Nog ingewikkelder met mensen (intelligentie )

Data-acquisitie acquisitie (3) Hoe filter je de data? Teveel rauwe data. Ruis Vergelijken verschillende instanties: vind invariante eigenschappen Hoe vergelijk je data met je theorie en met andere data? Statistiek Chi-by-eye

Problemen experimenten Experimenten gebruiken ook al zijn ze misschien niet goed Kost (tijd, geld) Prestige Carrière Alleen zien wat je wilt zien Data selectie (massage van de data) Statistiek manipuleren Manipulatie van t experiment Dit alles gaat vaak onbewust!

Case study verwerving spraak Observatie: Volwassenen praten anders tegen kinderen dan tegen andere volwassenen Infant-directed (ID) en adult-directed (AD) speech Idee: Dit vervult een nuttige functie Beter leerbaar

Paper Patricia K. Kuhl, Jean E. Andruski, Inna A. Chistovich, Ludmilla A. Chistovich, Elena V. Kozhevnikova, Viktoria L. Rysinka, Elvira I. Stolyarova, Ulla Sundberg, Francisco Lacerda Cross-Language Analysis of Phonetic Units in Language Addressed to Infants Science 277, 1 Augustus 1997 Engels, Russisch, Zweeds

Wat is nodig voor leerbaarheid? Vind de spraakklanken van taal Unsupervised classification Aandacht van het kind Duidelijke categoriën 1) Langer 2) Makkelijker herkenbaar 3) Verder van elkaar 4) Compacter

ID en AD spraak Babies blijken ID spraak te verkiezen ID is langzamer ID heeft groter intonatiebereik Is het ook beter gearticuleerd? Kuhl et al. (1997) hebben aangetoond dat het beter gearticuleerd is. Hoe hebben ze dit gedaan? Is het ook echt beter leerbaar?

Hoe meet je goede articulatie? De articulatoren zelf zijn niet te meten in een natuurlijke setting Röntgenfilm (gevaarlijk, markers op de tong nodig) Indirekt te meten via akoestiek Articulatie van klinkers verdeelt het spraakkanaal in verschillende holtes Resonanties van holtes beïnvloeden het akoestisch signaal

Meten van de akoestiek Resonanties veroorzaken pieken op bepaalde frequenties In theorie zijn die af te leiden uit het signaal Probleem: Je kunt ze alleen meten als je weet waar ze zitten.

Experiment 30 moeders (Gustafson 1991) Moeders spelen met kind (ID) en praten met experimentator (AD) ~half uur per moeder Gebruiken woordenlijsten/voorwerpen: Sheep, beads, keys, pot, top, sock, boot, spoon, shoe(s) /i/, /a/, /u/ Aanname voor vergelijkbaarheid: moeders spreken die woorden hetzelfde uit.

Problemen Oversturing opnames Te zacht praten Accent Vergeten woorden Door elkaar praten Speelgoedgeluiden Geluid om aandacht kind te trekken Babygeluiden (huilen, pruttelen, boeren) Babies vallen in slaap

Selecteer en digitaliseer Selecteer moeders Welke criteria? Selecteer woorden per moeder Criteria? Selecteer begin/eind klinker en midden

Vergelijken ID en AD spraak Statistische tests Oppervlakken driehoeken van eerste en tweede formant significant Wat is er allemaal niet significant? Kun je alle moeders wel zomaar op een hoop gooien?

Tussenconclusie ID-speech beter gearticuleerd Maar is het ook beter leerbaar? Want: ook meer variatie Variatie ongunstig voor leren Experimenteel te testen Maar onethisch, en onuitvoerbaar

Test met computermodel Unsupervised classification Gegeven een dataset Vind uit hoeveel clusters er zijn en waar die liggen Dataset bestaat uit een aantal tijdreeksen (gedigitaliseerde woorden) (maar voorlopig worden ze beschouwd als statisch in de tijd) Gebruik oorspronkelijke opnamen als input

Algoritmes Signaalverwerking Frequentiespectrum (FFT) Gladgemaakt op perceptueel realistische manier Discrete Cosine Transform Clustering door iterative valley seeking (Fukunaga 1990) Cognitief plausibel Maar beter begrijpbaar dan Neuraal Netwerk

signaal Signaalverwerking spectrum gewogen cepstrum gewogen spectrum

Clustering resultaat (1)

Clustering resultaat (2)

Resultaten Clustering werkt (soms) Maar geen verschil tussen ID en AD spraak ID spraak heeft vaak teveel variatie Sommige moeders goed in beide registers, andere slecht in beide Ook: te weinig data

Wat zijn de problemen? Klinkers blijken toch niet statisch te zijn, maar veranderen over de tijd Origineel onderzoek liet ook zien dat begin, midden, eind verschillend waren Maar ook dat ze verder uit elkaar liggen voor ID spraak.

En verder Variatie lijkt grootste probleem Ook verandering in de tijd levert problemen op Nieuw onderzoek: Variatie in ID/AD spraak Nieuwe data verzamelen zonder de oude fouten Start nieuwe ronde in de empirische cyclus.