2. Waarneming 2.1. Inleiding Functieleer: deel 1 Waarneming is zonder meer één van de belangrijkste psychologische functies. Belangrijk voor overleving Waarneming past ons gedrag aan aan de omgeving Waarneming is een belangrijk beginpunt voor het menselijk functioneren om verschillende redenen: - Logisch vertrekpunt Gedrag vertrekt vanuit interne of externe prikkels die geregistreerd en verwerkt worden, waarna gedrag in gang wordt gezet in functie van deze prikkels. S-R model (input-output): gedrag wordt afgestemd op de omgeving om een doel te bereiken - Waarneming wordt al lang bestudeerd Sensoriële psychofysica stond ermee aan de wieg van de psychologie en door intense interactie tussen psychologie en andere wetenschappen is er een stevige wetenschappelijke basis om snel vooruitgang te boeken en tot solide basiskennis te komen. - Waarneming is een prototypisch onderwerp binnen de functieleer omdat alle aspecten daarin aan bod komen en alle grote theoretische stromingen er onderzoek over hebben gedaan Toespitsen op visuele waarneming (= belangrijkste) Wat maakt waarneming belangrijk en interessant? - Vanuit het menselijk functioneren, is waarneming een venster op de wereld Zicht op werkelijkheid, om ons gedrag aan te passen aan de omstandigheden - Vanuit de wetenschap, is waarneming een echt venster op de geest Waarneming is het prototype van het geest-lichaam probleem: Een centrale vraag bij de waarnemingsonderzoekers is: why do things look the way they do? 1935: Koffka vroeg zich dit voor het eerst af in zijn boek Principles of Getalt psychology De mogelijke antwoorden op deze centrale vraag zijn onder te verdelen in 2 categorieën: - Omdat de dingen zijn wat ze zijn - Omdat de onderzoekers zijn wat ze zijn Representatief voor de filosofische discussie tussen objectivisme en subjectivisme, tussen empirisme en rationalisme en tussen materialisme en idealisme. 1
2.2. Basisnoties van het oog en het visueel brein a) De input van waaruit visuele waarneming dient te vertrekken Het oog is geen perfect optisch instrument. Fundamentele oorzaak: evolutie Visuele waarneming komt voort uit een geëvolueerd biologisch systeem Geen perfecte registratie van de fysische realiteit, maar een subjectieve constructie die soms grondig verschilt van de fysische realiteit. Het oog bestaat uit meerdere componenten en is niet op de juiste manier gebouwd zodat er een perfecte optische registratie en verwerking is van de prikkels De lichtgevoelige receptoren (kegeltjes en staafjes) zitten achteraan in het netvlies (= retina) Kegeltjes (cones) zijn geconcentreerd in de fovea Staafjes (rods) zijn minder goed voor details Verklaring: staafjes leveren een ander voordeel. Staafjes blijven bij minder licht beter werken en ze zijn meer geschikt om snel veranderende prikkels te verwerken. Het netvliesbeeld is veel waziger, behalve in het centraal deel van het visueel veld en staat op zijn kop Bijkomend probleem: ter hoogte van de plaats waar de optische zenuw vertrekt naar de hersenen, liggen geen receptoren = Blinde vlek, maar we merken dit niet omdat we met twee ogen kijken en omdat onze ogen voortdurend bewegen De input bestaat uit een reeks opeenvolgende netvliesbeelden We maken ongeveer 2 à 4 snelle oogbewegingen (= oogsprongen/saccades) per seconde Daartussen staan onze ogen ook even stil = fixatie Nadeel: smearing = het uitvagen van het beeld tijdens beweging (door saccades) Wordt onderdrukt op tal van manier (saccadische supressie) Gevolg is dat het oog blind is tijden oogsprong en dus ook die gaten moeten worden opgevuld. Er is een enorme kloof tussen de kwaliteit van de input en de output (wazig/omgedraaid versus gedetailleerd en permanent beeld) 2
b) De bouwstenen waarmee het visueel systeem aan de slag moet volgens de psychofysische benadering In de waarnemingspsychologie wordt er een onderscheid gemaakt tussen elementaire gewaarwordingen (= sensaties) en de uiteindelijke waarneming (= perceptie). Geldt voor alle zintuigen Gewaarwordingen zijn prikkels die geregistreerd worden door het zintuig, die worden verwerkt en geïnterpreteerd, dit is de waarneming. Voor de visuele modaliteit heb je: - Registratie van invallend licht door middel van de receptoren en de zenuwimpulsen - Waarneming van objecten, scènes en gebeurtenissen. Ook hier heb je dezelfde tweedeling tussen de sensoriële gewaarwordingen en de waarneming. Proximale en distale stimuli: - Proximale stimuli: de nabije prikkels zoals ze geregistreerd worden ter hoogt van het eigen lichaam (gewaarwordingen) - Distale stimuli: externe oorzaken van deze prikkels in de buitenwereld (waarneming) Psychofysica houdt zich bezig met: - Meting van de elementaire gewaarwordingen (sensoriële psychofysica) - Samenhang tussen fysische grootheden en de intensiteit van de gewaarwording - De ontwikkeling van wetenschappelijke methoden hiervoor Fechner maakt in zijn boek Elemente der Psychofysik (1860) een onderscheid tussen twee soorten psychofysica: - Outer psychophysics: heeft betrekking op de relatie tussen de intensiteit van fysische prikkels (R) en de intensiteit van de sensatie (S) - Inner psychophysics: heeft betrekking op de relatie tussen de intensiteit van de neurale excitatie (E) of de hoeveelheid zenuwimpulsen en de intensiteit van de sensatie (S) Een groot deel van de psychofysica gaat over drempelmetingen. Drempel slaat op een grenswaarde tussen stimuli die één soort respons uitlokken en stimuli die een ander soort respons uitlokken. Absolute drempel (RL): grenswaarde markeert de overgang tussen af- en aanwezigheid van sensatie Differentiële drempel (DL): kleinste toegevoegde stimulusintensiteit die toelaat om een verschil waar te nemen Onderdrempel: de minimale stimulusintensiteit (signaalsterkte) die nodig is om waargenomen te worden 3
Bovendrempel: de grenswaarde waarboven de proefpersoon niet langer verschillen kan waarnemen Wordt gemeten door een eenvoudige detectietaak Van zodra men de absolute drempel overschreden heeft en zich dus binnen het waarneembare bereik van een stimulusdimensie begeeft, kan men de vraag stellen naar de DL of het juist merkbare verschil (JND = just noticeable difference). Gemeten door discriminatietaak Meting van DL is in praktijk moeilijker dan RL, ook theoretisch is de trapfunctie ingewikkelder. Men vertrekt van een bepaalde standaard stimulusintensiteit die men vergelijkt met een hogere of lagere intensiteit Dicht bij de standaard gaat de proefpersoon geen verschil merken In praktijk liggen de proporties tussen 0 en 1 Bij de ideale situatie met een duidelijke trapfunctie definieert men de DL of JND als de helft van het onzekerheidsinterval (IU = interval of uncertainty) waarbij de responswaarden op 0.50 blijven. Binnen het stimulusbereik waarin men stimuluswaarden goed kan discrimineren, kan men de prikkelintensiteit ook nog verder opdrijven. Daarvoor is het wel nuttig de bovendrempel te kennen. Men kan de DL of JND meten op meerdere plaatsen van de fysische schaal, het continuüm van prikkelintensiteiten. DL is geen vaste waarde, maar DL staat in verhouding tot de stimulusintensiteit van de standaardprikkel Ernst Heinrich Weber (1795 1878) 1834: boek De puslu, resoptione, auditu et tactu Ging over meerdere zintuiglijke modaliteiten Wet van Weber = de stimulusintensiteit moet met een constante fractie van zijn waarde verhoogd worden om een juist merkbaar verschil te bekomen. Web van Weber k = Δ l l met l voor intensiteit en Δ l voor de kleinste toevoeging (increment) die tot een JND leidt. De k noemt men de Weber fractie of Weber constante De wet van Weber gaat meestal op voor een groot deel van het stimulusbereik, hoewel er ook afwijkingen zijn in de zones van de extreme waarden, waar de Weber fracties meestal hoger zijn. 4
Er zijn twee manieren om de wet van Weber grafisch voor te stellen. - Δ l plotten tegenover l Men krijgt dan een stijgende rechte met k als richtingscoëfficiënt - Δ l / l plotten tegenover l Men krijgt een rechte die alle l-waarden afbeeldt op dezelfde (constante) waarde k, parallel aan de x-as Weber had erg belangrijk werk gedaan voor de meting van drempels een daarbij ook deze wet vastgeld. Maar toch was het Fechner die het wetenschappelijk belang op een hoger niveau tilde van de Weberwet door het als vertrekpunt te nemen van fundamenteel inzicht en hij deed ook nog een grote bijdrage aan de psychofysica. Als je metingen wil doen van de gewaarwordingen van fysische prikkels, moet je een schaal hebben met een nulpunt en een meeteenheid. Fechner realiseerde zich dat de absolute drempel (RL) gebruikt kon worden om een nulpunt te bepalen en het JND om een meeteenheid te bepalen. Wet van Weber-Fechner: S = k log R Om de sterkte van een gewaarwording S te laten toenemen als een rekenkundige reeks (opgeteld met een constante) moet men de stimulusintensiteit R laten toenemen volgens een meetkundige reeks (vermenigvuldig met een vaste factor) Vormt een afbeelding (mapping) tussen R en de grootte van de overeenkomstige gewaarwording ervan. Mapping geeft vorm aan de essentie van de psychofysica: een exacte wetenschap van de functionele relaties tussen lichaam en geest. Maar bij de meting van drempels en de bepaling van de overeenkomsten tussen fysische en psychische grootheden komen een aantal ernstige praktische problemen kijken. Psychofysica mag niet beïnvloedt worden door beslissingscomponent = signaaldetectietheorie Essentieel om de signaaldetectietheorie te kunnen toepassen is dat er naast beurten waarin effectief een prikkel aangeboden wordt (signaalbeurten) ook beurten ingelast worden waarin geen prikkel aangeboden wordt (gissingsbeurten of catch trials). De mate waarin DNS een onderscheid kunnen maken tussen signaal- en gissingsbeurten, wordt gevoeligheid of sensitivity genoemd. Algemene kwantitatieve uitdrukking = v[u(h) u(f)] Als er geen verschil is tussen het aantal treffers en vals alarmen, dan is de gevoeligheid 0 DNS konden geen onderscheid maken De beste maat voor sensitiviteit blijkt het verschil in z-scores tussen het aantal treffers en de vals alarmen d = z(h) z(f) 5
De mate waarin proefpersonen geneigd zijn één antwoord meer te geven dan het andere wordt antwoordtendens of response bias genoemd. Algemene kwantitatieve uitdrukking = V[u(H) + v(f)] Als er geen bias is naar één van beide antwoorden, wordt deze formule gelijk aan 0 De beste maat voor bias is c = -0.5 [z(h) + z(f)] C = criteriumwaarde, een plaats op een beslissingscontinuüm waar de proefpersoon voor zichzelf beslist de lat te leggen c) De bouwstenen volgens neurofysiologische benadering Wat aan de basis ligt bij waarneming volgens de neurofysiologische benadering zijn hersenscellen die vuren als er een prikkel verschijnt in hun receptief veld. Hersencellen = neuronen Vuren = reageren door middel van spikes Receptief veld = visueel veld waarvoor zij gevoelig zijn Hubel en Wiesel 1981: Nobelprijs geneeskunde voor de ontdekking dat cellen in LGN en in de primaire visuele cortex of V1 bij katten en apen op een specifieke manier reageren in functie van bepaalde prikkeleigenschappen LGN = Lateral Geniculate Nucleus = een tussenstation tussen het oog en de visuele cortex Primaire visuele cortex of V1 = het eerste corticaal gebied waar cellen reageren op visuele prikkels Ontdekking was min of meer toevallig Ze waren bezig om het receptief veld te zoeken voor een bepaalde cel, maar merkten dat deze cel helemaal niet reageerde op de stip die in de dia te zien was, maar juist op de rand van de dia toen ze die in en uit de lader haalden Cel reageerde op een prikkel op een rand in een bepaalde oriëntatie Systematisch onderzoek in functie van de stimuluseigenschappen bracht aan het licht dat tamelijk wat cellen in de V1 een erg specifiek responsprofiel vertonen Cirkelvormige stimulus met center-surround structuur met positief centrum en negatieve omgeving of omgekeerd = on-off cellen Langwerpige stimulus ofwel lang ofwel breed Nog andere cellen reageren op een rand, vb. bruuske overgang donker en licht 6
Een deel van deze diversiteit is toe te schrijven aan twee fundamenteel verschillende celtypes: - Simple cells Gevoelig voor een lijnstuk met een bepaalde lijndikte en oriëntatie op een welbepaalde plaats in het receptief veld - Complex cells Stabiel reageren voor variaties van posities in hun receptief veld - Hypercomplex cells Reageren enkel als de lijnlengte overeenkomt met de grootte van hun receptief veld Op die manier geven deze responsprofielen aan de cel een welbepaalde betekenis. Verder onderzoek heeft aangetoond dat dergelijke cellen specifieke responsprofielen vertonen in functie van specifieke stimuluseigenschappen (= tuning). De meeste cellen in de vroege visuele gebieden hebben relatief kleine receptieve velden en vertonen specifieke tuning functies voor specifieke stimuluseigenschappen = kenmerkdetectoren (feature detectors) = ze signaleren wat de basale kenmerken zijn van een klein stukje van de stimulus in hun receptief veld Responsprofielen van neuronen kunnen we ook opvatten als filters voor visuele informatieverwerking Het biedt een synthese aan tussen het psychofysische en neurofysiologische op de bouwstenen van de visuele waarneming Alle cellen samen voorzien het visueel systeem van een gefilterd input beeld. d) Het hiërarchisch en modulair visueel brein De input voor het visueel systeem is dus geen echt beeld maar een verzameling van vuren. De hersenen moeten de informatie verwerken (decoderen) Er zijn heel wat verschillende gebieden met elk hun eigen specialisatie De hersenen bestaan uit vier grote lobben die allemaal tussenkomen tijdens visuele waarneming en allemaal subregio s (= Brodmann areas) bevatten. Het visueel systeem wordt vaak opgedeeld in twee grote stromen van visuele informatieverwerking, telkens bestaande uit meerdere verwerkingsstations. - Ventrale of wat stroom Loopt vanuit V1 over enkel bijkomende stations in de temporale cortex naar anterieure gebieden waar hogere-orde verwerking van de object-identiteit plaatsvindt voor bewuste herkenning - Dorsale of waar stroom Loopt vanuit de V1 dorsaal naar de pariëtele cortex 7
Er zijn mensen met hersenbeschadiging die niet meer in staat zijn tot bewuste herkenning (= agnosie) maar die wel nog aangepast gedrag kunnen stellen. Dit kan omdat de werking in de pariëtele cortex nog visueel gebaseerde actie toelaat In veel van deze visuele gebieden wordt retinotopie vastgesteld = het feit dat de plaats in het visueel veld waar de prikkel aanwezig is, ook gecodeerd wordt. Om de mapping zo goed mogelijk te begrijpen moet men De hersenschors afrollen en ontvouwen (unfolding) Er verschijnt een retinotopische map met codering van links-rechts en boven-onder De hersenschors is een soort van laken (sheet) bestaande uit een dicht netwerk van neuronen die allemaal met elkaar verbonden zijn. Belangrijke aspecten van de corticale hiërarchie De receptieve velden worden steeds groter naarmate je hoger op komt in elk van beide stromen. Specialisatie in hogere gebieden Vb.: Fusiform face area (FFA): hersenschors die specifiek coderen voor gezichten Vb.: Parahippocampal place area (PPA): hersenschors die specifiek coderen voor plaatsen = Modules De hersenen zijn een groot complex netwerk met heel veel stations die sterkt met elkaar verbonden zijn, telkens met wederzijdse connecties, zowel voorwaarts als achterwaarts = information flow Feedforward Feedback Wordt geassocieerd met bottom-up en top-down e) Voorlopige conclusie Waarneming vergt heel wat verwerkingsprocessen tussen input en output. Dit proces bestaat uit meerdere stappen, dit wordt in 3 niveaus van verwerking onderverdeeld: 1) Low level registratie Decodering van de eerste neurale responsen als signalen van enkelvoudige kenmerken binnen het receptief veld van één cel 2) Mid level Perceptuele groepering van de gefragmenteerde input 3) High level Interpretatie van de gebeurtenis van wat er te zien is. 8
2.3. Perceptuele organisatie a) Probleemstelling en definitie De binnenkomende prikkels zijn erg fragmentarisch. Ze moeten georganiseerd worden tot grotere, samenhangende gehelen alvorens ze betekenis krijgen. Perceptuele organisatie = een verzameling van processen die instaan voor het organiseren van de fragmentarische proximale stimuli in grotere, gestructureerde gehelen Processen: - Perceptuele groepering - Textuursegregatie - Figuur-achtergrond organisatie - Aspecten van vormperceptie In de literatuur zijn er vele voorbeelden die het belang van organisatie van losse fragmenten aanduiden. Zwarte en witte elementen waarvan het niet steeds duidelijk is welke elementen tot de figuur (object) en welke tot de achtergrond behoren. Eenmaal de figuur duidelijk is, kan je nooit meer de ongeorganiseerde chaos van vlekken zien. Max Wertheimer (1923) Perceptueel bewustzijn bestaat uit georganiseerde gehelen, niet uit afzonderlijke sensaties. Voorbeelden van natuurlijke scènes met camouflage Kan nagebootst worden door gefragmenteerde lijntekeningen die ingebed zijn in een achtergrond van andere lijnfragmenten met dezelfde low-level eigenschappen Gabor displays Tal van willekeurige lijnen of vormen of omtrekken van bestaande voorwerpen worden verstopt Voordeel: er kan veel psychologisch en neurofysiologisch onderzoek gedaan worden over de verwerking van de primitieve elementen op zich b) Perceptuele groepering Wertheimer legde ook de basis van het klassiek Gestaltpsychologisch onderzoek over de groeperingsprincipes of Gestaltwetten. Hij gebruikte daarvoor eenvoudige stippenpatronen of lijnfiguren waarmee hij de rol illustreerde van verschillende factoren die perceptuele groepering bepalen. (nabijheid, gelijkenis, continuïteit, gemeenschappelijk lot, ) 9
Het onderzoek van de Gestaltwetten kende een aantal problemen: - Teveel verschillende wetten - Onvoldoende precies geformuleerd - Ze komen in de praktijk verweven voor - Men beperkte zich tot demonstraties (geen experimenten) - Geen verklaring voor de Gestaltwetten Tegenwoordig kunnen we deze problemen een oplossing geven: - Er kan vertrokken worden vanuit een stevig theoretisch kader - Meeste wetten kunnen kwantitatief geformuleerd worden - We werken met goed gecontroleerde stimuli - Psychofysische experimenten - Psychofysische bevindingen relateren aan ecologisch nut van de Gestaltwetten en aan neuroanatomische en neurofysiologische principes van visuele informatieverwerking Voorbeeld: onderzoek over op basis van nabijheid. Eerste stap: uitwerking van goede stimulusset Stippenrasters (lattices) Werden gekarakteriseerd aan de hand van hun basisparallellogram met zijden a en b onder een hoek y Kunnen in een ruimte geplaatst worden met twee parameters In de experimenten krijgen ppn een groot aantal individuele rasters, individueel en kort aangeboden in een willekeurige globale oriëntatie, waarna ze moeten zeggen welke oriëntatie ze erin zagen Antwoordfrequenties werden omgezet in relatieve keuzes Waar de relatieve keuze voor een bepaalde oriëntatie afneemt als exponentiële functie van de relatieve afstand in die richting, zal de grafie van de log-getransformeerde waarden hiervan een dalende rechte lijn noteren Pure Distance Law (Kubovy et al. 1998) Voorspelt groeperen door nabijheid in punt roosters die op vier manieren kunnen worden georganiseerd door het groeperen van stippen op langs parallelle lijnen. Gaat in tegen één van de basisprincipes van de Gestaltwetten (geheel is meer dan som van de delen) Tweede fase: principe werd gecombineerd met andere groeperingsprincipes (similiariteit, continuïteit) door gebruik te maken van Gabor lattices = Rasters waarbij het basiselement niet langer een stip is, maar een Gabor patch, een vlekje met een helderheidsverloop dat beschreven kan worden aan de hand van een Gabor functie. Gabor filter wordt vaak gebruikt voor de modellering van het receptief veld van simple cells. 10
Psychofysisch onderzoek heeft aangetoond dat er interacties optreden tussen naburige Gabor patches. Detectie van Gabor patch wordt bemoeilijkt door buren op korte afstand (laterale maskering) Vergemakkelijkt door buren op langere afstand (collineaire facilitatie) De sterkte van deze effecten hangt af van de alineëring tussen de elementen Alineëring staat centraal in onderzoek met snake detection = Hoe sterk de locale oriëntatie samenvalt met de globale rechte of kromme waarvan het element deel uitmaakt Snake detection: hier laat men ppn een stukje kromme zoeken in een wirwar van gabor patches Benodigde zoektijd hangt af van verschillende elementen en worden verder gespecificeerd in termen van association field = een veld van onderlinge aantrekking tussen buurelementen c) Textuursegregatie Bij textuursegregatie gaat het om het maken van een onderscheid tussen verschillende regio s in een niet-homogeen veld. Twee onderling samenhangende processen: - Perceptuele groepering binnen een regio - Segregatie of afscheiding tussen twee regio s d) Figuur-achtergrond organisatie Bij figuur-achtergrond organisatie is er eveneens een onderscheid tussen verschillende regio s in een niet-homogeen veld, maar bovendien krijgt één regio hier een speciale status, als figuur tegenover de achtergrond. Ook hier heeft de Gestaltpsychologie een essentiële bijdrage geleverd door het probleem duidelijk te stellen en door via overtuigende demonstraties enkele principes aan te wijzen die figuur-achtergrond organisatie bepalen. Een kleine, convexe, symmetrische regio heeft meer kans om als figuur beschouwd te worden dan een grote, concave, asymmetrische regio. 11
Recent zijn een aantal bijkomende principes ontdekt Peterson en Gibson (1994) Toonden aan dat omtrekfiguren die overeenkomen met herkenbare voorwerpen een grotere kans hebben om als figuur gezien te worden Gestaltpsychologen hadden steeds beklemtoond dat familiariteit geen rol kon spelen Palmer en Ghose (2008) Rol aangetoond van extremal edges = randen waarvan de waarnemer ziet dat het oppervlak verder doorloopt maar uit beeld verdwijnt door het gezichtspunt van de waarnemer Cut edges = men ziet het oppervlak werkelijk ophouden aan de rand. In vergelijking met de klassieke Gestaltpsychologie, is recenter onderzoek meer gericht op ecologische principes en word meer nadruk gelegd op wisselwerking tussen verschillende processen en op mogelijke mechanismen. Lamme vond dat de karakteristieke responsen van V1 neuronen bij apen een bepaalde temporele dynamiek volgen Eerst onderscheid tussen optimale en niet-optimale oriëntatie in het receptief veld Dan onderscheid tussen rand van een figuur en de achtergrond Ten slotte onderscheid tussen binnenkant van een figuur en de achtergrond Machilsen et al. (2009) Wisselwerking tussen verschillende processen Gabor Displays waarbij Gabor elementen een gesloten figuur konden vormen die verder ingebed was in een wirwar van achtergrond elementen Ppn moesten aangeven welke van twee opeenvolgende, kort aangeboden stimuli een figuur bevatte. Performantie daalde systematisch met oriëntatieruis e) Figuur-achtergrond organisatie en perceptuele multistabiliteit Figuur-achtergrond organisatie is intrinsiek ambigu omdat de toekenning van figuur-status aan een regio uit het visueel veld slechts gebaseerd is op een geheel van aanwijzingen (cues) met een zekere waarschijnlijkheid. Geen enkele aanwijzing is op zich volledig eenduidig en het proces is dus intrinsiek probabilistisch, niet deterministisch. Cues worden verwerkt door visueel systeem (= niet perfect gemeten) en dus onderhevig aan ruis Het proces van figuur-achtergrond toewijzing is dan ook stochastisch en kan over tijd wijzigen. 12
Edgar Rubin (1886 1950) Vase-faces figuur Illustreert goed de essentie van het fenomeen: de figuur heeft een rand, de achtergrond niet, want de achtergrond loopt door achter (onder) de figuur. De ambiguïteit in de prikkel resulteert in een strijd om de rand (border-ownership BOWN). Als men de zwarte regio als figuur neemt, dan behoort de rand tot de zwarte figuur en loopt de witte regio door achter (onder) de zwarte. In dat geval ziet men een soort vaas Als men de witte omliggende regio s als figuur aanneemt, dan ziet men gezichten Indien men de Rubin figuur goed kent, kan men wisselen tussen beide percepten = switching Maar men kan nooit beide percepties tegelijk zien! Het is erg belangrijk om te begrijpen dat toekenning van border-ownership gebeurt door de omgeving van de rand mee in rekening te brengen. BOWN is een configurationele eigenschap = tot welke regio een stukje van de rand behoort, hangt af van de configuratie waarin dat stukje rand is opgenomen Zhou et al. (2000) V2 cellen in de cortex van de aap kunnen een onderscheid maken en rekening houden met de context buiten hun receptief veld BOWN is onafhankelijke van de contrastpolariteit = cel blijkt telkens meer te vuren wanneer zich in haar receptief veld een rand bevindt die links de figuur bevat en rechts de achtergrond, dan wanneer de figuur rechts staat. f) Visuele illusies als illustratie van een algemeen Gestaltprincipe De configurationele codering van BOWN is slechts één voorbeeld van een algemeen Gestaltprincipe Het visueel systeem codeert zelden of nooit de absolute waarde van locale eigenschappen maar veeleer de relatieve waarde van eigenschappen, daarbij ook voortdurend rekening houdend met de globale configuratie of context. Het helderheidscontrast bij helderheidsovergangen door het visueel systeem lijkt overdreven te worden Mach bands Craik-O Brien-Cornsweet effect Chevreul illusie Helderheid wordt altijd relatief gecodeerd ten overstaan van de naburige regio s 13
Waarneming van grootte blijkt ook sterkt onderhevig aan vergelijking met naburige elementen. Joseph Delboeuf (1831 1896) Heeft varianten bedacht ter illustratie hiervan: binnenste cirkels lijken andere grootte te hebben, maar zijn in feite gelijk. Ebbinghaus-illusie: de binnenste cirkel wordt als kleiner gezien. De klassieke geometrische illusies zijn allemaal goede voorbeelden van vertekende waarneming doordat de basiselementen niet los gezien worden van de configuratie waarin ze opgenomen zijn. De andere illusies zie extra blad. g) Subjectieve contouren, modale en amodale vervollediging De waarneming van randen waar er fysisch geen helderheidsverschil is (= illusoire of subjectieve contouren), is één van de meest fascinerende fenomenen van de perceptuele organisatie. Gaetano Kanizsa (1913 1993) Varianten geïntroduceerd die bijgedragen hebben aan de populariteit van dit fenomeen Kanizsa-driehoek = combinatie van 3 illusies: - Je ziet randen waar er geen zijn - Je ziet de helderheid van de bovenste driehoek als lichter dan de regio s ernaast - Je ziet een diepte-ordening 14
Neurofysiologen hebben ontdekt dat V2 cellen in de cortex van de aap niet enkel reageren op echte randen in hun perceptief veld, maar ook op illusoire contouren en bij perceptuele invulling van collineaire lijnfragmenten, zeker in geval van bedekking of occlusie. Met Kanizsa-driehoek is meer aan de hand Surface filling-in op basis van locale occlusion cues Complex samenspel tussen verschillende processen Albert Michotte (1881-1965) Heeft verschillende soorten vervollediging / completie die tussenkomen in Kanizsa figuren explicitiet onderscheiden: - Modale completie Vervolledigde figuur bezit echte sensoriële kwaliteiten - Amodale completie Figuur wordt geïnterpreteerd als volledig waarbij de rand toch niet echt gezien wordt Toch is amodale vervollediging een perceptueel fenomeen: je ziet bedekking en je zit ook de meest eenvoudige vervollediging, ook al weet je dat er een complexer lijnpatroon bedekt is. De rol van occlusie is ook erg belangrijk om fragmenten te kunnen groeperen tot grotere, zinvolle gehelen. Bregman B s Men ziet fragmenten alleen maar deeltjes van de letter B die bedekt zijn door een vlek Veel onderzoek is er op gericht om te achterhalen welke principes amodale completie bepalen. Good continuation overheerst vaak in deze principes Er is ook veel onderzoek om na te gaan in hoeverre de processen en principes bij modale en amodale completie vergelijkbaar zijn. Bij ambigue figuren (zwarte silhouetten) met competitie tussen twee mogelijke figuur- en achtergrond organisaties, is er een voorkeur voor korte modale vervollediging en lange amodale vervollediging Zo kan je ook 3D beelden induceren Paradoxale effecten: indien er meer occlusie is, lijkt er bij amodale completie meer afronding te zijn, terwijl dit bij modale completie omgekeerd is. Paradox kan opgelost worden als men de nadruk legt op wat er visueel gegeven is en wat er precies aangevuld moet worden Om een visueel probleem goed te begrijpen, moet men goed kijken wat de waarneming precies is en een analyse maken van wat er gegeven is in het beeld en wat het visueel systeem dan moet doen om tot die bepaalde waarneming te kunnen komen. 15
h) Deel-geheel relaties Een belangrijk onderwerp in de Gestaltpsychologie van perceptuele organisatie is de verhouding tussen delen en het geheel. Essentieel verschilpunt tussen Graz school en Berlijn school: - Graz school Von Ehrenfels Geheel is meer dan de som van de delen Superadditieve, emergente Gestalt-eigenschappen - Berlijn school Koffka, Wertheimer Geheel is ander dan de som van de delen Het geheel heeft een eigen ontologische status en oefent invloed uit op de delen Soms zijn de delen vervormd door het geheel waarin ze opgenomen zijn en soms zijn de delen niet langer aanwezig in de bewuste perceptuele ervaring of alleszins moeilijker toegankelijk voor het visueel bewustzijn. Embedded figures Delen kunnen moeilijk teruggevonden worden in de grotere gehelen Patroon werd gebruikt om de kracht van intrinsieke perceptuele organisatieprocessen te beklemtonen tegenover de rol van ervaring. Witkin (1950) Ontwikkelde een test op basis van embedded figures = Embedded Figures Test (EFT) Bedoeld om perceptuele stijlen te meten als veldafhankelijkheid en veldonafhankelijkheid (VA en VO) Met veldafhankelijkheid (VA) heb je meer moeite met de test en ben je meer onderhevig aan geometrische illusies. Problematiek van deel-geheel relaties is ook relevant voor de hedendaagse vision science. Theorieën over de corticale hiërarchie en stadia van visuele informatieverwerking Configural superiority effect Bestudeerd door Pomerantz en collegas in 1977 Essentie: het toevoegen van een redundante (= overbodig) context leidt tot nieuwe gehelen die soms een voordeel kunnen opleveren. Zoeken van een odd man out zal dit sneller en beter gaan met een overbodige context erbij. Met dezelfde features en overbodige context, maar op een andere plaats samengezet, kan men echter ook gehelen of configuraties bekomen die de zoektaak moeilijker maken. 16
Kubilius et al. (2011) Onderzochten de neurale basis in het licht van de coricale hiërarchie van dit fenomeen. Repliceerden gedragseffecten bij proefpersonen terwijl ze in de scanner lagen Conditie met featurs of parts bleek moeilijker te zijn Resultaat: gehelen worden geleidelijk opgebouwd in hogere gebieden die instaan voor vorm- en objectperceptie. Bistable Diamond Hier ziet men ofwel: - Op-en-neer gaande beweging van losse, diagonale georiënteerde lijnsegmenten - Links-rechts over-en-weer gaande beweging van een geïntegreerde ruitfiguur Je kan switchen tussen beide percepten Fang et al. (2008) Presenteerden bistable diamon aan ppn terwijl ze in de scanner lagen Ppn moesten zeggen wat ze zagen Onderzoekers konden zo de activatie in verschillende hersengebieden relateren aan de verschillende percepten Resultaat: locale percepten gingen gepaard met hoge activatie in de lagere corticale gebieden en lage activitie in hogere gebieden (LOC) Globale percepten brachten het omgekeerde patroon mee Codering van delen in de lagere corticale gebieden worden onderdrukt door de codering van grotere gehelen in de hogere corticale gebieden. Over de theoretische implicaties hiervan wordt nog discussie gevoerd. Mogelijke interpretatie = explaining away In alle gebieden wordt volgens deze theorie aan predictive coding gedaan. = op basis van binnenkomende signalen wordt een voorspelling gemaakt van wat verwacht kan worden en deze predictie teruggekoppeld naar de lagere gebieden de-wit et al. (2012) Het zien van de ruit bleek gepaard te gaan met een reductie van activiteit in V1 is niet retinotopisch specifiek. 2.4. Ambiguïteiten door het probleem van onderdeterminantie a) Verandering van theoretisch perspectief In de fenomenen in voorgaande paragraaf lag de nadruk op autonome organisatieprocessen. Centraal stond het Prägnanz of Goodness principe: de perceptuele organisatie zal steeds zo eenvoudig of zo goed mogelijk zijn, gegeven de beschikbare prikkels. Minimumprincipe of eenvoudigheidsbeginsel is een van de basistellingen van de Gestaltpsychologie. 17
In de fenomenen die we in deze paragrafen zullen bespreken, zal de nadruk liggen op invloeden van kennis en verwachtingen. Veridicaliteit staat centraal Volgens de cognitieve psychologie wil de waarneming de realiteit zo waarheidsgetrouw mogelijk vatten. Waarschijnlijkheidsbeginsel of likelihood principle b) Klassieke ambiguïteiten en contexteffecten Er zijn ook tal van ambigue figuren die meerdere semantische interpretaties toelaten, afhankelijk van de interpretatie van de afzonderlijke delen die allemaal tot één figuur of voorwerp behoren. Worden toegepast in visuele kunst en reclame De interpretatie van ambigue figuren is onderhevig aan contextinvloeden. Het omslagpunt van de ene interpretatie naar de andere blijkt ook vertraagd te zijn door de sequentie van de aanbiedingen (= hysterese). Dit wordt beschouwd als kenmerk van een zelforganiserend niet-lineair dynamisch systeem. c) Klassieke ambiguïteiten, onbewuste redeneringen en assumpties Ambiguïteiten zijn niet beperkt tot vorm- of objectperceptie, ook in de waarneming van helderheid of kleur moet het visueel systeem voortdurend geregistreerde helderheden of kleurwaarden disambigueren (ondubbelzinnig maken) om ze correct te interpreteren. Elke waarde in het beeld is altijd een resultante van: - Intrinsieke objecteigenschappen (reflectantie, pigmentstructuur) - Extrinsieke eigenschappen van lichtbron (sterkte, kleurspectrum) - Scène De interactie tussen lichtinval en vormperceptie staat ook centraal in de waarneming van het hol masker (demonstratie van Gregory). Ambiguïteit tussen de richting van kromming van het oppervlak en positie van de lichtbron 18
d) Grootteconstantie, rol van ervaring en New Look psychologie Één van de klassieke ambiguïteiten die voortdurend door het visueel systeem opgelost moet worden, is het probleem dat grootte in het netvliesbeeld zowel afhankelijk is van de grootte van het voorwerp als van de kijkafstand. Twee voorwerpen die fysisch even groot zijn, kunnen toch verschillende groottes in het netvliesbeeld hebben Twee dezelfde groottes in het netvliesbeeld kunnen afkomstig zijn van voorwerpen met verschillende ware grootte, bekeken van op een andere afstand = onderdeterminantie Kan leiden tot grootteconstantie = we zien dat iets in werkelijkheid eenzelfde fysische grootte heeft ondanks dat het in functie van de afstand, wisselende groottes in het netvliesbeeld heeft. Één theorie hierover stelt dat het visueel systeem een onbewuste redenering opbouwt waarbij een vraagstuk met één onbekende (= ware grootte) en één bekende (= retinale grootte) opgelost wordt door bijkomende informatie of assumpties over de tweede onbekende (= kijkafstand). Von Helmholtz Introduceerde de idee dat waarneming gebaseerd is op onbewuste redeneringen of inferenties. Een ander aspect van de theorie is de rol van ervaring. Een ontwikkelende waarnemer moet de retinale groottes leren associëren met kijkafstand en ware grootte. Zeigler & Leibowitz (1957) Klassiek experiment over rol van ervaring Ppn werden gevraagd om ware groottes van voorwerpen te schatten (men zette het experiment zo op dat de grootte in het netvlies constant bleef) Volwassenen deden deze schatting vrij goed Kinderen vielen in twee subsets: - Voor klein afstanden waren de schattingen nog redelijk goed - Vanaf 1.5 m 2 m volgden de schattingen meer de retinale grootte dan de ware grootte Kinderen hebben minder ervaring met grotere kijkafstanden en compenseren daarom minder goed daarvoor. Ook volwassenen zijn minder goed tot grootteconstantie in staat voor voorwerpen die vanuit verticale richting bekeken worden. 19
Bruner & Goodman (1947) Experiment over rol van ervaring uit de persoonlijke levenssfeer Muntstukken worden systematisch overschat door jongens uit arme gezinnen. De waarde die men aan iets hecht speelt een rol bij grootteschatting ervan en dit is individueel verschillend De rol van subjectieve factoren en persoonlijke waarden werd sterk benadrukt in de New Look psychologie (Jerome Bruner) Mensen blijken te verschillen in wat men spontaan eerst ziet Geslacht, leeftijd, persoonlijkheid, (onbewuste) motieven en verlangens spelen hierbij een rol e) Onderdeterminantie van 3D door 2D, vormconstantie, onmogelijke figuren en illusies Het probleem van onderdeterminantie plaagt niet alleen de waarneming van grootte maar ook van vorm. Essentie: bij de projectie van 3D voorwerpen naar 2D netvliesbeelden gaat de derde dimensie verloren Recovery problem = ill-posed problem = 3 e dimensie afleiden uit 2D beelden Elke waarneming is een vraagstuk met teveel onbekenden. Typische oplossingstrategie = bijkomende assumpties maken Vormconstantie = Een object behoudt dezelfde vorm al lijkt het anders gezien uit een andere hoek De ambiguïteit van 2D beelden geeft ook weer aanleiding tot multistabiliteit in de 3D waarneming. Necker-kubus kan men als twee verschillende kubussen zien (lijntekeningen) Ook onmogelijke figuren zijn het gevolg van de ambiguïteit van lijntekeningen. Blijkbaar is de gewoonte om 3D te zien in 2D plaatjes sterken dan ons streven naar globale consistentie Deze ambiguïteit is ook een bron van kijkplezier Kunstenaars maken hier gretig gebruik van. 20
De spontane en sterke dieptewaarneming vertekent soms onze waarneming van grootte. Richard Gregory (1923 2010) Grote verdediger van rol van verkeerdelijk toegepaste grootteconstantie in Müller-Lyer illusie Ook vormperceptie kan vertekend zijn ten gevolge van een verkeerde ruimtelijke interpretatie. Shepard tables Futura gebouw in New York Het visueel systeem interpreteert de hoeken die afwijken van 90 als een afwijking in één richting, terwijl het in werkelijkheid gaat om een afwijking in de andere richting. f) Onderdeterminantie van 3D door 2D, transactionalisme en Bayesiaanse inferentie Bovenstaande effecten, verklaringen, krijgen een centrale plaats in het transactionalisme. Adelbert Ames (1880 1958) = belangrijkste vertegenwoordiger Het transactionalisme stelt dat de waarnemer bij het oplossen van het probleem van onderdeterminantie beroep doet op zijn jarenlange ervaringen en transacties met onze omgeving. Vb.: Kamer van Ames Wordt nog vaak gebruikt in filmsets op personages groter of kleiner te laten lijken Venster van Ames Trapeziumvormig Wanneer je dit venster laat ronddraaien rond zijn verticale as, dan zie je een heen-en-weer beweging van 180 waarbij telkens de langere zijkant als dichterbij wordt waargenomen Dit komt doordat we de assumptie hebben dat het een rechthoekig venster is Vertekende dieptewaarneming manifesteert zich als een verkeerde waarneming van continue rotatie Men heeft de laatste decennia de relatief vage idee van onbewuste inferenties in de waarneming een stevige theoretische onderbouw gegeven door een kwantitatieve uitwerking van het inferentieprobleem en een mogelijk oplossingsschema. Gebaseerd op theorema van Thomas Bayes (18 e eeuw) 21
Theorema van Bayes Ook van toepassing op problemen van hypothesetoetsing aan de hand van data en inferentie van scène-eigenschappen uit beeldeigenschappen De kans op een bepaalde 2D (posterior) hoek φ gegeven een bepaalde 3D hoek θ (likelihood) vermenigvuldigd met de onvoorwaardelijke kans dat de 3D hoek θ voorkomt (prior) genormaliseerd voor de onvoorwaardelijke kans op voorkomen van de 2D hoek φ Het redeneerschema van Bayesiaanse inferentie is in essentie vrij eenvoudig Je kan ook gewichten toekennen aan bepaalde uitkomsten door winst- of verliesfuncties Het is toepasbaar op veel verschillende deelproblemen van de visuele waarnemingen Gebaseerd op assumpties die via overerving genetisch gecodeerd kunnen zijn in het visueel brein van de soort Gebaseerd op leerprocessen in de culturele leefwereld Krachtige formele theorie Vergt veel empirisch onderzoek Kan ingeroepen worden om het onderliggende proces te modelleren Zeer mainstream 2.5. Semantische interpretatie van objecten en scènes a) Objectherkenning Objectherkenning = Het semantisch herkennen van de identiteit van een voorwerp of het kunnen aangeven tot welke basiscategorie van voorwerpen het behoort Het basisprobleem van objectherkenning bestaat in het vinden van een overeenkomst tussen: - een on-line berekende objectvoorstelling - een off-line gestockeerde objectvoorstelling in het visueel geheugen = matching Een grote uitdaging voor het herkenninsproces is het loskoppelen van intrinsieke en extrinsieke eigenschappen bij het analyseren van het beeld. 22
Twee grote mogelijkheden: - Men kan proberen op tot één gezichtspuntonafhankelijke 3D objectvoorstelling per object te komen Moeilijk te berekenen Voordeel: één representatie stockeren Klein opslag en matching probleem - Per object meerdere gezichtspuntafhankelijke objectvoorstellingen hebben Makkelijk te berekenen Nadeel: veel meer opslagruimte nodig Matching-probleem is groter Recognition By Components (RBC) theorie van Biederman (1987) één 3D objectvoorstelling per object Uitgangspunten zijn goed uitgelicht Biederman wil een theorie die in staat is om te verklaren hoe objectherkenning vaak mogelijk is onder clutter, met slechts beperkte informatie over een deel van het voorwerp. Wil ook verklaren dat men een nooit eerder gezien voorwerp tot structureel kan beschrijven aan de hand van de basiscomponenten en hun spatiale relaties Wil de mogelijkheden exploiteren die het combineren van een beperkt aantal componenten in verschillende onderlinge relaties biedt. Zijn theorie omvat meerdere informatieverwerkingsstappen die grotendeel bottom-up verlopen. Na randdetectie vinden er twee processen plaats die parallel verlopen: - Detectie van niet-toevallige eigenschappen (non-accidental properties NAPs) - Segmentatie van het beeld ter hoogte van diepe concaviteiten Op basis hiervan kan men de bouwstenen van het voorwerp bepalen. Vervolgens moet men de globale spatiale relaties hiertussen bepalen op ruw categorisch niveau en in het visueel systeem op zoek gaan naar een overeenkomstige gezichtspuntonafhankelijke representatie. Indien een match gevonden wordt, is het voorwerp herkend. De kern van deze theorie zit bij de bepaling van de bouwstenen van een voorwerp. Dit omvat een theorie over wat deze bouwstenen zijn en hoe men ze kan extraheren uit het beeld. Segmentatie van het beeld ter hoogte van regio s met diepe concaviteiten (inkepingen) Plaatsen waar de kromming negatief is, doordat twee basisdelen samengevoegd zijn NAPs Er zijn bepaalde eigenschappen in het beeld aanwezig die men kan gebruiken bij het oplossen van het recovery probleem 23
Bij de veronderstelling van een algemeen standpunt (general viewpoint assumption) mag men deze regelmaat in het beeld gebruiken om gelijkaardige regelmaat in de scène af te leiden. Men mag aannemen dat degelijke regelmaat niet het toevallig resultaat is van één welbepaald gezichtspunt. NAPs laten toe om een aantal distincties te maken die van belang zijn bij het correct classificeren van bouwstenen. Theorie wat de bouwstenen zijn Hij gaat er vanuit dat men met een aantal basale distincties kan volstaan. Hij verondersteld dat men het onderscheid moet kunnen maken tussen 36 verschillende bouwstenen, geons genoemd. Komt daartoe door een ruwe opdeling in functie van categorische kenmerken van de doorsnede en de as van zijn 3D componenten. De experimentele evidentie voor RBC berust grotendeels op onderzoek met lijntekeningen van bestaande voorwerpen. Experiment: 1) Er werden lijntekeningen geselecteerd van voorwerpen die uit een variabel aantal basisdelen bestaan 2) Van elke voorwerp werden dan lijntekeningen getoond waarin ofwel het maximaal aantal basisdelen aanwezig was, ofwel kleiner aantal Resultaat: zelfs bij korte aanbiedingen met beperkt aantal basisdelen bleek de herkenning vrij goed. Volledig aantal basisdelen bleek niet nodig voor een goede herkenning. b) Scènecontexteffecten op objectherkenning Invloed van scènecontext op objectherkenning: 3 klassieke voorbeelden Palmer (1975) Presenteerde afbeelding van contextscène voor 3 seconden Dan volgde kort een afbeelding van één object in 3 condities: - Consistent met de scène - Inconsistent met de scène - Neutraal ten opzichte van de scène Herkenning bleek veel beter in consistente conditie Loftus en Mackworth (1978) Ppn moesten gedurende 4 seconden naar afbeelden van scènes kijken en registreerden daarbij de oogbewegingen die ze maakten Fixaties op onwaarschijnlijke objecten duurden langer en werden gevolgd door meer fixaties 24
Biederman (1981) en Biederman et al. (1982) Experimenten over speeded object verification Methode: 1) Er verscheen een semantisch label van een object 2) Fixatiepunt 3) Korte aanbieding van een afbeelding van een scène 4) Gevolgd door mask (wirwarplaatje om retinaal nabeeld te maskeren) met een probe erin (plaatsaanduiding waar men de target moest zoeken) 5) Ppn moesten ja of nee antwoorden als ze dachten dat het doelobject al dan niet in de scène aanwezig was Resultaten: 1) Semantiek van een scène wordt in een oogopslag opgepikt en heeft invloed op de detecteerbaarheid van de doelobjecten Veel kritieken tegen de algemene resultaten van deze experimenten Belangrijkste: je kan niet met zekerheid op basis van deze resultaten besluiten dat de effecten zuiver perceptueel zijn van aard. Het kan best zijn dat het post-perceptuele decisieprocssen betreft. Toch moet erkend worden dat het visueel systeem gebruik lijkt te maken van minimale informatie om verwachtingen op te bouwen en verdere visuele informatieverwerking te faciliteren. c) Snelle categorisatie van objecten Categorisatie = Het onderbrengen van een concrete (visuele) prikkel in een grote categorie Men kan categoriseren op meerdere niveaus in een hiërarchie. Basisniveau (hond) Subordinaat niveau (poedel) Superordinaat niveau (zoogdier / dier) Categorisatie vergt een nog hogere vorm van visuele informatieverwerking, in die zin dat nog meer moet loskomen van concrete visuele details van de prikkel om te komen tot grotere, semantische categorieën waarvan de visuele kenmerken niet steeds duidelijk zijn. 25
Thorpe et al. (1996) Methode: 1) Presenteerde groot aantal kleurfoto s een korte tijd 2) Ppn moesten go/no-go taak aangeven of ze een dier zagen of niet 3) Elke foto werd slechts 1 keer getoond en er kon om het even welk dier in voorkomen en om het even waar in de foto Resultaten: 1) Gemiddeld percentage correcte antwoorden 94% 2) Gemiddelde reactietijd 445 milliseconden 3) Positieve correlatie tussen RT en CA = speed-accuracy tradeoff = langere RT gaan gepaard met hogere CA Als men sneller antwoordt, maakt men meer fouten Resultaten op hersenniveau: 1) Event-related potentials (ERPs) = Men kan de elektronische activiteit in de afzonderlijke elektroden relateren aan de perceptuele en cognitieve processen die zich aan de hersenen afspelen na aanbieding van de prikkel Gemiddeld hadden de ppn 150 160 milliseconden nodig om te beslissen of het een go of no-go was Deze bevindingen wijzen op het belang van snelle, visuele feedforward processing, ook voor hogere semantische processen als categorie. Blijkbaar is het visueel systeem in staat om heel snel de essentiële kenmerken uit een beeld te extraheren. Deze studie heeft heel wat vervolgonderzoek geïnspireerd. Er zijn twee onderzoekslijnen: - Aantonen/uitsluiten dat eenvoudige visuele cues aan de basis kunnen liggen van het effect - De paradoxale bevinding dat categorisatie voor kleinere homogenere categorieën de ganse RT-distributie met 40 50 seconden naar rechts doet opschuiven Het duurt langer om een prikkel te categoriseren in een kleinere, homogenere categorie d) Snelle categorisatie van scènes Schyns en Oliva (1994, 1997) Onderzoek over de rol van lage en hoge spatiale frequenties in de snelle categorisatie van scènes Scène is meestal complexer en bestaat uit meerdere objecten die in verschillende spatiale relaties tegenover elkaar staan Scène is meer onderhevig aan clutter, occlusie,. 26
Een hypothese over hoe een scène snel gecategoriseerd kan worden, is dat de ruwe spatiale schaal (de lage spatiale frequenties LSF) diagnostisch zou kunnen zijn voor de typische ruimtelijke organisatie van de globale spatiale relaties en dat de fijne spatiale schaal (hoge spatiale frequenties HSF) vervolgens meer kritisch zou kunnen zijn voor de kleinere details van de voorwerpen in de scène. Lagere spatiale frequenties worden sneller verwerkt in het visueel systeem en dus zou scènecategorisatie sneller kunnen gaan dan objectcategorisatie. Schyns en Oliva (1994) Hybride afbeeldingen waarin de HSF van één scène gecombineerd werden met de LSF van een andere. Combinatie van afbeeldingen van twee scènes Eerste experiment: 1) Ppn kregen vooraf semantisch label en moesten ja/nee matching taak uitvoeren 2) Hybride afbeeldingen van eerste type werden heel kort of gewoon kort aangeboden 3) Resultaat: Men extraheert met heel korte aanbiedingen eerder de LSF terwijl met langere aanbiedingen eerder de HSF extraheert. Tweede experiment: 1) Hybride afbeeldingen van tweede type 2) Twee afbeeldingen werden kort na elkaar gepresenteerd 3) Ppn moesten benoemen wat ze zagen 4) Resultaat: ppn gaven in 67% van de gevallen het antwoord dat overeenkwam met de targetscène in de coarse-to-fine verwerkingsvolgorde Samen vormden deze experimenten sterke evidentie voor de aanvangshypothese dat snelle scèneperceptie hoofdzakelijk gebaseerd is op LSF Oliva en Schyns (1997) Toonden aan dat het visueel systeem beide spatiale schalen van in het begin verwerkt en de schaal kan selecteren die het meest diagnostisch is voor de gestelde taak Oliva en Torralba (2006) Onderzoek om te achterhalen welke scène-eigenschapen men kan extraheren uit vrij eenvoudige beeldkenmerken Vertrekpunt: analyse van het beeld als geheel Volgens hen is scène een entiteit op zich met eigen karakteristieke globale beeldkenmerken (spatial envelope properties) Openheid of expansie van de grens van de spatiale envelop Natuurlijkheid of ruwheid van de inhoud van het beeld 7 globale scènekenmerken die enerzijds goed extraheerbaar zijn uit gemiddelde beeldeigenschappen en anderzijds relevant blijken voor scènecategorisatie 27
Green en Oliva (2009) Aangetoond dat mensen effectief in staat zijn om deze globale beeldeigenschappen te extraheren. Methode: 1) Ppn werden getraind om de 7 relevante globale scènekarakteristieken correct te analyseren en te benoemen 2) Beelden werden kort aangeboden een dynamisch gemaskeerd 3) Ppn moesten ja/nee taak uitvoeren zowel voor beeldeigenschappen als scènecategorisaties Resultaat: 1) Proportie correcte classificatie nam toe met stijgende stimulusduur e) Slotbeschouwing over visuele informatieverwerking Een steeds terugkerend resultaat is de enorme snelheid en flexibiliteit van visuele informatieverwerking door het menselijk visueel systeem. Kracht is gebaseerd op het dens neuraal netwerk met tal van tussenstations en sterke interconnectiviteit Ulric Neisser Een van de grondlegger van cognitieve psychologie 1976: algemeen theoretisch model analyse door synthese Binnenkomende prikkels worden niet passief en doelloos verwerkt door filters, maar steeds in het licht van hypothesen die als een momentane synthese beschouwd kunnen worden van de beschikbare bottom-up informatie en top-down kennis Essentieel: voortdurende wisselwerking tussen verschillende deelsystemen Massief-parallelle informatieverwerking Hochstein en Ahissar (2002) Reverse Hierarchy Theory Nieuwe visie op corticale hiërarchie waarbij ze expliciet onderscheid maken tussen structurele, anatomische aspecten en functionele, procesmatige aspecten. In de eerste informatieverwerkingsstroom (feedforward sweep) wordt heel snel doorgestroomd naar de hoge visuele gebieden, waar hypothesen over globale categorieën gegenereerd worden In tragere wisselwerking tussen top-down en bottom-up verwerkingsprocessen worden details ingevuld Onderscheid low-level en high-level processing in de spatiale zin Early en late processing in de temporale zin 28
Bar et al. (2006) Concreet model over de verwerking van HSF en LSF in functie van de tijd LSF van het beeld wordt snel dorgestuurd naar de prefontale cortex (PFC), waar hypothesen gegenereerd worden zowel over de scènecontext als de globale vorm van voorwerpen in de scène Hypothesen en LSF worden teruggekoppeld en in een trage feedforward stroom gecombineerd met HSF van een verdere beeldanalyse Schyns, Gosselin en hun collega s Ontwikkelden experimentele procedure waarin ze ppn enkel zwart-witte ruisbeelden laten zien en hen wel vragen om een bepaald targetobject te detecteren wanneer ze dit menen te zien. Eerste experiment: Gosselin & Schyns (2003) De letter S of een glimlachende mond detecteren in ruispatronen Later experiment: Smith et al. (2012) Gezicht zoeken Ppn houden er verschillende templates op na Dit template laat ons toe van alles te zien in wolken of schimmels Experimentele psychologie is blijkbaar in staat om door slimme beeldanalysetechnieken deze puur subjectieve, mentale entiteiten te visualiseren. 29
2.6. alternatieve theoretische denkkaders a) Intermezzo: terugblik en vooruitblik We hebben visuele waarneming vooral besproken vanuit de mainstream visie Wordt door de meeste onderzoekers als theoretisch denkkader gehanteerd We zijn begonnen met hedendaagse visie op werking van het oog en visueel brein en zijn geëindigd bij recente pogingen om de wisselwerking tussen bottom-up, feedforward en topdown, feedback visuele informatieverwerking concreet te begrijpen. Er zijn twee grote alternatieve benaderingen. Ze zijn allebei van dezelfde denker en keren zich expliciet af tegen wat we dachten te weten. Ze reiken nieuwe inzichten aan over hoe de waarneming te begrijpen en te onderzoeken. Visuele waarneming is nu eenmaal een complex, multidimensioneel probleem dat zich niet in eenvoudige, enkelvoudige termen laat verklaren. b) De ecologische benadering van James Gibson (DTP) James J. Gibson (1904 1979) Filosofische fundamenten: realisme en pragmatisme Gebruikte ook elementen uit Gestaltpyschologie (fenomenologie) en behaviorisme (empirisme) Vertrekpunt: waarneming staat steeds ten dienste van zinvol gedrag in een zinvolle omgeving. Nadruk op ecologische validiteit Hij schreef drie grote boeken: - 1950: The perception of the visual world - 1966: The senses considered as perceptual systems - 1979: The ecological approach to visual perception In de ecologische benadering van visuele waarneming staat de omgeving centraal als bron van stimulatie en daarin spelen vooral oppervlakken een essentiële rol. Opvallend: De omgeving biedt veel meer informatie dan vroeger gedacht werd Probleem van grootteconstantie is enkel probleem als men de beschikbare informatie beperkt tot het object zelf Je moet kijken naar de omgeving Hogere-orde variabelen vormen een sleutelbegrip. Deze worden meteen opgepikt (direkt pick-up) en niet berekend uit lagere-orde variabelen. 30
Gibson heeft een studie gedaan over het licht als bron van informatie over de omgeving. Ecologische optica Klassieke optica: licht is een fysisch verschijnsel Twee soorten licht: - Stralingslicht (radiënt licht) Afkomstig van lichtbron en bevat enkel informatie over de lichtbron zelf - Omgevingslicht (ambiënt licht) Afkomstig van de omgeving en bevat dus informatie over voorwerpen uit de omgeving Optic array is ook van groot theoretisch belang. Gehele patroon van licht zoals dat invalt op het oog Facetoog van insecten is perfect in staat om een patroon van invallend licht op te vangen Een patroon van licht dat uit de omgeving komt, kan enorm veel informatie bevatten over voorwerpen en oppervlakken uit de omgeving Eleanor J. Gibson Visual cliff = textuurpatroon met specificatie van randen en diepte, textuurgradiënten voor kanteling Invarianten spelen ook een centrale rol in de ecologische optica Invarianten = gelijkblijvende factoren ondanks veranderingen Latere volgelingen hebben er nog transformationele invarianten aan toegevoegd = Een bepaald patroon van verandering onafhankelijk van de structuur waarop de transformatie plaatsvindt Optic flow Stroom van optische elementen die ontstaat in de optica array van een bewegende waarnemer Als je als waarnemer aan een redelijke snelheid beweegt in de ene richting, ontstaat er een optic flow in de ander richting met redelijke snelheid en verder af een stroom die stilstaat of met je meebeweegt. Bewegingsparallax = de richting en snelheid van de optic flow is een direct functie van afstand ten opzichte van de bewegende waarnemer Optical looming = het snel expanderende flow field ten gevolge van een snel naderend voorwerp De focus of expansion in een optic flow field geeft aan waar je als waarnemer naartoe beweegt Sterke bron van informatie bij navigatie 31
Hogere-orde invariant Tau = De verhouding van de grootte in het netvliesbeeld tot de sterkt van de verandering van die grootte over tijd Specifeert hoe lang men nog heeft vooraleer men het oppervlak zal raken = Time-to-contact Affordances = Neologisme waarmee Gibson verwijst naar eigenschappen van voorwerpen die in directe relatie staan met gedrag van de waarnemer Affordantie is wat je met het voorwerp kan doen in het licht van je behoeften Vb.: be-zit-baarheid van een stoel Affordanties worden gespecifeerd door hogere-orde invarianten in de verhoudingen tussen eigenschapen of dimensies van het voorwerp en da waarnemer Begrip krijgt veel weerklank Vb.: bij een deur die men moet openduwen, moet je een deurklink vermijden die uitnodigt om te trekken Wat zegt de ecologische benadering over het proces van waarneming zelf? Als men kan aantonen dat de visuele informatie voldoende rijk is om alles te specificeren wat nodig is om je gedrag te kunnen aan passen aan de omgeving, dan hoeft waarneming deze informatie enkel maar te detecteren Perceptie is beperkt tot direkt pick-up van de invarianten uit de visuele informatie Resonance en tuning Het visueel systeem moet enkel resoneren met de beschikbare informatie Dit proces bevat smart mechanisms die meteen hogere-orde invarianten registreren Deze visie gaat radicaal in tegen alle eerder perceptietheorieën die stellen dat waarneming indirect is. Gibson stelt dat waarneming direct is, zonder tussenliggende processen. Deze tegenstelling is erg fundamenteel: het gaat om een andere manier van wetenschap doen en zelfs om een ander wereldbeeld. Indirecte theorieën van perceptie Ecologische of directe perceptietheorie Informatie Arm (sensaties) Rijk (specificaties) Perceptie Verrijking Detectie Licht Energie Informatie Variabelen Lagere-orde Hogere-orde Optica Fysische Ecologische Zintuigen Passieve kanalen Actieve perceptuele systemen Activiteit Elaboratie Exploratie Omgeving-waarnemer Dualisme Ecosysteem Empirisch onderzoek Reductie van stimulus Onderzoek van stimulus 32
c) De computationele benadering van David Marr (CTP) David Marr (1945 1980) Grondlegger van een nieuwe, interdisciplinaire benadering van waarneming Vison = waarneming 1982: Vision: A computational investigation into the human representation and processing of visual information Bevatte redelijk wat modellen die fout waren of niet werken Toch een mijlpaal in de vision sciences Marr beschouwde alle eerder werk als louter descriptief, niet verklarend: - Pyschofysica Sensoriële codering van prikkels op systeemniveau - Neurofysiologie Op celniveau Beiden geen gedetailleerde verklaring van de manier waarop waarneming echt werkt. Als je een systeem wilt nabouwen, dan moet je echt alles in detail begrijpen. Wat ontbrak in de visies volgens Marr, was de computationele theorie Een analyse van de taak (functie) van visuele waarneming als een informatieverwerkingsprobleem Input en output van het probleem in detail Pas daarna kan je vragen stellen naar de manier waarop je I en O kan voorstellen, transformeren en berekenen. Niveau van representatie en algoritmes Het niveau van de hardware implementatie 3 e niveau waarop je waarneming kan bestuderen Fysische realisatie van deze representaties en algoritmes in brein en machine Het conceptueel onderscheiden van deze 3 verklaringsniveaus is van grote blijvende waarde voor vision science. De kern van computationele benadering Er is veel informatie beschikbaar, maar impliciet De informatie moet geëxtraheerd worden uit de inputbeelden en verwerkt worden om ze expliciet te kunnen maken. Zoveel mogelijk bottom-up verwerken met meerdere tussenstappen Visuele informatieverwerking omvat een reeks processen (informatie verwerken) en representaties tussen input en output (tussentijdse resultaten voor verdere analyse). 33
Marr onderscheidt drie grote stappen: - Primaire schets - 2,5D schets - 3D objectmodel Primaire schets / raw primal sketch Input bestaat uit netvliesbeelden als een verzameling grijswaarden (impliciet) Randen extraheren gebeurt door filter die eerst randen wazig maakt (blurring) en dan een zwart-wit versie maakt door tresholding) Nul-doorgang (zero-crossing) Men past filteroperatie toe op meerdere spatiale schalen toe en uit elk beeld extraheert men primitieve features Tresholding = alle grijswaarden boven een bepaalde drempel wit, onder de drempel zwart Full primal sketch Marr gebruikt symbolen (tokens) om de belangrijkste attributen van features te kunnen weergeven, los van hun identiteit 2,5D schets Marr probeert de 3 e dimensie te achterhalen Eerst gezichtspuntafhankelijke aspecten van diepte extraheren Ruimtelijke oriëntaties van oppervlakken uit standpunt van waarnemer Representatie is 2,5D schets Maakt gebruik van vectoren waarvan de grootte overeenkomt met slant en de oriëntatie met tilt Berekening gebeurt door verschillende onafhankelijke modules Berekenen dieptecue Principe is telkens gelijkaardig Random-dot stereogrammen van Bela Julesz Correspondentieprobleem = Combinatorische explosie van mogelijks overeenkomstige punten Explosie inperken door eenvoudige constraints in te roepen: - Compatibiliteit Wit = wit, zwart = zwart - Uniciteit Elke stip komt overeen met slechts één andere stip - Continuïteit De veranderingen van diepte verlopen zo geleidelijk mogelijk 34
Combinatie hiervan en de implementatie in een neuraal netwerk convergeert naar unieke oplossing: waarneming van figuur tegen een achtergrond. Berekening van 3D model Gezichtspuntonafhankelijke representatie van voorwerpen Vertrekpunt: een globale weergave van de spatiale relaties tussen de belangrijkste delen kan volstaan voor herkenning Werken met gewone cilinders Hiërarchische voorstelling van meerdere spatiale schalen van een voorwerp Twee tegenstrijdige eisen verzoenen die aan objectherkenning gesteld worden in functie van het niveau waarop men objecten moet kunnen herkennen CTP DTP ITP Gelijkenissen Informatie is rijk Berekeningen en processen nodig voor informatie te verwerken Verschillen CTP stelt berekeningen nodig om informatie te verwerken Direct pick-up CTP bevat algemene, fysische constraints die impliciet in het systeem ingebakken zijn Object-specifieke hypothsen CTP gebruikt kennis om informatie stap voor stap te verwerken Kennis wordt gebruikt om beschikbare informatie te verrijken Een groot deel van dit werk is geïntegreerd in de mainstream benadering. Meer expliciete modellering Meer samenwerking tussen verschillende disciplines van vision science Meer convergentie Toch moeilijker dan gedacht om generische modellen voor te stellen die zowel voor biologische als voor computervisie van toepassing zijn. Invloed van computervisie op de psychologie van de waarneming is terug getaand 35
d) Twee toepassingen als illustratie Onderzoek over biologische bewegingsperceptie Gunnar Johansson (1911 1998) 1950: Configurations in event perception: an experimental study Gestaltpsychologische traditie 1973: landmark paper Biologische bewegingsperceptie Originele techniek om stimuli te reduceren tot hun essentie = Puntlichtfiguren Essentie van het fenomeen Dwingende, spontane, automatische Gestaltwaarneming die gebaseerd is op spatiotemporele relaties in de input Hij stelde codeertheorie voor die gebaseerd was op zijn eerder werk over event configurations Relaties tussen afzonderlijke trajecten en binnen een bepaald referentiekader zijn cruciaal. Cognitieve codeertheorie: volgens hem worden absolute bewegingen ontbonden in gemeenschappelijke en relatieve bewegingen. = Vectoranalyse = Soort algoritme om het computationeel probleem van veelheid aan locale trajecten op te lossen naar één consistente interpretatie Van toepassing op biologische bewegingsperceptie Later onderzoek heeft aangetoond dat point-light displays ook informatie bevatten voor de categorisatie van geslacht, leeftijd, gemoedstoestand,.. Vervolgonderzoek was er voornamelijk op gericht om te achterhalen wat hiervoor precies de kritische informatiebronnen (cues) zijn en hoe goed die verwerkt worden. Poljac et al. (2012) Vertrekpunt = Suchow en Alvarez (2011) over motion silencing = Bewegingsperceptie suggereert de bewuste toegang tot kenmerken van locale delen van de configuratie verhindert of onderdrukt Verklaring van onderzoekers: low-level Taak vereist tussenkomst van locale mechanismen en bewegend voorwerp besteedt slechts weinig tijd op elke locatie Kort venster om een verandering op te pikken Verklaring van boek: mid-level Objecthood: details van geheel zijn minder toegankelijk voor visueel bewustzijn. Beweging is geen noodzakelijke en voldoende voorwaarde voor het effect 36
Dieptewaarneming Soort dieptecue Oculomotorische dieptecues Wat? Gebaseerd op feit dat oog beschikt over spieren die zorgen dat voorwerpen scherp afgebeeld worden op netvlies Idee: hersenen geven bevel aan deze spieren, beschikken over feedback van dat signaal waardoor het visueel systeem er ook gebruik van kan maken Accommodatie = proces waardoor de kromming van de lens aangepast wordt, zodat de beelden scherp afbeeld worden. Convergentie = proces waarmee de ogen samen op een voorwerp gericht kunnen worden Visuele cues: - Binoculaire cues (stereovisie) Dragen in geringe mate bij aan dieptewaarneming Belangrijke informatiebron om nauwkeurige diepteschattingen te bekomen. Retinale disparitieit = verschil dat bestaat tussen beide netvliesbeelden doordat de ogen vanuit een lichtjes verschillende ruimtelijke positie kijken naar een welbepaald punt in de 3D ruimte - Monoculaire cues: Dynamische cues Bewegingsparallax In plaats van twee beelden afkomstig van twee ogen op één ogenblik in de tijd, hebben we twee beelden afkomstig van één oog op twee momenten in de tijd Statische cues Betrouwbare dieptebron Informatiebronnen in één statisch beeld Interpositie of occlusie: indien een voorwerp iets bedekt, is het eerste dichterbij dan het andere Relatieve grootte: voorwerpen die verder weg, lijken kleiner Relatieve hoogte: idem als hierboven Textuurgradiënten Lineair perspectief: parallelle lijnen die in perspectief getekend zijn, convergeren in verdwijnpunt Atmosferische perspectief: voorwerpen verder weg zijn waziger 37