Informasjon

Hva er kjent om hvordan visuelle stimuli / forforståelser påvirker auditiv oppfatning?

Hva er kjent om hvordan visuelle stimuli / forforståelser påvirker auditiv oppfatning?

Dette spørsmålet oppstod for meg da jeg gikk langs gaten i dag. Jeg så to fasjonable kvinner på gata foran meg. En av dem pekte på noe utenfor synsfeltet mitt, og sa "Oh look, Katy's Boutique!" Da jeg snudde meg for å se, så jeg ingen butikk, men jeg så en filial av banken HSBC, som fikk meg til å innse at kvinnen må ha sagt "Åh, HSBC!"

Kanskje jeg tar feil her, men jeg kan ikke forestille meg at jeg ville ha hørt "Katy's Boutique" hvis jeg hadde sett to menn i stedet for to kvinner. Det virker som om mine forforståelser fikk meg til å tolke de samme stimuliene annerledes.

Har det blitt gjort noen studier på dette? Hvor kjent er effekten, og kan vi si noe kvantitativt om den?


3 Resultater

Den største reduksjonen i smerteverdier fra kontrolltilstanden kunne observeres etter 10-Hz entrainment-økten i både den auditive og den visuelle gruppen, etterfulgt av 8 Hz og deretter 12-Hz-tilstanden. Det var ingen signifikante endringer eller korrelasjoner observert i spørreskjemaene.

3.1 Smertevurderinger - auditiv medfølelsesgruppe

Tatt i betraktning grunnlinjesmerter som en kovariat og stimuleringsfrekvensen, medfølgerekkefølge og besøksrekkefølge som faktorer, beregnet den blandede lineære modellen at smertekarakterer som lyktes med 8-, 10- og 12-Hz medføringsbetingelsene alle var signifikant forskjellige fra alle tre kontrollbetingelsene (t(31) = 4.90, s & lt 0,001 t(31) = 5.61, s & lt 0,001 t(31) = 4.85, s henholdsvis 0,001). Justerte gjennomsnittlige smerteverdier etter medføring var henholdsvis 0,51 (SE 0,10), 0,58 (SE 0,10) og 0,5 (SE 0,10) poeng lavere enn kontrollen på den numeriske karakterskalaen (figur 2). Ingen signifikant forskjell ble oppdaget mellom de tre auditive medholdsbetingelsene når modellen ble montert på nytt med en Bonferroni -korreksjon (tabell 1).

(EN)
Gjennomsnittlig absolutt smertevurdering - hørselstilstand
Tilstand Grunnlinje Kontroll 8 Hz 10 Hz 12 Hz
Absolutte verdier 6.74 6.62 6.08 6.05 6.08
(B)
Justerte smertevurderinger - hørselstilstand kontra kontroll
Tilstand Justerte forskjeller Standard feil t Effektstørrelse Betydning (tohalet)
8 Hz 0.51 0.10 4.90 0.76 p & lt 0.001
10 Hz 0.58 0.10 5.61 0.80 p & lt 0.001
12 Hz 0.51 0.10 4.85 0.77 p & lt 0.001

3.2 Smertevurderinger - visuell entrainment -gruppe

Den blandede lineære modellen fastslår at, med hensyn til kovariater og faktorer, var smerteverdiene i medføringsforholdene (8, 10 og 12 Hz) signifikant forskjellige fra kontroll (t(31) = 2.28, s & lt 0,01 t(31) = 5.32, s & lt 0,001 t(31) = 2.59, s & lt, 0,01). De modellkorrigerte smerteverdiene for forholdene 8-, 10- og 12 Hz var i gjennomsnitt 0,6, 1,1 og 0,3 poeng lavere på smerteskalaen enn kontrollen. I tillegg, når modellen ble montert på nytt, var smerteverdiene signifikant forskjellige i 10-Hz-tilstanden sammenlignet med 8-Hz (t(31) = 2.22 s & lt 0,01) og 12 Hz (t(31) = 4.04, s & lt 0.001) tilstand. Forholdene 8- og 12 Hz skilte seg ikke fra hverandre (s = 0,287) (Fig. 3 Tabell 2).

(EN)
Gjennomsnittlig absolutt smertevurdering - visuell tilstand
Tilstand Grunnlinje Kontroll 8 Hz 10 Hz 12 Hz
Absolutte verdier 6.68 6.52 5.94 5.52 6.17
(B)
Justerte smertevurderinger - visuell tilstand kontra kontroll
Tilstand Justerte forskjeller Standard feil t Effektstørrelse Betydning (tohalet)
8 Hz 0.60 0.20 2.28 0.59 s & lt 0,01
10 Hz 1.12 0.18 5.32 1.01 s & lt 0,001
12 Hz 0.35 0.09 2.59 0.70 s & lt 0,01

3.3 Spørreskjema resultater

En blandet lineær modell ble brukt på KSS-, POMS- og STAI-State-scoreene på 8, 10 og 12-Hz-tilstanden og sammenlignet dem med kontrollpoengene. Modellen avslørte ingen signifikante scoreendringer sammenlignet med kontrolltilstanden i både den visuelle og den auditive gruppen. De pre-eksperimentelle spørreskjemaene viste ingen signifikant korrelasjon til endringen i smerteverdier fra baseline på tvers av alle tre tilstandene, i begge gruppene.


Tilgangsalternativer

Få full journaltilgang i 1 år

Alle priser er NETTO -priser.
MVA blir lagt til senere i kassen.
Skatteberegningen vil bli fullført under kassen.

Få tidsbegrenset eller full artikkeltilgang på ReadCube.

Alle priser er NETTO -priser.


Studie 2

I denne studien forsøkte vi å redusere variasjonen i SOA mellom auditive og visuelle stimuli på tvers av nettlesere og systemer, ved å bruke en annen tilnærming. I studie 1 ba koden vi skrev bare om at de auditive og visuelle stimuliene ble presentert samtidig, uten å overvåke når stimuliene faktisk ble presentert. Som vi diskuterte ovenfor, foreslo tidligere forskning at det kan være en ikke -forsinket forsinkelse mellom å utføre en kommando for å presentere en lydstimulering og stimulusens begynnelse, så det generelle funnet av et betydelig forsinkelse mellom visuelle og hørselsdebut var kanskje ikke overraskende.

I studie 2 brukte vi JavaScript eller Flash for å starte en lydavspilling, og deretter brukte vi en hendelseslytter, en prosedyre som kjøres når den utløses av en hendelse, for eksempel et museklikk eller en skjermoppdatering, for å kontrollere om lyden faktisk rapporteres som avspilling . Så snart den ble oppdaget som å spille, ble den visuelle stimulansen presentert. Dette gir mindre kontroll over det presise punktet der en stimulus begynner å spille, men det kan redusere kryss-modal asynkronisering. Designet er gitt i følgende pseudokode:

Start en ny prøveversjon med en svart skjerm

Spill en sinusbølge mp3 som varer 1000 ms

Overvåk om en lyd spilles av

Gjør en hvit firkant synlig hvis en lyd spilles av

Overvåk om lyden er komplett

Hvis lyden er komplett, gjør den hvite firkanten usynlig

I JavaScript var kommandoen for å gjøre torget synlig bundet til "play" -hendelsen for sinusbølgen. I Flash overvåket en på-interframe hendelseslytter posisjonen til spillehodet i en lydkanal. Når lekehodets posisjon var større enn 0 - det vil si når lyden spilte - ble torget synliggjort.

Resultater

Resultatene kan ses i tabell 2, og den kumulative fordelingen av SOAer kan sees på figur 2.

Kumulativ frekvensfordeling av SOAer i studie 2 over tre nettlesere, to implementeringer og to datasystemer. Det venstre panelet viser JavaScript -ytelse, og det høyre panelet viser Flash -ytelse. Hele linjer viser ytelse på den stasjonære PCen, og de stiplede linjene viser ytelse på den bærbare datamaskinen

Auditiv varighet

Som før var konsistensen i den auditive presentasjonens varighet veldig god. Resultatene er veldig like de som ble funnet i studie 1.

Visuell varighet

Bindingen av den visuelle stimulansens begynnelse og forskyvning til lydstart og offset førte til betydelig variasjon i visuell varighet. Disse inkluderte presentasjonstider som var litt under ønsket 1000 ms med Flash og noen veldig store overdrevne varigheter under JavaScript.

SOA mellom auditiv og visuell debut

SOAene her var ikke bedre enn i studie 1, og variasjonen mellom system -nettleserkombinasjoner var høyere.

Diskusjon

I denne studien brukte vi hendelseslyttere for å binde starten på den visuelle stimulansen til presentasjonen av den auditive stimulansen. Målet var å omgå det velkjente spørsmålet om umålelige forsinkelser mellom kommandoutførelse og selve starten på en hørselsstimulering. Det gikk ikke.

Denne feilen er kanskje ikke overraskende: En betydelig mengde lydbehandling blir overført til datamaskinens lydkort, og nettleserbasert kode har begrenset tilgang til systemrelatert informasjon. Som sådan ser det ut til at det vi overvåket ikke var den nøyaktige starten på den auditive stimulansen, men enten en proxy i JavaScript- eller Flash -miljøet, som kanskje ikke var relatert til lydkortets faktiske oppførsel, eller i det minste i noen tilfeller, en rapport fra lydkortet som var utsatt for forsinkelse og variasjon i tidspunktet for presentasjonen til runtime -miljøet til JavaScript- eller Flash -koden.

Det virker også klart, spesielt i JavaScript, at hendelsen utløses av lyd ferdigstillelse skjedde en stund etter at lyden var ferdig, noe som betyr at den visuelle stimulansen ble værende på skjermen vesentlig lenger enn den burde. Samlet sett ser det derfor ut til at denne tilnærmingen ikke er bedre og kan være verre enn i studie 1.


Forholdet mellom å se/lytte og menneskelige følelser

(a) Elevrespons under presentasjon av følelsesmessig vekkende bilder (b) Elevrespons under presentasjon av følelsesmessig oppvåkende lyder Kreditt: Toyohashi University of Technology.

Forskere ved Toyohashi University of Technology rapporterer at forholdet mellom oppmerksomhetstilstander som respons på bilder og lyder og følelsene som fremkalles av dem, kan være forskjellige i visuell oppfatning og auditiv oppfatning. Dette resultatet antyder at visuell persepsjon fremkaller følelser i alle oppmerksomhetstilstander, mens hørselsoppfatning fremkaller følelser bare når oppmerksomhet rettes mot lyder, og viser dermed forskjellene i forholdet mellom oppmerksomhetstilstander og følelser som respons på visuelle og hørbare stimuli.

Dette resultatet ble oppnådd ved å måle pupillreaksjoner relatert til menneskelige følelser. Det antyder at visuell persepsjon fremkaller følelser i alle oppmerksomhetstilstander, mens hørselsoppfatning bare fremkaller følelser når oppmerksomhet er rettet mot lyder, og viser dermed forskjellene i forholdet mellom oppmerksomhetstilstander og følelser som respons på visuelle og auditive stimuli.

I dagliglivet blir følelser ofte fremkalt av informasjonen vi mottar fra visuell og auditiv oppfatning. Som sådan har mange studier hittil undersøkt menneskelig emosjonell prosessering ved hjelp av emosjonelle stimuli som bilder og lyder. Imidlertid var det ikke klart om slik emosjonell prosessering var forskjellig mellom visuell og auditiv oppfatning.

Forskerteamet spurte deltakerne i eksperimentet om å utføre fire oppgaver for å varsle dem om forskjellige oppmerksomhetstilstander da de ble presentert for følelsesmessig oppvåkende bilder og lyder for å undersøke hvordan emosjonelle responser var forskjellige mellom visuell og auditiv oppfatning. De sammenlignet også pupillresponsene som ble oppnådd ved målinger av øyebevegelser som en fysiologisk indikator på emosjonelle responser. Som et resultat fremkalte visuell oppfatning (bilder) følelser under utførelsen av alle oppgavene, mens hørselsoppfatning (lyder) bare gjorde det under utførelsen av oppgaver der lyden ble viet oppmerksomhet. Disse resultatene antyder at det er forskjeller i forholdet mellom oppmerksomhetstilstander og emosjonelle reaksjoner på visuelle og auditive stimuli.

"Tradisjonelt har subjektive spørreskjemaer vært den vanligste metoden for å vurdere emosjonelle tilstander. Men i denne studien ønsket vi å trekke ut emosjonelle tilstander mens en slags oppgave ble utført. Vi fokuserte derfor på pupillrespons, som mottar mye oppmerksomhet som et av de biologiske signalene som gjenspeiler kognitive tilstander. Selv om mange studier har rapportert om oppmerksomhetstilstander under emosjonell opphisselse på grunn av visuell og auditiv oppfatning, har det ikke vært noen tidligere studier som sammenligner disse tilstandene på tvers av sanser, og dette er det første forsøket, " sier hovedforfatter Satoshi Nakakoga, ph.d. -student.

Professor Tetsuto Minami, lederen for forskerteamet, sa: "Det er flere muligheter til å komme i kontakt med forskjellige visuelle medier via smarttelefoner og andre enheter og for å fremkalle følelser gjennom den visuelle og auditive informasjonen. Vi vil fortsette å undersøke om sensorisk oppfatning som fremkaller følelser, inkludert effekten av fremkalte følelser på menneskelig oppførsel. "

Basert på resultatene av denne forskningen, foreslår teamet muligheten for en ny metode for følelsesregulering der de emosjonelle responsene som fremkalles av en viss sans, fremmes eller undertrykkes av stimuli fra en annen sans. Til syvende og sist håper de å etablere denne nye metoden for følelsesregulering for å behandle psykiatriske lidelser som panikk og stemningsforstyrrelser.


Forfatterens svar

Viktige revisjoner:

1) Vennligst adresser behovet for klassifisering av svar på forskjellige talelyder som brukes i studien. En slik klassifisering vil styrke konklusjonen om at multisensorisk integrasjon faktisk finner sted i pSTG.

Vi tar nå for oss klassifiseringsanalyser i detalj (se svar på anmelder 1, kommentar nr. 1 nedenfor for fullstendig tekst).

Anmelderne vil også gjerne se flere detaljer om stimuliene som ble brukt i studien.

Vi har redigert delen Materialer og metoder for å gi flere detaljer og gjort stimuli fritt tilgjengelig på https://doi.org/10.5061/dryad.v815n58

2) Vennligst presiser at forutsetningene som brukes i modellen bestemmer resultatene (se kommentarer anmelder 1).

Vi er helt enige og har slettet den konseptuelle modellen fra manuskriptet og fullstendig endret vår beskrivelse av den nevrale modellen (se svar til anmelder 1, kommentar #2, nedenfor, for fullstendige detaljer).

3) Vennligst ta opp oppmerksomhetens rolle i diskusjonen av resultatene (se kommentarer fra anmelder 2).

Vi inkorporerer nå en diskusjon om oppmerksomhet (se svar til anmelder 2, kommentar nr. 1 nedenfor for fullstendige detaljer).

4) I diskusjonen, ta opp potensielle begrensninger knyttet til bruk av et begrenset sett med stimuli og bruk av utelukkende klar tale i studien.

Vi har utført nye eksperimenter med et større stimulus -sett (se anmelder 2, kommentar nr. 1) og har lagt til materiale om bruk av tydelig tale (se anmelder 2, kommentar #2 for fullstendig tekst).

Vær også snill å kommentere tidlige vs. senere multisensoriske effekter og sitere Peelle and Sommers, 2015 -papiret.

Vi kommenterer nå tidlig vs.

Anmelder nr. 1:

[…] 1) Papirets kjennekrav er at visuell informasjon bidrar til multisensorisk prediksjon, og at dette skjer i pSTG. Forfatterne bemerker i diskusjonen at de ikke foretok noen klassifisering av talelydene, men det ser ut til at det er analysen som ville være nødvendig for å virkelig demonstrere at multisensorisk integrasjon faktisk skjer i pSTG (nevralmodellen som presenteres gjør ikke snakk til klassifisering, men bare til endringer i signalamplitude). For eksempel, hvis den visuelle informasjonen i munnledende ord tillater ekskludering av 80% av fonemene, bør dette gjenspeiles i klassifiseringsnøyaktigheten korrekt? For eksempel å sammenligne klassifisering av fonemer for kun lyd (bakken sannhet) med tidsvinduet for munnledende ord før lydinformasjon begynner.

For å være tydelig - jeg tror at avisen allerede har et viktig bidrag - det er bare at bevisstatusen for påstanden om at multisensorisk integrering forekommer i pSTG ville foreslå en mer direkte test, eller i det minste noen diskusjon om de spesifikke spådommene gjort for en klassifiseringsanalyse etter teorien. (Jeg tror at hvis klassifiseringsdataene kunne inkluderes, ville det være bedre, men jeg ser ikke på dette som en betingelse for qua non for publisering).

Vi er enige med anmelder 1 om at klassifiseringsanalyse ville være en viktig test for nevralmodellen som presenteres i artikkelen. Våre eksisterende data åpner ikke for en klassifiseringsanalyse, så vi presenterer nå det korrekturleser 1 foreslår som et rimelig alternativ, nemlig "diskusjon om de spesifikke spådommene gjort for en klassifiseringsanalyse av teorien". Fra diskusjonen:

"Mens den nevrale modellen gir en forklaring på hvordan forbedring og undertrykkelse kan føre til forbedret oppfatning av støyende tale, testet vi ikke denne forklaringen direkte: bare klar tale ble presentert i nevrale opptakseksperimentene, og siden den klare talen ble forstått nesten perfekt , var det ikke mulig å korrelere nevrale responser med persepsjon. […] Med store registreringselektroder bør graden av undertrykkelse målt på tvers av populasjoner korrelere med pSTG SNR (større undertrykkelse som resulterer i større SNR) og perseptuell nøyaktighet. ”

2) Resultatet av den nevrale modellen ser ut til å være helt drevet av forutsetningene som ble brukt i konstruksjonen av modellen-dette bør bare avklares at det er en demonstrasjon av prinsippet om forutsetningene (for å skille dette fra en modell der de første prinsippene som ikke eksplisitt gjøre antagelser om økninger eller reduksjoner i signalet som en funksjon av modalitet 'gir opphav til de observerte fenomenene).

Vi er helt enige. Vi har slettet den "konseptuelle modellen" helt fra manuskriptet, fjernet referansen til den nevrale modellen fra tittelen på manuskriptet og gjort det klart i diskusjonen at den nevrale modellen er en post-hoc-forklaringsmodell (snarere enn en som er avledet fra første- prinsipper). Når det er sagt, gir den nevrale modellen en rekke interessante spådommer som sikkert vil anspore til ytterligere eksperimenter, så vi føler at den er en verdifull del av manuskriptet.

Anmelder nr. 2:

[…] 1) Min største bekymring med arbeidet ville være at eksperimentet innebar bruk av bare et svært begrenset sett med stimuli-to munnledende og to stemmeledende ord. Til syvende og sist er resultatene overbevisende, men jeg lurer på hvor sikre vi kan være på at disse resultatene vil generalisere til et bredere sett med stimuli, inkludert naturlig tale. For eksempel lurte jeg på hvilke effekter gjentagelse av disse stimuliene kan ha på hvordan fagene tar hensyn eller på annen måte engasjerer seg i stimuliene. Jeg mener at jeg kan forestille meg at så snart motivet ser munnen som leder stimulansen, vet de hvilket lydord som kommer neste gang, og da tar de litt mindre hensyn som resulterer i mindre svar. De får ikke så mye forvarsel for de stemmeledende stimuliene, så de mister ikke oppmerksomheten. Jeg ville trodd at det kan være verdt å diskutere, og vil også foreslå at forfatterne er veldig klare om stimuliene i manuskriptets hoveddel.

Vi er helt enig i denne kritikken om vårt begrensede stimuleringssett. Som foreslått av korrekturleseren, i tillegg til å beskrive stimuliene i Materialer og metoder, skriver vi nå i hoveddelen av manuskriptet (resultatseksjon):

"I det første perseptuelle eksperimentet ble 40 deltakere presentert for 16 ordstimuleringer bestående av fire stimuluseksempler (to munnledende ord og to stemmeledende ord) i hvert av de fire formatene (tydelig hørbar, støyende hørsel, klar audiovisuell, bråkete audiovisuelt). "

"I motsetning til de perseptuelle studiene, hvor både klar og støyende tale ble presentert, ble det i nevrale eksperimenter bare presentert klar tale for å maksimere størrelsen på nevralresponsen. Eksemplene på stimulans besto av de to munnledende ordene og to stemmeledende ord som ble brukt i det første perseptuelle eksperimentet som ble presentert i audiovisuelle, audiovisuelle og audiovisuelle formater (tolv totale stimuli). "

For å løse denne bekymringen har vi utført et nytt eksperiment ved hjelp av ytterligere stimuli:

"I det andre perseptuelle eksperimentet ble 46 deltakere presentert for 40 ordstimuleringer annerledes enn de som ble brukt i det første perseptuelle eksperimentet, bestående av 10 stimuluseksempler (fem munnledende ord og fem munnledende ord) presentert i hvert av de fire formatene . "

Resultatene av dette nye eksperimentet reproduserer og utvider funnene våre til et mye større stimuleringssett:

"For disse munnledende ordene økte forståelsen av støyende hørselstale med 53% ved å se ansiktet til taleren med 53% ... For stemmeledende ord ga visning av talerens ansikt bare en 37% nøyaktighetsøkning ... Samspillet mellom format og ordtype var signifikant (s & lt 10 -16) drevet av den større fordelen med visuell tale for munnledende ord. "

Det at funnene våre replikeres i en annen og større prøve er en viktig bekreftelse. Det er imidlertid sant at vi ikke kan utelukke alternativ forklaring. Vi inkluderer nå en ny seksjon i diskusjonen:

"Rolle av midlertidig oppmerksomhet

Den enkle nevrale modellen forutsetter at den visuelle talens forsprang gir en mulighet til å styre i kompatible hørtelefoner og utelukke inkompatible hørtelefoner i forkant av tilgjengeligheten av hørselsinformasjon fra stemmen. […] I nevrale opptakseksperimentene var det bare fire stimulanseksempler, så deltakerne kunne ha lært den relative timingen for den auditive og visuelle talen for hver enkelt stimulus, noe som resulterte i nevrale responsforskjeller på grunn av tidsoppmerksomhet. "

2) En annen begrensning - som forfatterne erkjenner - var bruken av bare klar tale i elektrofysiologiske eksperimenter. Jeg antar at det kan være verdt å nevne at litt mer i diskusjonen av to grunner: i) det kan være verdt å markere at man kan forvente å se større undertrykkende multisensoriske effekter i (noe) støyende tale (i delen om modellspådommer for eksempel ), og ii) det kaster en liten tvil om ideen om at det vi ser er virkelig multisensorisk - jeg mener V -en ikke er veldig atferdsmessig veldig nyttig for tydelig tale. Når det er sagt, setter jeg pris på resultatet i figur 4B gir bevis for en multisensorisk effekt.

Vi er enige om at dette er et veldig viktig poeng. Vi har lagt til en ny figur 5E og gir ytterligere materiale om dette i diskusjonen:

"Posthocneural -modellen gir en kvalitativ forklaring på den reduserte nevrale responsen på ord med et visuelt forsprang. […] Denne prosessen er illustrert skjematisk for støyende auditive" da "og støyende audiovisuelle" da "i figur 5E."

I en annen del av diskusjonen:

"Mens den nevrale modellen gir en forklaring på hvordan forbedring og undertrykkelse kan føre til forbedret oppfatning av støyende tale, testet vi ikke denne forklaringen direkte: bare klar tale ble presentert i nevraleopptakseksperimentene, og siden den klare talen ble forstått nesten perfekt , det var ikke mulig å korrelere nevrale responser med persepsjon. […] Modellen er forutsigelsen at SNR i pSTG bør være større for støyende audiovisuelle ord enn for støyende kun hørselsord, og større for munnledende ord med en visuell forkant enn stemmeledende ord uten et. "

3) Jeg tenkte at det kan være verdt å nevne Peelle and Sommers, 2015 -anmeldelsen og kanskje spekulere i om resultatene vi ser her, kan gjenspeile tidlig vs. senere multisensoriske effekter - eller om du synes det er et nyttig rammeverk i det hele tatt?

Vi siterer Peele and Somers -anmeldelsen og skriver nå i diskusjonen:

"I en tidligere studie demonstrerte vi at audiovisuell tale selektivt øker aktiviteten i regioner i tidlig visuell cortex som representerer munnens tale (Ozker et al., 2018b). […] Siden cortex i overlegen temporal gyrus og sulcus mottar innspill fra tidligere stadier av de auditive og visuelle behandlingshierarkiene, virker det sannsynlig at informasjon om visuelle munnbevegelser kommer til pSTG fra mer posterior regioner i lateral temporal cortex (Bernstein et al., 2008 Zhu og Beauchamp, 2017), mens informasjon om auditivt fonemisk innhold kommer til pSTG fra bakre belteområder i auditiv cortex (Leaver og Rauschecker, 2016). ”


Perceptuell belastning påvirker den auditive romoppfatningen hos ventriloquist -ettervirkningen

En periode med eksponering for tog med samtidige, men romlig kompenserte auditive og visuelle stimuli kan indusere et midlertidig skifte i oppfatningen av lydplassering. Dette fenomenet, kjent som 'ventriloquist aftereffect', gjenspeiler en justering av auditive og visuelle romlige representasjoner slik at de nærmer seg perseptuell justering til tross for deres fysiske romlige uoverensstemmelse. Slike dynamiske endringer i sensoriske representasjoner vil sannsynligvis ligge til grunn for hjernens evne til å imøtekomme inter-sensorisk uoverensstemmelse produsert av sensoriske feil (spesielt i lydlokalisering) og variasjon i sensorisk transduksjon. Det er imidlertid foreløpig ukjent om disse plastiske endringene forårsaket av tilpasning til romlig forskjellige innganger skjer automatisk eller om de er avhengige av å selektivt ivareta de visuelle eller auditive stimuliene. Her demonstrerer vi at robuste, auditive romlige ettervirkninger kan induseres selv i nærvær av en konkurrerende visuell stimulans. Viktigere fant vi at når oppmerksomheten rettes mot konkurrerende stimuli, blir mønsteret av ettervirkninger endret. Disse resultatene indikerer at oppmerksomhet kan modulere ventriloquistens ettervirkning.


Hva er kjent om hvordan visuelle stimuli / forforståelser påvirker auditiv oppfatning? - Psykologi

Terskler
I følge Schmeidler, og de aller fleste psykologer som studerer subliminale fenomener, er en terskel det punktet hvor en stimulans oppfattes 50% av tiden. For eksempel, hvis min a ural terskel skulle testes, ville jeg bli spilt mange lyder i forskjellige volumer. For å signalisere at jeg hørte tonen-jeg oppfattet stimulansen-jeg ville løfte hånden eller trykke på en knapp, uansett hva forskningen hadde instruert meg om når jeg hørte en lyd. Ved å kontrollere og spore frekvensen av den utsendte lyden, er forskerne i stand til å finne volumet der jeg hører en lyd, oppfatte stimulansen halvparten av tiden. Dette punktet er min auditive terskel. En arbeidsdefinisjon av terskel er avgjørende. Det fungerer som det vitenskapelige grunnlaget for forskning på dette området, et grunnlag som alle data er definert på. For noen er det her problemene med subliminal forskning begynner. xxxx (følg denne lenken for diskusjon av disse problemene)

Visuell subliminal oppfatning

En rekke ting blir til noe
Når en person blinker et bilde, opprettholder hjernen en type & quotfootprint eller & quotafter image & quot av stimulansen. Det vil si, til tross for stimulansen som er vist og deretter tatt bort, for en kort stund blir bildet fortsatt sett av hjernen. Ved første blits kan motivet huske formen på begynnelsen av et ord. Den neste blitsen (veldig tett sammen) skaper hjernen et fotavtrykk av midten av ordet. Ved å fortsette på en slik måte, kan et emne sette sammen disse fotavtrykkene - disse seriene av ting - og danne/gjenkjenne ordet som helhet. (Schmeidler 127)

Hvordan visuell maskering fungerer
Maskeringen av visuell persepsjon er vanligvis å ta bort "fotavtrykk" som henger på motivets hjerne, skapt av målstimulansen. Et tullbilde (en rekke bokstaver som ikke staver noe, et linjemønster osv.) Blinker umiddelbart etter målbildet. Dette etterlater fotavtrykket til tullbildet som henger rundt i motsetning til målbildet. (Epley 7)


Lydlig subliminal oppfatning

Ikke stjal !!
Mange varehus bruker subliminale meldinger for å motvirke tyveri. De bruker lydmeldinger maskert i & quotstores musikk & quot (mange butikker spiller musikk via intercom -systemet). Maskerte lydmeldinger blir vanligvis komprimert eller akselerert i en grad som gjør dem uforståelige, selv om de er supraliminelle. Meldingen blir deretter maskert ved å spille av, i dette tilfellet, musikk. Denne musikken er hovedkanalen - den er lettest å oppfatte. Den skjulte meldingen blir den sekundære kanalen. (Moore) Denne taktikken er kanskje ikke meningsløs, og mange funn indikerer ikke bare analyse av sekundært kanalinnhold på nivå med individuelle ord, men kort utholdenhet av minne for det innholdet & quot (Greenwald 5). Oppfattet eller ikke, det er fremdeles kontroversen om hvorvidt det vil påvirke ens oppførsel eller ikke.

Vanskeligheter med forskning

Problemer med terskler
Til å begynne med har psykologer i hovedsak massert teorien om terskler, slik at subliminal oppfatning kunne eksistere i en form som kan studeres. På 1800 -tallet brukte Herbart og Fechner begrepet limen som et skille mellom bevisst og ubevisst. Mye av forskningen som ble utført i løpet av 1950 -årene og videre, er basert på en særegen deling av "terskel" i to deler: sensorisk terskel og perseptuell terskel: stimuli som blir & kvotert av kroppen, men ikke bevisst & quot og stimuli som er henholdsvis "gjort bevisst". Det er den perseptuelle terskelen som brukes på området for subliminal persepsjonforskning (Erdelyi 3). Således er det forskerne studerer stimuli som er over sanseterskelen, men under den perseptuelle terskelen (punktet der et subjekt kan oppfatte en stimulans 50% av tiden). Dette tvinger til debatt, for det går utover hele begrepet en dikotomi mellom bevisst og ubevisst, det eksakte begrepet subliminal.

Allerede kjent fra andre forskningsområder er det faktum at vi mottar informasjon i nedre hjerne som aldri kommer til cortex. Cortex er der ting er & quotmade bevisst & quot. Det er her sensorisk oppfatning spiller inn. Det anslås at for hver 1.000.000 stimuli som passerer sanseterskelen, passerer en stimulus gjennom den perceptuelle terskelen (Norr 161). Slik forklares kompleksiteten ved menneskelig oppførsel. Mennesker gjør ganske enkelt for mye for å være bevisste på det hele. Som McConnell påpeker, "Vi er en terskelmasse."

Hver person har sitt eget unike sett med terskler. Å måle terskelen til hvert emne før eksperimentene utføres er både tidkrevende og overflødig, men står for slike særegenheter. Imidlertid varierer ikke bare terskler fra person til person, men de varierer også dag for dag i ett individ. Så det jeg ikke kan høre i dag kan jeg høre i morgen og omvendt (McConnell, Moore). Uten statisk terskel, eller statistisk grunnlag, blir forskning på subliminal oppfatning i dag ugyldig i morgen.

Erdelyi (3) tar opp et spennende poeng. Han hevder at disse problemene med terskler ikke er metodiske hindringer, men at de snarere er konseptuelle feil. Dette minner samfunnet om at denne forskningen faktisk ikke er virkelig "offensiv".

Merk følgende
Oppmerksomhet spiller en rolle for forskning på subliminal oppfatning. Det er i stand til å forskyve resultatene fordi motivet får beskjed om å lytte etter en lyd eller se etter et syn. Når man prøver å finne ut om man kan påvirkes subliminalt i det daglige, vil ikke personen aktivt lete eller lytte etter de antatte stimuliene/meldingene. For å motvirke dette bør studiedesigner holde motivet uvitende om målstimuleringene. (Cohen 55 Shiffrin)


Avsluttende kommentarer

Som det skal fremgå av det ovennevnte, har vi lært mye om hvordan auditive atferdsmessige, nevrale og perseptuelle prosesser kan påvirkes av syn, og mer generelt om allestedsnærvær og nytte av multisensoriske interaksjoner for å forme våre handlinger og oppfatninger. Det generelle temaet for dette arbeidet er at vi under naturalistiske omstendigheter nesten blir utfordret med informasjon fra flere sanser, og at hjernen bruker både overflødig og komplementær informasjon for å generere adaptive atferdsfordeler og for å skape en sammenhengende perseptuell virkelighet. Gitt dette er det ikke veldig overraskende at hjernen kombinerer og integrerer informasjon på tvers av sansene, og at denne konvergensen og den påfølgende integrasjonen finner sted på en rekke behandlingstrinn, inkludert de som en gang var tenkt dedikert til unisensory (dvs. auditiv alene) funksjon.

Selv om mye har blitt lært om visuell påvirkning på hørselsprosesser, gjenstår det en rekke ubesvarte spørsmål og områder for fremtidig undersøkelse. Fremskritt innen nevrofysiologiske metoder har gitt muligheten til å registrere fra store nevronale ensembler på tvers av flere hjerneområder samtidig i dyremodeller, og vil utvilsomt gi kritisk innsikt i sensorisk koding og informasjonsoverføring. Such approaches make feasible the ability to see the transformations of information that characterize moving up scales of analysis and computation (e.g., from individual neurons to local circuits). In addition, they enable these transforms to be captured as one moves from node to node within the processing hierarchy and as information moves from sensory representation to decision. Such a capacity will also allow greater insight into the dialogue between “bottom up” and “top down” processes that ultimately shape these computations. As alluded to previously, application of machine learning to carry out sophisticated pattern analyses on both neurophysiological and imaging datasets has already provided significant insight into the nature of neural representations, most notably when these representations are sparse and highly distributed. Continued efforts in this area should significantly add to our knowledge of how auditory representations are influenced by vision. In keeping with the computational theme, the continued development of biologically plausible models such as those that attempt to instantiate Bayesian causal inference processes will also shed great light on these questions. Finally, and as should be clear from the final sections, ongoing efforts need to better elucidate how audiovisual function is altered in clinical contexts, and how such alterations relate to core domains of dysfunction. For, with such knowledge in hand, we can begin to build and apply remediation approaches that are founded in improving sensory function (and multisensory integration), and that have the potential for having cascading effects into higher-order cognitive and executive function domains.


Gjennomgå artikkel

  • 1 Pain and Perception Lab, IIMPACT in Health, The University of South Australia, Adelaide, SA, Australia
  • 2 Neuroscience Research Australia, Randwick, NSW, Australia
  • 3 Crossmodal Research Laboratory, Department of Experimental Psychology, University of Oxford, Oxford, United Kingdom

The sounds that result from our movement and that mark the outcome of our actions typically convey useful information concerning the state of our body and its movement, as well as providing pertinent information about the stimuli with which we are interacting. Here we review the rapidly growing literature investigating the influence of non-veridical auditory cues (i.e., inaccurate in terms of their context, timing, and/or spectral distribution) on multisensory body and action perception, and on motor behavior. Inaccurate auditory cues provide a unique opportunity to study cross-modal processes: the ability to detect the impact of each sense when they provide a slightly different message is greater. Additionally, given that similar cross-modal processes likely occur regardless of the accuracy or inaccuracy of sensory input, studying incongruent interactions are likely to also help us predict interactions between congruent inputs. The available research convincingly demonstrates that perceptions of the body, of movement, and of surface contact features (e.g., roughness) are influenced by the addition of non-veridical auditory cues. Moreover, auditory cues impact both motor behavior and emotional valence, the latter showing that sounds that are highly incongruent with the performed movement induce feelings of unpleasantness (perhaps associated with lower processing fluency). Such findings are relevant to the design of auditory cues associated with product interaction, and the use of auditory cues in sport performance and therapeutic situations given the impact on motor behavior.


Author response

Essential revisions:

1) Please address the need for classification of responses to different speech sounds used in the study. Such classification would strengthen the conclusion that multisensory integration actually takes place in pSTG.

We now address classification analysis in detail (see response to reviewer 1, comment #1, below, for complete text).

The reviewers would also like to see more details of the stimuli used in the study.

We have edited the Materials and methods section to provide more detail and made the stimuli freely available at https://doi.org/10.5061/dryad.v815n58

2) Please clarify that the assumptions used in the model determine its results (see comments reviewer 1).

We agree completely and have deleted the conceptual model from the manuscript and completely changed our description of the neural model (see response to reviewer 1, comment #2, below, for complete details).

3) Please address the role of attention in your discussion of the results (see comments from reviewer 2).

We now incorporate a discussion of attention (see response to reviewer 2, comment #1, below, for complete details).

4) In the Discussion, please address potential limitations associated with the use of a limited set of stimuli and the use of exclusively clear speech in the study.

We have performed new experiments with a larger stimulus set (see reviewer 2, comment #1) and have added material about the use of clear speech (see reviewer 2, comment #2 for complete text).

Also, please comment on early vs. later multisensory effects and cite the Peelle and Sommers, 2015 paper.

We now comment on early vs. later multisensory effects and cite the Peelle and Sommers, 2015 paper (see reviewer 2, comment #3 for complete text).

Reviewer #1:

[…] 1) The core claim of the paper is that visual information contributes to multisensory prediction, and that this occurs in pSTG. The authors note in the Discussion that they did not do any classification of the speech sounds, but it seems that is the analysis that would be required to really demonstrate that the multisensory integration is actually happening in pSTG (the neural model that is presented does not speak to classification, but just to changes in signal amplitude). For instance, if the visual information in mouth leading words allows for exclusion of 80% of phonemes, then this should be reflected in classification accuracy correct? E.g., comparing classification of phonemes for audio only (ground truth) to the window of time for mouth leading words prior to onset of auditory information.

To be clear – I think that the paper makes an important contribution already – it’s just that the evidentiary status of the claim that multisensory integration is occurring in pSTG would suggest a more direct test, or at least some discussion about the specific predictions made for a classification analysis by the theory. (I do think if the classification data could be included it would be better, but I don't see this as a condition sin qua non for publication).

We agree with reviewer 1 that classification analysis would be an important test for the neural model presented in the paper. Our existing data does not allow for a classification analysis, so we now present what reviewer 1 suggests as a reasonable alternative, namely "discussion about the specific predictions made for a classification analysis by the theory". From the Discussion:

“While the neural model provides an explanation for how enhancement and suppression could lead to improved perception of noisy speech, we did not directly test this explanation: only clear speech was presented in the neural recording experiments, and since the clear speech was understood nearly perfectly, it was not possible to correlate neural responses with perception. […] With large recording electrodes, the degree of suppression measured across populations should correlate with pSTG SNR (greater suppression resulting in greater SNR) and perceptual accuracy.”

2) The outcome of the neural model seems to be entirely driven by the assumptions used in constructing the model-this should just be clarified that it is a demonstration of principle of the assumptions (to distinguish this from a model where first principles that do not explicitly make assumptions about increases or decreases in signal as a function of modality 'gives rise' to the observed phenomena).

We agree completely. We have deleted the "conceptual model" entirely from the manuscript, removed the reference to the neural model from the title of the manuscript and made clear in the Discussionthat the neural model is a post-hoc explanatory model (rather than one derived from first-principles). That said, the neural model makes a number of interesting predictions that are sure to spur further experiments so we feel it is a valuable part of the manuscript.

Reviewer #2:

[…] 1) My main concern with the work would be that the experiment involved the use of only a very limited set of stimuli – two mouth-leading and two voice-leading words. Ultimately the results are compelling, but I wonder about how confident we can be that these results would generalize to a broader set of stimuli, including natural speech. For example, I wondered about what effects repeating these stimuli might have on how the subjects are paying attention or otherwise engaging with the stimuli. I mean I can imagine that as soon as the subject sees the mouth leading stimulus, they know what audio word is going to come next and then they pay a bit less attention resulting in smaller responses. They don't get as much forewarning for the voice leading stimuli, so they don't drop their attention. I would have thought that might be worth discussing and would also suggest that the authors are very clear about their stimuli in the main body of the manuscript.

We fully agree with this critique about our limited stimulus set. As suggested by the reviewer, in addition to describing the stimuli in Materials and methodswe now write in the main body of the manuscript (Results section):

"In the first perceptual experiment, 40 participants were presented with 16 word stimuli consisting of four stimulus exemplars (two mouth-leading words and two voice-leading words) in each of the four formats (clear auditory, noisy auditory, clear audiovisual, noisy audiovisual)."

"In contrast to the perceptual studies, where both clear and noisy speech was presented, in the neural experiments only clear speech was presented in order to maximize the size of the neural response. The stimulus exemplars consisted of the two mouth-leading words and the two voice-leading words used in the first perceptual experiment presented in auditory-only, visual-only, and audiovisual formats (twelve total stimuli)."

To help address this concern, we have performed a new experiment using additional stimuli:

"In the second perceptual experiment, 46 participants were presented with 40 word stimuli different than those used in the first perceptual experiment, consisting of 10 stimulus exemplars (five mouth-leading words and five mouth-leading words) presented in each of the four formats."

The results of this new experiment reproduce and extend our findings to a much larger stimulus set:

"For these mouth-leading words, viewing the face of the talker increased the intelligibility of noisy auditory speech by 53%…For voice-leading words, viewing the face of the talker provided only a 37% accuracy increase…The interaction between format and word type was significant (s < 10 -16 ) driven by the larger benefit of visual speech for mouth-leading words."

The fact that our findings replicate in a different and larger sample is an important confirmation. However, it is true that we cannot rule out alternative explanation. We now include a new section in the Discussion:

“The Role of Temporal Attention

The simple neural model assumes that the visual speech head start provides an opportunity to rule in compatible auditory phonemes and rule out incompatible auditory phonemes in advance of the availability of auditory information from the voice. […] In the neural recording experiments, there were only four stimulus exemplars, so participants could have learned the relative timing of the auditory and visual speech for each individual stimulus, resulting in neural response differences due to temporal attention.”

2) Another limitation – that the authors acknowledge – was the use of just clear speech in the electrophysiology experiments. I guess it might be worth mentioning that a bit more in the Discussion for two reasons: i) it might be worth highlighting that one might expect to see larger suppressive multisensory effects in (somewhat) noisy speech (in the section on model predictions for example), and ii) it casts a slight doubt on the idea that what we are seeing is genuinely multisensory – I mean the V is not very behaviorally very helpful for clear speech. That said, I do appreciate the result in Figure 4B provides evidence for a multisensory effect.

We agree that this is a very important point. We have added a new Figure 5E and provide additional material about this in the Discussion:

"The post hocneural model provides a qualitative explanation for the decreasedneural response to words with a visual head start. […] This process is illustrated schematically for noisy auditory "da" and noisy audiovisual "da" in Figure 5E."

In a different section of the Discussion:

"While the neural model provides an explanation for how enhancement and suppression could lead to improved perception of noisy speech, we did not directly test this explanation: only clear speech was presented in the neural recording experiments, and since the clear speech was understood nearly perfectly, it was not possible to correlate neural responses with perception. […] The model prediction is that the SNR in the pSTG should be greater for noisy audiovisual words than for noisy auditory-only words, and greater for mouth-leading words with a visual head start than voice-leading words without one."

3) I thought it might be worth mentioning the Peelle and Sommers, 2015 review and perhaps speculating about whether the results we are seeing here might reflect early vs. later multisensory effects – or whether you think that's a useful framework at all?

We cite the Peele and Somers review and now write in the Discussion:

“In an earlier study, we demonstrated that audiovisual speech selectively enhances activity in regions of early visual cortex representing the mouth of the talker (Ozker et al., 2018b). […] Since cortex in superior temporal gyrus and sulcus receives inputs from earlier stages of the auditory and visual processing hierarchies, it seems probable that information about visual mouth movements arrives in pSTG from more posterior regions of lateral temporal cortex (Bernstein et al., 2008 Zhu and Beauchamp, 2017), while information about auditory phonemic content arrives in pSTG from posterior belt areas of auditory cortex (Leaver and Rauschecker, 2016).”


3 Resultater

The largest reduction in pain ratings from the control condition could be observed after the 10-Hz entrainment session in both the auditory and visual groups, followed by the 8 Hz then the 12-Hz condition. There were no significant changes or correlations observed in the questionnaire scores.

3.1 Pain ratings – auditory entrainment group

Taking into account baseline pain ratings as a covariate and the stimulation frequency, order of entrainment, and visit order as factors, the mixed linear model calculated that pain ratings succeeding the 8-, 10- and 12-Hz entrainment conditions were all significantly different from all three control conditions (t(31) = 4.90, s & lt 0,001 t(31) = 5.61, s & lt 0,001 t(31) = 4.85, s < 0.001, respectively). Adjusted mean pain ratings following entrainment were, respectively, 0.51(SE 0.10), 0.58 (SE 0.10) and 0.5 (SE 0.10) points lower than the control on the numeric ratings scale (Fig. 2). No significant difference was detected between the three auditory entrainment conditions when refitting the model with a Bonferroni correction (Table 1).

(EN)
Average absolute pain ratings – auditory condition
Condition Grunnlinje Kontroll 8 Hz 10 Hz 12 Hz
Absolute values 6.74 6.62 6.08 6.05 6.08
(B)
Adjusted pain ratings – auditory condition versus control
Condition Adjusted differences Standard error t Effect size Significance (two-tailed)
8 Hz 0.51 0.10 4.90 0.76 p < 0.001
10 Hz 0.58 0.10 5.61 0.80 p < 0.001
12 Hz 0.51 0.10 4.85 0.77 p < 0.001

3.2 Pain ratings – visual entrainment group

The mixed linear model established that, accounting for covariates and factors, the pain ratings in the entrainment conditions (8, 10 and 12 Hz) were all significantly different from control (t(31) = 2.28, s < 0.01 t(31) = 5.32, s & lt 0,001 t(31) = 2.59, s < 0.01, respectively). The model-corrected pain ratings of the 8-, 10- and 12-Hz conditions were on average 0.6, 1.1 and 0.3 points lower on the pain rating scale than the control, respectively. Additionally, when refitting the model, pain ratings were significantly different in the 10-Hz condition compared to the 8-Hz (t(31) = 2.22 s < 0.01) and 12-Hz (t(31) = 4.04, s < 0.001) condition. The 8- and the 12-Hz conditions did not differ from each other (s = 0.287) (Fig. 3 Table 2).

(EN)
Average absolute pain ratings – visual condition
Condition Grunnlinje Kontroll 8 Hz 10 Hz 12 Hz
Absolute values 6.68 6.52 5.94 5.52 6.17
(B)
Adjusted pain ratings – visual condition versus control
Condition Adjusted differences Standard error t Effect size Significance (two-tailed)
8 Hz 0.60 0.20 2.28 0.59 s < 0.01
10 Hz 1.12 0.18 5.32 1.01 s & lt 0,001
12 Hz 0.35 0.09 2.59 0.70 s < 0.01

3.3 Questionnaire results

A mixed linear model was applied to the KSS, POMS and STAI-State scores of the 8, 10, and 12-Hz condition comparing them to the control scores. The model revealed no significant score changes compared to the control condition in both the visual and auditory groups. The pre-experimental questionnaires showed no significant correlation to the change in pain ratings from baseline across all three conditions, in both groups.


Studie 2

In this study, we attempted to reduce the variability in SOAs between auditory and visual stimuli across browsers and systems, by using a different approach. In Study 1, the code we wrote merely requested that the auditory and visual stimuli to be presented concurrently, without monitoring when the stimuli were actually presented. As we discussed above, previous research suggested that there can be a nontrivial lag between executing a command to present an audio stimulus and the stimulus’s onset, so the overall finding of a substantial lag between visual and auditory onsets was perhaps not surprising.

In Study 2, we used JavaScript or Flash start a sound playing, and then used an event listener, a procedure that runs when triggered by an event such as a mouse click or a screen refresh, to check whether the sound is actually reported as playing. As soon as it was detected as playing, the visual stimulus was presented. This gives less control over the precise point at which a stimulus starts playing, but it may reduce cross-modal asynchrony. The design is given in the following pseudocode:

Begin a new trial with a black screen

Play a sine wave mp3 lasting 1,000 ms

Monitor whether a sound is playing

If a sound is playing, make white square visible

Monitor whether a sound is complete

If the sound is complete, make white square invisible

In JavaScript, the command to make the square visible was bound to the “play” event for the sine wave. In Flash, an on-interframe Event Listener monitored the position of the playhead in a sound channel. When the playhead’s position was greater than 0—that is, when the sound was playing—the square was made visible.

Resultater

The results can be seen in Table 2, and the cumulative distribution of SOAs can be seen in Fig. 2.

Cumulative frequency distribution of SOAs in Study 2 across three browsers, two implementations and two computer systems. The left panel shows JavaScript performance, and the right panel shows Flash performance. Solid lines show performance on the desktop PC, and the dotted lines show performance on the laptop

Auditory duration

As before, the consistency of the auditory presentation durations was very good. The results are very similar to those found in Study 1.

Visual duration

The binding of the visual stimulus onset and offset to the audio onset and offset led to substantial variability in visual durations. These included presentation durations that were slightly below the desired 1,000 ms with Flash and some very large excessive durations under JavaScript.

SOA between auditory and visual onset

The SOAs here were no better than those in Study 1, and variability across system–browser combinations was higher.

Diskusjon

In this study, we used event listeners to bind the onset of the visual stimulus to the presentation of the auditory stimulus. The aim was to circumvent the well-known issue of unmeasurable lags between command execution and the actual onset of an auditory stimulus. It did not work.

This failure is perhaps not surprising: A substantial amount of sound processing is devolved to a computer’s sound card, and browser-based code has limited access to system-related information. As such, it appears that what we monitored was not the exact onset of the auditory stimulus, but either some proxy within the JavaScript or Flash environment, which may not have been related to the actual behavior of the soundcard, or, at least in some cases, a report from the soundcard that was subject to delay and variability in the timing of its presentation to the runtime environment of the JavaScript or Flash code.

It also seems clear, particularly in JavaScript, that the event triggered by sound completion occurred some time after the sound had finished, meaning that the visual stimulus stayed on the screen for substantially longer than it should. Overall, then, this approach appears to be no better, and may be worse, than that in Study 1.


The relationship between looking/listening and human emotions

(a) Pupillary responses during presentation of emotionally arousing pictures (b) Pupillary responses during presentation of emotionally arousing sounds Credit: Toyohashi University Of Technology.

Researchers at Toyohashi University of Technology report that the relationship between attentional states in response to pictures and sounds and the emotions elicited by them may be different in visual perception and auditory perception. This result suggests visual perception elicits emotions in all attentional states, whereas auditory perception elicits emotions only when attention is paid to sounds, thus showing the differences in the relationships between attentional states and emotions in response to visual and auditory stimuli.

This result was obtained by measuring pupillary reactions related to human emotions. It suggests that visual perception elicits emotions in all attentional states, whereas auditory perception elicits emotions only when attention is paid to sounds, thus showing the differences in the relationships between attentional states and emotions in response to visual and auditory stimuli.

In daily life, emotions are often elicited by the information we receive from visual and auditory perception. As such, many studies up until now have investigated human emotional processing using emotional stimuli such as pictures and sounds. However, it was not clear whether such emotional processing differed between visual and auditory perception.

The research team asked participants in the experiment to perform four tasks to alert them to various attentional states when they were presented with emotionally arousing pictures and sounds in order to investigate how emotional responses differed between visual and auditory perception. They also compared the pupillary responses obtained by eye movement measurements as a physiological indicator of emotional responses. As a result, visual perception (pictures) elicited emotions during the execution of all tasks, whereas auditory perception (sounds) did so only during the execution of tasks where attention was paid to the sounds. These results suggest that there are differences in the relationship between attentional states and emotional responses to visual and auditory stimuli.

"Traditionally, subjective questionnaires have been the most common method for assessing emotional states. However, in this study, we wanted to extract emotional states while some kind of task was being performed. We therefore focused on pupillary response, which is receiving a lot of attention as one of the biological signals that reflect cognitive states. Although many studies have reported about attentional states during emotional arousal owing to visual and auditory perception, there have been no previous studies comparing these states across senses, and this is the first attempt," says lead author Satoshi Nakakoga, Ph. D. student.

Professor Tetsuto Minami, the leader of the research team, said, "There are more opportunities to come into contact with various visual media via smartphones and other devices and to evoke emotions through that visual and auditory information. We will continue investigating about sensory perception that elicits emotions, including the effects of elicited emotions on human behavior."

Based on the results of this research, the team suggests the possibility of a new method of emotion regulation in which the emotional responses elicited by a certain sense are promoted or suppressed by stimuli input from another sense. Ultimately, they hope to establish this new method of emotion regulation to treat psychiatric disorders such as panic and mood disorders.


Avsluttende kommentarer

As should be clear from the above, we have learned a great deal about how auditory behavioral, neural, and perceptual processes can be influenced by vision, and more generally about the ubiquity and utility of multisensory interactions in shaping our actions and perceptions. The general theme of this work is that under naturalistic circumstances we are almost continually challenged with information coming from multiple senses, and that the brain makes use of both redundant and complementary information in order to generate adaptive behavioral benefits and to create a coherent perceptual reality. Given this, it is not terribly surprising that the brain combines and integrates information across the senses, and that this convergence and consequent integration takes place at a number of processing stages, including those once thought dedicated to unisensory (i.e., auditory alone) function.

Although much has been learned about visual influences on auditory processes, a number of unanswered questions and areas of future inquiry remain. Advances in neurophysiological methods have allowed the opportunity to record from large neuronal ensembles across multiple brain areas simultaneously in animal models, and will undoubtedly provide critical insights into sensory encoding and information transfer. Such approaches make feasible the ability to see the transformations of information that characterize moving up scales of analysis and computation (e.g., from individual neurons to local circuits). In addition, they enable these transforms to be captured as one moves from node to node within the processing hierarchy and as information moves from sensory representation to decision. Such a capacity will also allow greater insight into the dialogue between “bottom up” and “top down” processes that ultimately shape these computations. As alluded to previously, application of machine learning to carry out sophisticated pattern analyses on both neurophysiological and imaging datasets has already provided significant insight into the nature of neural representations, most notably when these representations are sparse and highly distributed. Continued efforts in this area should significantly add to our knowledge of how auditory representations are influenced by vision. In keeping with the computational theme, the continued development of biologically plausible models such as those that attempt to instantiate Bayesian causal inference processes will also shed great light on these questions. Finally, and as should be clear from the final sections, ongoing efforts need to better elucidate how audiovisual function is altered in clinical contexts, and how such alterations relate to core domains of dysfunction. For, with such knowledge in hand, we can begin to build and apply remediation approaches that are founded in improving sensory function (and multisensory integration), and that have the potential for having cascading effects into higher-order cognitive and executive function domains.


Gjennomgå artikkel

  • 1 Pain and Perception Lab, IIMPACT in Health, The University of South Australia, Adelaide, SA, Australia
  • 2 Neuroscience Research Australia, Randwick, NSW, Australia
  • 3 Crossmodal Research Laboratory, Department of Experimental Psychology, University of Oxford, Oxford, United Kingdom

The sounds that result from our movement and that mark the outcome of our actions typically convey useful information concerning the state of our body and its movement, as well as providing pertinent information about the stimuli with which we are interacting. Here we review the rapidly growing literature investigating the influence of non-veridical auditory cues (i.e., inaccurate in terms of their context, timing, and/or spectral distribution) on multisensory body and action perception, and on motor behavior. Inaccurate auditory cues provide a unique opportunity to study cross-modal processes: the ability to detect the impact of each sense when they provide a slightly different message is greater. Additionally, given that similar cross-modal processes likely occur regardless of the accuracy or inaccuracy of sensory input, studying incongruent interactions are likely to also help us predict interactions between congruent inputs. The available research convincingly demonstrates that perceptions of the body, of movement, and of surface contact features (e.g., roughness) are influenced by the addition of non-veridical auditory cues. Moreover, auditory cues impact both motor behavior and emotional valence, the latter showing that sounds that are highly incongruent with the performed movement induce feelings of unpleasantness (perhaps associated with lower processing fluency). Such findings are relevant to the design of auditory cues associated with product interaction, and the use of auditory cues in sport performance and therapeutic situations given the impact on motor behavior.


Perceptual load influences auditory space perception in the ventriloquist aftereffect

A period of exposure to trains of simultaneous but spatially offset auditory and visual stimuli can induce a temporary shift in the perception of sound location. This phenomenon, known as the 'ventriloquist aftereffect', reflects a realignment of auditory and visual spatial representations such that they approach perceptual alignment despite their physical spatial discordance. Such dynamic changes to sensory representations are likely to underlie the brain's ability to accommodate inter-sensory discordance produced by sensory errors (particularly in sound localization) and variability in sensory transduction. It is currently unknown, however, whether these plastic changes induced by adaptation to spatially disparate inputs occurs automatically or whether they are dependent on selectively attending to the visual or auditory stimuli. Here, we demonstrate that robust auditory spatial aftereffects can be induced even in the presence of a competing visual stimulus. Importantly, we found that when attention is directed to the competing stimuli, the pattern of aftereffects is altered. These results indicate that attention can modulate the ventriloquist aftereffect.


What is known about how visual stimuli / preconceptions influence auditory perception? - Psykologi

Terskler
According to Schmeidler, and the vast majority of psychologists studying subliminal phenomena, a threshold is the point at which a stimulus is perceived 50% of the time. For example, if my a ural threshold were to be tested, I would be played numerous sounds in varying volumes. To signal that I heard the tone-I perceived the stimulus-I would raise my hand or press a button, whatever the researches had instructed me to do when I heard a sound. By controlling and tracking the frequency of the emitted sound, the researchers are able to find the volume at which I hear a sound-perceive the stimulus-half of the time. This point is my auditory threshold. A working definition of threshold is paramount. It acts as the scientific base for research in this area a foundation on which all data are defined. For some, this is where the problems with subliminal research begin. xxxx (follow this link for discussion of these issues)

Visual Subliminal Perception

A series of nothings become something
When a person is flashed an image, the brain maintains a type of "footprint or "after image" of the stimulus. That is, despite the stimulus as been shown and then taken away, for a short time that image is still seen by the brain. At first flash the subject may remember the shape of the beginning of a word. The next flash (very close together) the brain creates a footprint of the middle of the word. Continuing in such a way, a subject can piece together these footprints - these 'series of nothings - and form/recognize the word as a whole. (Schmeidler 127)

How visual masking works
The masking of visual perception is generally the taking away of the "footprint" lingering on the subject's brain created by the target stimulus. A nonsense image (a series of letters that spell nothing, a line pattern, etc.) is flashed immediately after the target image. This leaves the footprint of the nonsense image lingering around as opposed to that of the target image. (Epley 7)


Aural Subliminal Perception

Don't steal!!
Many department stores utilize subliminal messages to discourage theft. They use audio messages masked in the "store's music" (many stores play music over their intercom system). Masked audio messages are generally compressed or accelerated to a degree that renders them unintelligible, even if supraliminal. The message is then masked by the playing of, in this case, music. This music is the primary channel - it is the easiest to perceive. The hidden message becomes the secondary channel. (Moore) This tactic may not be futile, "numerous findings indicate not only analysis of secondary channel content at the level of individual words, but short persistence of memory for that content" (Greenwald 5). Perceived or not, there is still the controversy over whether or not it will influence one's behavior.

Difficulties with research

Troubles with thresholds
To begin with, psychologists have essentially massaged the theory of thresholds so that subliminal perception could "exist in a form that can be studied". In the1800's, Herbart and Fechner used the term limen as a distinction between conscious and unconscious. Much of the research conducted during the 1950's and on is based on a distinctive breaking of "threshold" into two parts: sensory threshold and perceptual threshold: stimuli that are "sensed by the body, but not conscious" and stimuli that are "made conscious", respectively. It is the perceptual threshold that is utilized in the realm of subliminal perception research (Erdelyi 3). Thus, what the researchers are studying are stimuli that are above the sensory threshold, but below the perceptual threshold (the point at which a subject can perceive a stimulus 50% of the time). This begs debate for it is sidestepping the entire concept of a dichotomy between conscious and unconscious, the exact concept of subliminal.

Already known from other areas of research is the fact that we do receive information in our lower brain that never makes it to the cortex. The cortex is where things are "made conscious". This is where sensory perception comes in to play. It is estimated that for every 1,000,000 stimuli that pass by the sensory threshold, one stimulus passes through the perceptual threshold (Norr 161). This is how the intricacies of human behavior are explained. Humans simply do too much to be conscious of it all. As McConnell points out, "We are a walking mass of thresholds."

Each person has their own unique set of thresholds. To measure the threshold of each subject prior to conducting the experiments is both time consuming and redundant, but does account for such idiosyncrasies. However, not only do thresholds vary from person to person, but they also vary day by day within one individual. So what I can't hear today I may hear tomorrow and vice versa (McConnell, Moore). With no static threshold, or statistical foundation, research conducted on subliminal perception today becomes invalid tomorrow.

Erdelyi (3) brings up an intriguing point. He asserts that these problems with thresholds are not methodological hindrances, but rather they are conceptual flaws. This reminds the community that indeed this research is not truly "subliminal".

Merk følgende
Attention plays a role on the research of subliminal perception. It is capable of skewing results because the subject is instructed to listen for a sound or to look for a sight. When trying to ascertain if one can be influenced subliminally in day to day life, the person will not be actively looking or listening for the supposed stimuli/message. To counter this, study designs should keep the subject unaware of the target stimuli. (Cohen 55 Shiffrin)


Tilgangsalternativer

Få full journaltilgang i 1 år

Alle priser er NETTO -priser.
MVA blir lagt til senere i kassen.
Skatteberegningen vil bli fullført under kassen.

Få tidsbegrenset eller full artikkeltilgang på ReadCube.

Alle priser er NETTO -priser.