Vous êtes sur la page 1sur 8

ESTUDIOS DEL EFECTO MCGURK: IMPLICACIONES PARA LAS TEORAS DE LA PERCEPCIN DEL

DISCURSO

ABSTRACTO

Los estudios del efecto McGurk demuestran que los observadores integran la informacin auditiva
con informacin visual de la cara de un hablante durante la percepcin del habla. Los hallazgos de
estos estudios plantean desafos para las teoras de la percepcin del habla que deben explicar
cmo y por qu se integran la informacin auditiva y visual. Una cuestin terica concierne a los
objetos de la percepcin del habla. Algunos investigadores afirman que los objetos de la
percepcin del habla son gestos articulatorios mientras que otros sostienen que los objetos son de
naturaleza auditiva. El efecto de McGurk se toma a menudo como evidencia para los
acercamientos gestuales porque tales teoras proporcionan una cuenta buena por qu la
informacin auditiva y visual se integra durante la percepcin. Se revisarn los hallazgos de varios
estudios sobre el efecto McGurk, incluyendo los efectos de los contextos transversales, las
influencias del desarrollo y las medidas neuromagnticas de la activacin cerebral. La implicacin
de estos hallazgos ser discutida con respecto a si la mtrica para combinar la informacin
auditiva y visual se piensa mejor como de naturaleza auditiva o gestual.

1. INTRODUCCIN

Ahora hay abundante evidencia de que el procesamiento del habla es un proceso multimodal en
lugar de un proceso unimodal incluso para los oyentes auditivos normales presentados con un
discurso claro. Esto fue demostrado por primera vez por McGurk y MacDonald [1] que
encontraron que las slabas auditivas como / ba / dobladas en una cinta de vdeo de locutores
articulando diferentes slabas como / ga /, se perciban como algo diferente de las seales
auditivas o visuales: Los hallazgos de McGurk y MacDonald plantearon dos preguntas importantes
con respecto al procesamiento del habla auditivo-visual: (1) cundo son las dos seales
combinadas o integradas durante el procesamiento del habla, y (2) qu mtrica es Que se utiliza
para combinar las dos seales? Desde los hallazgos originales de McGurk y MacDonald, varios
estudios han intentado abordar una u otra de estas preguntas.Estos intentos se han complicado
por el hecho de que el "efecto McGurk" es complejo.Depbing un auditivo Slaba como / ga / sobre
una cara que articula / ba / no produce "tha" o "da", sino que los sujetos (Ss) informan que el
locutor estaba diciendo algo como "bga". Los hallazgos del efecto McGurk plantean un desafo a
las teoras de la percepcin del habla, que no solo deben abordar las dos preguntas anteriores,
sino tambin considerar por qu la informacin visual se combina con la informacin auditiva
cuando la seal auditiva por s misma proporciona suficiente informacin para una percepcin
exacta del habla Bajo la mayora de las condiciones.

Una cuestin abordada por las teoras de la percepcin del habla se refiere a los "objetos" de la
percepcin y si son de naturaleza articulatoria o auditiva [2, 3]. Con respecto a esta cuestin, el
efecto McGurk y otros hallazgos de la percepcin del habla auditivo-visual (AV) han jugado un
papel importante al demostrar que la percepcin del habla no es solamente un proceso auditivo,
incluso en condiciones de escucha normales. El efecto de McGurk se ve a menudo como evidencia
para las teoras gestuales porque tales teoras proporcionan una buena explicacin de porqu la
informacin auditiva y visual se integra durante la percepcin. Se integran porque ambas seales
proporcionan al observador informacin sobre los gestos articulatorios. Los gestos articulatorios
tambin se convierten en el comn denominador o mtrica con el que integrar la informacin de
las dos modalidades. La cuenta es diferente para las teoras auditivas. Se piensa que la informacin
visual influye en la percepcin del habla porque las asociaciones entre las caractersticas visuales y
las representaciones fonolgicas se han adquirido a travs de la experiencia de observar a los
hablantes que las bocas se mueven mientras los escuchan hablar. La mtrica exacta utilizada para
combinar la informacin no siempre se describe. Puede ser de naturaleza auditiva o puede ser
algo ms abstracto como valores de verdad difusa que representan la fuerza independiente de la
informacin disponible en cada modalidad para un segmento particular [4].

En este trabajo se describen evidencias de tres reas de investigacin que se relacionan con la
cuestin de la mtrica utilizada para integrar la informacin auditiva y visual. Las tres reas son:
(1) un estudio reciente sobre los efectos del contexto intermodal; (2) estudios de desarrollo del
efecto McGurk en nios y bebs; Y (3) estudios de imgenes neuromagnticas de activaciones
cerebrales durante la presentacin de tokens de tipo McGurk. Los datos se discuten con respecto
a si la percepcin del habla AV es mejor explicada por teoras auditivas o basadas en el gesto de la
percepcin.

2. EFECTOS CONTEXTOS TRANSVERSALES

Los efectos de contexto son situaciones en las que la percepcin fontica de la seal auditiva es
modificada por la naturaleza del contexto fontico circundante. Por lo general, el cambio en la
percepcin est de acuerdo con los efectos coarticuladores del contexto circundante sobre un
fonema objetivo durante la produccin. La congruencia entre produccin y percepcin ha llevado
a algunos investigadores a argumentar que los efectos del contexto reflejan el uso del
conocimiento tcito de la coarticulacin durante la percepcin fontica [6]. Otros sin embargo,
han argumentado que los efectos de contexto reflejan los principios auditivos que sirven para
mejorar la percepcin distintiva entre los diferentes sonidos del habla [3, 7].

Recientemente, hemos investigado si los efectos de contexto ocurren cuando el contexto se


presenta en la modalidad visual y la informacin segmentaria relevante se presenta en la
modalidad auditiva. Nuestro estudio ms reciente examin el impacto de una consonante de
parada bilabial en la produccin y percepcin de / l / y / r / en los grupos de parada como en / bri /
y / bli / [8]. Los datos de produccin se muestran en la Tabla 1. El contexto bilabial produjo una
reduccin significativa en la frecuencia de inicio del segundo formante (F2) para / l / y una
reduccin en la frecuencia de inicio del tercer formante (F3) para / r / Eso no era muy significativo.
Tambin hubo un aumento fiable de la pendiente de F2 para / l /. Los cambios en la produccin
plantearon la cuestin de si el sistema perceptivo era sensible a tales cambios durante la
percepcin del habla. Esta cuestin se abord mediante la sntesis de un auditorio / iri-ili /
continuum y un solo / ibi / token. El continuo se cre aumentando la tercera frecuencia de inicio
del formante (F3). Tres tipos diferentes de estmulos fueron construidos a partir de estos smbolos.
El primer tipo consisti en una presentacin ditica de los auriculares sobre auriculares. Para el
segundo tipo, se aadi una explosin de liberacin bilabial en la forma de onda, precediendo el
inicio de cada / r-1 / token. Estas fichas tambin se presentaron diticamente y se percibieron
como que ibri-ibli /. Para el tercer tipo, cada miembro del / iri-ili / continuum fue emparejado con
el auditivo / ibi /. El / iri-ili / token se present a un odo y el / ibi / al otro odo en una
presentacin dictica. Estos tokens tambin fueron percibidos como variando de / ibri-ibli /. Los
tokens fueron bloqueados por tipo y presentados a Ss que identificaron si la slaba contena / r / o
an / l /.

(onset frequent: inicio frecuente; onset frequency: frecuencia de aparicin; slope: cuesta abajo)

Tabla 1: Valores medios de frecuencia de formantes (Hz) asociados con el inicio inicial de / r / y / l /
en diferentes contextos, as como las tasas de transicin formantes (Hz / ms). A ** indica una
diferencia significativa, p <0,05.

Los lmites / r-l / para los tres tipos de tokens se presentan en la Tabla 2. Aumentar la frecuencia
de inicio de F3 cambi la identificacin de los tokens de / r / a / l / para todos los tokens. Ms
importante an, las fichas dicticas / ibri-ibli / tokens produjeron un cambio fiable en los lmites
hacia una menor frecuencia de inicio F3 en relacin con las seales diticas / iri-ili /. Este cambio
fue consistente con los datos de produccin que mostraron que / r / se produce con una menor
frecuencia de inicio de F3 cuando est precedida por una consonante de parada bilabial.
Finalmente, los smbolos / iri-ili / con la rfaga de liberacin de paro no produjeron un cambio
fiable en el lmite / r-l /, aunque se percibieron como variando de / ibri-ibli /. Un experimento de
seguimiento indic que los oyentes no discernieron ninguna diferencia en la "bondad" general de
la / b / en los dos tipos de / ibri-ibli / tokens. Aparentemente, slo tener la percepcin de una
consonante de parada en el token no es suficiente para causar un cambio en el lmite / r-l /.

Este experimento demuestra que en la percepcin de / r / y / l /, el sistema perceptivo compensa


un contexto bilabial precedente cuando se especifica en la seal auditiva. El propsito del segundo
experimento fue determinar si el sistema perceptual tambin compensara el contexto bilabial
cuando se especificara slo en la seal visual. Illusory stop par de racimos fueron creados por el
emparejamiento de un visual / ibi / con cada uno de los / iriili / tokens utilizados en el primer
experimento. En la posicin medial, la presencia ilusoria de la parada bilabial es muy fuerte,
especialmente cuando se empareja con tokens auditivos que forman un grupo de parada natural
en ingls. Si la informacin visual est simplemente sirviendo para producir una percepcin de la
parada bilabial, como ocurra en los / iriili / tokens con la rfaga de parada, entonces la
informacin visual no debera producir ningn cambio en / r-l / frontera. Sin embargo, si la seal
visual proporciona informacin sobre la coarticulacin que se tiene en cuenta durante la
percepcin, entonces debera producirse un cambio en el lmite / r-l /. Un nuevo grupo de Ss se
present con el AV / ibri-ibli / tokens en una condicin, y slo el / iri-ili / fichas en un AO separado
condicin. Como en el Experimento 1, los Ss identificaron si las fichas contenan / r / o an / l /.

(condition: condicin; perceived: percibido; boundary: limite; diotic: diotico)

Tabla 2: Media / r-l / lmites en la frecuencia de inicio F3 para las diferentes condiciones en el
Experimento 1 y 2.

Los lmites de / r-l / para estas dos condiciones tambin se presentan en la Tabla 2. El anlisis de
los lmites medios indic que hubo un cambio significativo (p <0,01) entre la AO y las condiciones
AV. Por otra parte, la magnitud y la direccin del desplazamiento es comparable a la que ocurri
entre el dictico / ibriibli / y diotic / iri-ili / tokens en el Experimento 1. Un seguimiento, slo
visualmente experimento descart la posibilidad de que el cambio en El lmite AV fue el resultado
de la visual bilabial que pareca una articulacin / l / y producir algn tipo de sesgo de respuesta
visual.

Una pregunta que surge es: qu tipo de informacin articulatoria puede ser proporcionada por la
seal visual que podra influir en la percepcin de los signos / r-l /? No puede ser simplemente el
caso de que la percepcin de / b / caus el cambio en el lmite / r-l /. Como se muestra en el
Experimento 1, hubo situaciones en las que se percibi / b /, pero no ocurri el cambio en el
lmite. Una posibilidad alternativa es que la seal visual proporcion informacin que tambin fue
consistente con las influencias coarticuladoras de la parada bilabial en la realizacin acstica de / r
/ y / l /. Por ejemplo, la seal visual podra haber proporcionado informacin sobre la velocidad de
cambio en la apertura de la cavidad oral. La apertura ms rpida indicada por el bilabial visual
podra haberse tomado como evidencia coarticulatoria de la presencia de un / l / token. Como se
muestra en nuestros datos de produccin, hubo un aumento significativo en la pendiente de F2
para / l / en el entorno de racimo y F2 se ve afectado por los cambios en el tamao y la forma de la
cavidad oral. Puede ser que el conocimiento de la influencia coarticulatoria del bilabial en la
frecuencia de inicio de F3 para / r / y la evidencia de una cavidad oral de apertura ms rpida sean
ambos necesarios para producir un cambio fiable en el lmite / r-l /.

Los resultados del experimento 2 son problemticos para una cuenta auditiva de la percepcin del
habla intermodal por varias razones. En primer lugar, no hubo posibilidad de una interaccin
auditiva directa entre la informacin para el bilabial y la informacin para el / r-l / que podra
explicar el cambio en el lmite / r-l /. En segundo lugar, no es obvio cmo la informacin visual
podra establecer un contexto que influira en la percepcin de la frecuencia de inicio de F3 en la
seal auditiva. En tercer lugar, los resultados del experimento 1 descartan una interaccin entre
las dos modalidades a nivel fonolgico. Si los efectos de contexto se deban a interacciones a este
nivel, se producira un cambio en el lmite / r-l / en cualquier momento que hubiera suficiente
informacin para activar a / b / percept, independientemente de la modalidad. Como se muestra
en el Experimento 1, este no fue el caso. Hay, sin embargo, dos cuentas posibles que son
consistentes con una teora auditiva. En primer lugar, la informacin visual sobre la tasa de cambio
en la cavidad oral podra convertirse en una mtrica auditiva y luego combinada con la
informacin de la seal auditiva. Alternativamente, el sistema perceptivo puede haber aprendido
una asociacin entre un cambio en la cavidad oral visual en el tiempo y F2. Sin embargo, esta
asociacin se encuentra en un nivel de anlisis anterior al que suelen asumir las teoras auditivas
para explicar las interacciones auditivas-visuales. El reto es explicar cmo se pueden construir
tales asociaciones, ya que no tenemos una conciencia aislada de F2 independiente del percepto
fontico.

Para las teoras gestuales, la cuenta es ms directa. Tanto las seales auditivas como visuales
proporcionan informacin sobre los gestos involucrados en la articulacin de los grupos de parada.
La seal visual proporciona informacin sobre la presencia de un bilabial. Tambin proporciona
informacin sobre la tasa de cambio en la apertura de la cavidad oral que interacta con la
derivada de la pendiente de F2 proporcionada por la informacin auditiva. Esto hara que parezca
ms rpido que cuando se especifica por slo la seal auditiva. Ambas informaciones sirven
conjuntamente para influir en la decisin.

3. DESARROLLO

La cuenta auditiva de los efectos del habla AV depende de la aparicin del aprendizaje perceptivo
para crear asociaciones entre la informacin visual y las representaciones fonolgicas. Si tal
aprendizaje ocurre, entonces las diferencias de desarrollo en el grado en que la informacin visual
influye en la percepcin del habla deberan surgir. Por ejemplo, los bebs jvenes pueden tener
poco o ningn efecto de McGurk porque todava estn en el proceso de formar sus prototipos
fonolgicos y han tenido poca oportunidad de correlacionar los gestos visuales con los sonidos
auditivos del habla. Sin embargo, a medida que los nios crecen, la informacin visual debera
tener un impacto ms fuerte.

Hay evidencia de que la edad influye en la magnitud del efecto McGurk en los nios. Los nios
pequeos suelen tener efectos ms pequeos McGurk que los nios mayores o adultos [1, 9, 10].
Estos datos parecen apoyar la nocin de que la experiencia puede estar mejorando las
asociaciones entre las representaciones visuales y fonolgicas. Sin embargo, hay varias razones
para cuestionar esta conclusin. En primer lugar, los estudios recientes han demostrado que 4-5
meses de edad los bebs obtener McGurk tipo percepts [11, 12]. Por lo tanto, la capacidad de
integrar la informacin auditiva y visual del habla ocurre a una edad muy temprana. En segundo
lugar, hay varios factores que pueden influir en si los nios pequeos tienen fuertes o dbiles
efectos McGurk. Nuestra investigacin ha demostrado que el uso de un hablador diferente con la
misma cara puede tener un impacto significativo [9]. Con un hablador, hubo una diferencia del
55% en el efecto McGurk entre nios pequeos y jvenes. Sin embargo, esta diferencia se redujo a
slo el 19% para un segundo hablador. Esto se debi a un gran aumento en el efecto McGurk en
los nios ms pequeos para la segunda voz (casi 51%) y slo un aumento moderado para los
nios mayores (16%). La edad y la experiencia pueden tener menos que ver con la cantidad de
influencia que la seal visual tiene en la percepcin del habla, luego las caractersticas de la seal
auditiva. La experiencia podra alterar la forma en que los nios asisten a varias dimensiones de la
seal auditiva. Los nios pequeos pueden ponderar las dimensiones auditivas de manera
diferente que los nios mayores [13], y esta ponderacin alternativa podra resultar en una menor
interaccin con la informacin visual.

Por ltimo, hay poca evidencia de que la experiencia mejore la forma en que la informacin visual
est asociada con las representaciones fonolgicas. Un lugar en el que se podra esperar que la
experiencia desempee un papel importante en el mapeo entre la informacin visual y las
representaciones fonolgicas es la habilidad de hablar. Sin embargo, los estudios existentes
revelan una cantidad considerable de variabilidad en la capacidad de lectura del habla para las
personas con audicin normal o con deficiencias auditivas graves, y la variacin suele mostrar poca
correlacin con la experiencia. Incluso el entrenamiento especfico sobre la lectura del habla suele
producir poco beneficio al asignar los gestos visuales a las representaciones fonolgicas. Los
beneficios que se producen a menudo son especficos de un hablante particular o entorno
fontico, o implican la mejora de las estrategias de comunicacin lingstica o general.

En general, parece haber poca evidencia de que los nios estn aprendiendo a asociar las
articulaciones visuales con las representaciones fonolgicas. Los nios pequeos e incluso los
nios son capaces de integrar la informacin auditiva y visual. Los efectos de la edad que se
producen pueden ser el resultado de otros factores, como la forma en que los nios ponderan las
dimensiones auditivas subyacentes de la seal de habla. Esto representara un obstculo para las
teoras auditivas que dependen del aprendizaje perceptivo para explicar por qu la informacin
visual influye en la percepcin del habla. Los datos son ms consistentes con las teoras gestuales,
si se supone que los nios cambian la ponderacin perceptual de varias dimensiones gestuales a
medida que envejecen.

4. ACTIVACIN DEL CEREBRO DURANTE LAS PRESENTACIONES AV

ltimamente, los investigadores han estado investigando la percepcin del habla desde una
perspectiva neurofisiolgica [14]. La respuesta de la negatividad del desemparejamiento (MMN)
se ha utilizado para examinar la discriminacin auditiva y del discurso en nios y adultos y se
piensa para reflejar el proceso de diferencias acsticas en estmulos auditivos. Por lo tanto,
representa una medida electrofisiolgica de la discriminabilidad a nivel de la corteza auditiva. El
MMN se obtiene presentando Ss con numerosos ejemplos de dos tokens acsticamente
diferentes, uno que ocurre con menos frecuencia que el otro. La grabacin y el promediado de la
actividad elctrica del cerebro se hace para cada uno de los dos estmulos y la diferencia entre las
dos formas de onda es una medida de la respuesta de MMN.
En un estudio reciente, Sams y sus colegas [15] obtuvieron respuestas MMN a tokens AV que
consistan en el mismo token auditivo (/ pa /) emparejado con diferentes articulaciones visuales (/
pa / or / ka /). Las grabaciones neuromagnticas indicaron que el token "McGurk" produjo una
respuesta MMN aunque la porcin auditiva era idntica para ambos tokens AV. Por otra parte, las
mismas articulaciones visuales presentadas sin el estmulo auditivo no provocaron una respuesta
de MMN, aunque las articulaciones eran claramente distinguibles.

Hay dos razones por las que los datos de Sams [15] son de inters. En primer lugar, la respuesta
MMN es muy sensible a las diferencias en las dimensiones auditivas de los diferentes estmulos,
pero relativamente insensible a las cualidades visuales o tctiles. As, dos tonos de diferente
frecuencia o volumen producirn un MMN pero dos luces de diferentes colores no lo harn. Por
otra parte, el MMN se produce incluso para dos sonidos de voz diferentes que son miembros de la
misma categora, lo que indica que es una respuesta a la auditiva en lugar de las diferencias de
categora. Lo que es interesante es que un MMN se produce para el mismo sonido de voz
emparejado con diferentes articulaciones visuales, que por s mismos no producen un MMN. La
segunda razn por la que los datos son de inters es la localizacin de la respuesta MMN a los
tokens AV. Sams utiliz una tcnica que era bastante precisa para localizar la fuente de activacin
cortical del MMN. Para estos estmulos, el MMN se encontr en el hemisferio izquierdo y
dependiendo del S, tambin en el hemisferio derecho (aunque generalmente ms pequeo).
Adems, la respuesta se produjo en el lbulo temporal justo posterior a la corteza auditiva
primaria. Esta localizacin es consistente con el impacto perceptivo del efecto McGurk: el de "or"
un sonido de voz distinto del presentado realmente en la seal auditiva.

Cmo se pueden explicar estos datos en una teora gestual o auditiva? Estos datos podran
reflejar la activacin de un modo comn de representacin en la corteza auditiva que es de
naturaleza gestual. Se produce un MMN para los tokens AV porque la informacin gestual
combinada para los estmulos frecuentes y raros es diferente. Hay dos problemas con esta cuenta.
En primer lugar, el MMN se produce en la corteza auditiva y es claramente sensible a las
diferencias auditivas entre los diferentes sonidos. No est claro por qu sera tambin sensible a
las diferencias en las cualidades gestuales de los sonidos del habla. En segundo lugar, y ms
problemtico, es el hecho de que no se produce MMN para las mismas articulaciones visuales
presentadas sin el sonido, incluso cuando los dos gestos son bastante distinguibles (y al menos
uno, / p /, fcilmente identificable). Si el MMN refleja la diferencia en el procesamiento de los
gestos articulatorios a nivel de la corteza auditiva, entonces no debera importar qu modalidad
proporcione la informacin sobre los gestos.

Una interpretacin alternativa es que el MMN ocurre porque la informacin visual est siendo
mapeada en dimensiones auditivas ms que gestuales. Esta interpretacin es coherente con las
teoras auditivas, pero es necesario abordar ciertos temas. Por ejemplo, los estudios del MMN
indican que refleja diferencias precategoricas entre los estmulos del habla. El hecho de que ocurra
para tokens AV sugiere que la informacin visual se mapea en las dimensiones auditivas antes de
la categorizacin fontica. Esto es problemtico para las teoras auditivas que asumen que los
gestos visuales estn asociados con las representaciones fonolgicas existentes por la experiencia.
Alternativamente, puede ser el caso de que los MMN se producen en varios niveles diferentes en
el sistema auditivo como resultado de las diferencias perceptivas, as como las diferencias
auditivas. Simplemente obtener un MMN para fichas McGurk no especificara qu nivel de
procesamiento era responsable. Se necesitarn estudios adicionales utilizando estmulos AV y AO
para destacar estas posibilidades. Con los avances que se estn haciendo en las tcnicas de
imagen y la capacidad de almacenar seales auditivas y de vdeo en lnea, tales estudios deberan
estar disponibles prximamente.

5. CONCLUSIONES

Las teoras de la percepcin del habla deben ser capaces de explicar el efecto de McGurk y las
condiciones bajo las cuales ocurre. Este artculo ha descrito tres tipos diferentes de datos que
deben ser abordados por las teoras auditivas y gestuales de la percepcin del habla. Ningn tipo
de teora hace un trabajo completamente satisfactorio con los tres tipos de datos. Sin embargo,
examinando estos datos con respecto a estas teoras y otros, se obtendr una comprensin ms
completa de cmo y por qu la informacin auditiva y visual se integran durante el procesamiento
del lenguaje hablado.

Vous aimerez peut-être aussi