Vous êtes sur la page 1sur 51

Buscando la fundamental ausente

en la periferia auditiva

Pablo Ernesto Riera

Tesis de Licenciatura en Ciencias Fsicas


Facultad de Ciencias Exactas y Naturales
Universidad de Buenos Aires
Mayo 2010
TEMA: Procesos estocásticos - Estadı́stica de disparos - Altura musical

ALUMNO: Pablo Ernesto Riera

LU N: 922/03

LUGAR DE TRABAJO: Laboratorio de Acústica y Percepción Sonora, UNQ

DIRECTOR DEL TRABAJO: Dr. Manuel Camilo Eguı́a

FECHA DE INICIACIN: Julio de 2008

FECHA DE FINALIZACIN: Diciembre de 2009

FECHA DE EXAMEN:

INFORME FINAL APROBADO POR:

Autor Jurado

Director Jurado

Profesor de tesis de Licenciatura Jurado


A Fernando Riera y YHVH.
ÍNDICE i

Índice
1. Abstract 1

2. Resumen 3

3. Introducción 5

4. Modelos 7
4.1. Modelos para la fundamental ausente . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.1. Procesamiento de señales en la periferia auditiva para la altura . . . . 9
4.2. Modelo de la cóclea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3. Modelos tipo detectores con umbral ruidoso . . . . . . . . . . . . . . . . . . . 14

5. Experimentos 19
5.1. Para señales sinusoidales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2. Para señales con varias frecuencias . . . . . . . . . . . . . . . . . . . . . . . . 24
5.3. Con la cóclea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6. Conclusiones 35

A. Aproximación teórica para un sistema umbral 37

B. Código generador de una vocal sintética 39


Abstract 1

1. Abstract
Musical pitch is one of the many characteristics of sound. It is musical because this is
the characteristic which allows the drawing of melodies. In spite of being a perpetual and
subjetive attribute of sound, we can find correlation between neuronal activity and musical
pitch, even in the early stages of the auditory system. Now we know that for a sound to
provoke a musical pitch, it must have a periodic wave form. Lots of mechanisms to extract
periodicity have been proposed, from mathematical functions such as autocorrelation, to non
linear dynamic systems, and mechanisms such as stochastic resonance which takes advantage
of the noise of neural systems.
After passing the ear drum and the ossicles, the sound reaches the cochlea, the first organ
involved in the computation of pitch. Inside there the sound is distributed in the basilar
membrane which is an organ with spatial extension that allows the sound to propagate on its
surface. Due to its unhomogeneous mechanical properties, the basilar membrane decomposes
the sound in frequencies and allows us to work with different channels to transmit the
information. This information is transmitted by the auditory nerve in the form of neural
electric impulses which, in a certain way, encode the analog displacements in discrete or
digital impulses. A rapid inspection of these impulses shows us the musical pitch of a sound.
Broadly speaking, the time impulses between two impulses encodes the period of repetition
of the sound and consequently the note that was heard.
In this work, we study a model half biophysic half signal processing for the computation
of musical pitch. The sound gets through a stimulation of the cochea and is transformed
in neural impulses by means of a detector system with a noisy threshold. The results show
that for harmonic sounds, this model is able to generate periodic neuronal impulses at the
frequency of the presented musical pitch
Resumen 3

2. Resumen
La altura musical es una de las tantas caracterı́sticas perceptuales del sonido. Es musical
porque es la caracterı́stica que permite el trazado de melodı́as. A pesar de ser un atributo
perceptual y subjetivo del sonido, ya en las primeras instancias del sistema auditivo se ven
correlatos entre la actividad neuronal y la altura musical. Hoy sabemos que para que un
sonido evoque una altura, es necesario que presente cierta periodicidad en su forma de onda
temporal. Para extraer esta periodicidad, se han propuesto todo tipo de mecanismos, desde
funciones matemáticas como la autocorrelación, sistemas dinámicos no lineales y mecanismos
como la resonancia estocástica que aprovechan el ruido neuronal.
Luego de pasar por el tı́mpano y la cadena de huesecillos, el sonido llega a la cóclea, el
primer órgano involucrado en el cómputo de la altura. Ahı́ dentro el sonido es distribuido
en la membrana basilar, la cual es un órgano con extensión espacial, y permite que el
sonido se propague por su superficie. Debido a sus propiedades mecánicas inhomogéneas, la
membrana descompone en frecuencias al sonido y permite trabajar con distintos canales para
transmitir la información. Esta información es transmitida en forma de impulsos neuronales
por el nervio auditivo, que en cierta medida codifica los movimientos analógicos en disparos
discretos o digitales. Una directa inspección de estos disparos puede revelarnos la altura
musical de un sonido. A grandes rasgos, el intervalo temporal entre los disparos neuronales
codifica el perı́odo de repetición del sonido, y por lo tanto la nota escuchada.
En este trabajo se estudia un modelo mitad biofı́sico-mitad ingenieril para el cómputo
de la altura. El sonido pasa por una simulación de la cóclea, y es transformado en disparos
neuronales mediante un sistema detector con umbral ruidoso. Los resultados indican que
para sonidos armónicos, este modelo es capaz de generar disparos neuronales periódicos a
la frecuencia de la nota presentada.
Introducción 5

3. Introducción

Se ha llamado con el nombre de fundamental ausente al fenómeno auditivo en el cual


dado un sonido se percibe una altura musical con cierta frecuencia sin existir en la onda
sonora, energı́a espectral en esa región de frecuencia. El origen de este término esta ligado
a las primeras nociones sobre el procesamiento auditivo en las cuales se creı́a que el factor
principal del análisis de la altura involucraba una descomposición del tipo de Fourier. Es
por esto que se habla de la fundamental, es decir se habla en términos de frecuencias. En
un enfoque más moderno, se cree que la altura que se escucha está dada por la tasa de
repetición de una señal periódica, o sea la inversa del perı́odo. Este enfoque deja de lado el
concepto de fundamental ausente, ya que la altura del sonido no tiene porque tener relación
con las frecuencias que lo componen sino más bien sobre la periodicidad de la onda de
presión acústica. Es decir se da prioridad al comportamiento temporal. De todas formas
en la mayorı́a de los casos, existe una clara relación matemática entre las frecuencias y
el perı́odo. Debemos mencionar que también existe otra sensación de altura distinta a la
estamos describiendo, llamada altura espectral [36]. En este trabajo sólo se hará referencia
a la altura musical.
En este trabajo de seminario se estudia un modelo biofı́sico para el procesamiento de la
altura musical. El modelo para la altura está basado en el análisis temporal de disparos de la
fibra auditiva, en el espı́ritu de los modelos que se vienen dando en el área en los últimos 20
años [21] [22] [3]. El modelo consiste en una simulación de la membrana basilar y la cóclea
más un modelo de fibra auditiva rudimentario. Existen numerosos modelos de este tipo según
las aproximaciones que se toman. En este trabajo la simulación de la cóclea se realiza a partir
de un modelo biofı́sico que incorpora la actividad pasiva y activa de las células e involucra
una ecuación de movimiento integro-diferencial1 . Esta es una diferencia con los modelos
consultados en la bibliografı́a, donde la cóclea es simulada como un banco de filtros. El
siguiente proceso en el modelo, es la transducción de las oscilaciones de la membrana basilar
a disparos neuronales. En esta instancia se propone un modelo de neurona sencillo de sólo
dos parámetros que consiste en un modelo de umbral ruidoso no dinámico. El objetivo de
esta propuesta es observar si un modelo rudimentario de neurona de este tipo es capaz de
codificar la información de la altura satisfactoriamente. Ası́ mismo, se ha encontrado en la
bibliografı́a muchos llamados de atención sobre la capacidad de estos simples modelos de
umbral de reproducir los comportamientos neuronales [27] [19] [34] [17]. Dentro de estos
comportamientos, encontramos, el phase locking, la estadı́stica de disparos, y fenómenos
relacionados con la resonancia estocástica y el dithering.
El mecanismo para la codificación de la altura que utilizaremos, fue propuesto en un
modelo para la fundamental ausente basado en una sola neurona [6]. En el se propone que
un sistema de umbral es capaz de extraer los tiempos de los máximos locales de una señal.
Para esto, el modelo hace uso del fenómeno de resonancia estocástica fantasma añadiendo
ruido a la onda sonora. Gracias al ruido el sistema extrae los tiempos de los máximos

1
Este modelo de cóclea fue implementado en el trabajo de seminario de Guadalupe Garcı́a [15] [29] y el
código no es original de este trabajo
6 Introducción

de la señal sin necesidad de ajustar exactamente el umbral de disparo. La distancia entre


máximos suele estar asociada al perı́odo de la altura que se escucha. Esta idea equivale, en
psicoacústica, al modelo temporal para la altura de de Boer y Schouten [1] [32]. El trabajo
mencionado propone una posible implementación biológica de este modelo psicoacústico
mediante la resonancia estocástica fantasma.
Como ya se mencionó, aplicaremos este modelo en la periferia auditiva. A grandes rasgos,
al llegar las ondas de sonido al sistema auditivo periférico, estas se convierten en secuencias
de disparos neuronales que ocurren preferentemente en los máximo de la señal. De esta man-
era la distancia entre máximos de la onda, queda codificada como distancia entre disparos
neuronales ya en la primera instancia neuronal del sistema auditivo.
La sensación de altura como fenómeno psicoacústico subjetivo a sido estudiada muchı́simo.
Sin embargo no se cuenta todavı́a con una descripción completa del fenómeno. Existen mu-
chos sonidos que provocan una sensación de altura pero su explicación escapa a ser englobada
por modelos sencillos [31] [16] [38] [10]. De todas formas hay gran consenso en que toda la
información que utiliza el sistema nervioso para la percepción de la altura está codificada en
los disparos neuronales de la fibra auditiva aunque no está del todo claro que tipo de cod-
ificación se utiliza. Probablemente se aproveche la información de varias maneras. Nuestro
modelo está en un primer estadio y no pretende abarcar todos los fenómenos de altura. Nos
focalizaremos en lo más básico (fundamental ausente de tonos armónicos) y la codificación
de la altura será la más directa posible.
La estructura del trabajo es la siguiente. En la sección dos, se revisan los modelos que se
utilizan. Primero los modelos de altura y el procesamiento de señales en el sistema auditivo,
luego el modelo coclear y finalmente los modelos de neurona tipo umbral. En la sección cuatro
realizamos en forma progresiva la implementación del modelo. Desde una sola neurona con
estı́mulos sencillos hasta el modelo de la cóclea completo con estı́mulos psicoacústicos. En
la quinta sección se exponen las conclusiones.
Modelos 7

4. Modelos

El trabajo original de Chialvo [6] mostraba que la fundamental ausente aparecı́a como
una resonancia estocástica fantasma tanto en un modelo dinámico de neurona FitzHugh-
Nagumo como en un modelo de umbral ruidoso. La teorı́a supone dos mecanismos. Por un
lado tenemos lo relativo a la percepción de altura y por otro lado conceptos fı́sicos sobre
procesos estocásticos.
Con respecto a la percepción, el modelo que se utiliza para la fundamental ausente, es
un modelo puramente temporal, en el cual la distancia entre los máximos de la onda refleja
el perı́odo del tono escuchado.
Por otro lado el mecanismo fı́sico subyacente que se propone para detectar este perı́odo,
es que en el sistema nervioso la señal auditiva es procesada por un sistema no lineal en
el cual el ruido cumple una tarea benefactora capaz de generar disparos neuronales en los
máximos de la onda.
En la sección 3.1 se expondrán los principales tipos de modelos que existen para el
cómputo de la altura musical, ası́ como algunos resultados de experimentos psicoacústicos
que condicionan el rango de validez de estos modelos. En la sección 3.2 se hablará del otro
concepto relativo al modelo de Chialvo que es el la detección de la señal mediante la adición
de ruido y conceptos afines al procesamiento digital de señales estocásticas.

4.1. Modelos para la fundamental ausente

La sensación de altura que se estudia en psicoacústica es el resultado de un proceso


consciente en el cual se juzga una caracterı́stica del sonido. La definición usual de altura
es aquella caracterı́stica que me permite ordenar los sonidos de graves a agudos. Por ser
una sensación subjetiva, distintas personas pueden evaluar de manera diferente un mismo
sonido. A pesar de esto, es razonable pensar que la codificación que se lleva a cabo en un
primer nivel dentro del sistema nervioso, es similar para todas las personas.
El fenómeno de la fundamental ausente y en general, el estudio de la altura musical, es
uno de los problemas tradicionales de la psicoacústica, y no existe hoy en dı́a una teorı́a
completa satisfactoria sobre la percepción de la altura. Se conocen muchos fenómenos audi-
tivos relacionados con la altura y hay evidencias de que la altura puede ser computada por
más de un mecanismo [5]. Actualmente estos mecanismos se estudian mediante simulaciones
numéricas de los procesos biofı́sicos que ocurren en las primeras etapas del sistema auditivo
pero muchas veces se trata de reducir los procesos a simples transformaciones matemáticas.
Estas transformaciones están inspiradas en el análisis matemático de señales temporales.
Las primeras teorı́as sobre la altura [30] suponı́an que en el oı́do se realizaba un análisis de
Fourier del sonido y los valores de las frecuencias indicaban la o las alturas percibidas.
Hoy sabemos muy bien que en la gran mayorı́a de sonidos, la altura viene dada por la
periodicidad de la señal. Es decir si una señal es periódica, o sea, su patrón de vibración
acústico se repite en el tiempo, es muy probable que al oı́rla se produzca una sensación de
8 Modelos

altura con frecuencia dada por la tasa de repetición.


Los modelos más recientes [21] [22] [3] utilizan este enfoque y los esfuerzos se han deposi-
tado realizar modelos para la extracción del perı́odo de una señal [12] [33]. Matemáticamente
existe una transformación que tiene la capacidad de encontrar la periodicidad de una señal,
y es la función autocorrelación (ACF). Es por esto que esta rama de modelos suelen llamarse
modelos AC y el objetivo es la búsqueda de una implementación biológica de la ACF [18].
La idea subyacente de la ACF para el cómputo de la periodicidad es que si se compara la
señal con una copia retrasada, se obtendrá una máxima concordancia cuando el retraso sea
el perı́odo de la onda. En los modelos biológicos AC se plantea esta misma operación pero
sobre la secuencia de disparos neuronales. Comparar los disparos entre si, equivale a realizar
un histograma de intervalos entre disparos de todo orden (AO-ISIH ). Es decir, un recuento
de todos los intervalos que hay entre un disparo y los otros. Como se mencionó antes, estos
modelos buscan implementar este cálculo en el marco de la fisiologı́a, pero todavı́a no existe
una propuesta sólida. Este tipo de conteo de intervalos (AO-ISIH ) es robusto a la hora de
calcular la altura, dado que al comparar los disparos todos con todos, un disparo espontáneo
aislado no altera el resultado. Por otro lado en el ambiente de estudios electrofisiológicos se
ha estilado mucho un conteo de intervalos a primer orden (FO-ISIH ). Este tipo de conteo,
no ha tenido tanto éxito para el procesamiento de la altura, aunque su implementación
biológica es mucho más directa.
En este trabajo no se estudia como implementar el conteo de intervalos mediante una red
neuronal realista, sino que el perı́odo de la señal se extrae mediante procesos no biológicos.
El procedimiento será en la mayorı́a de los casos computar un FO-ISIH y observar el perı́odo
que se destaca, es decir, la moda del histograma o distribución [24]. Para poder asociar el
valor de este intervalo con la altura, este deberı́a representar al perı́odo de repetición de la
señal.
Los modelos biofı́sicos para la altura incorporan una instancia de segregación en frecuen-
cia del sonido. En la periferia auditiva la cóclea realiza la tarea de descomponer el sonido en
frecuencias. Esta descomposición esta lejos de ser un proceso sencillo y no puede reducirse
a un análisis de Fourier. El concepto afı́n a esta descomposición es el de representación
tonotópica del sonido. Dada la extensión espacial de la cóclea, el sonido se segrega en fre-
cuencia a lo largo de una dimensión espacial (eje tonotópico). Esta capacidad a demás de
pasar el sonido de una representación temporal a una en frecuencia, permite trabajar con
las señales en paralelo. Cada porción de la cóclea indica una frecuencia según su posición
en este eje, pero al mismo tiempo mantiene un patrón de vibración en el tiempo. Si estás
vibraciones son periódicas se oirá una altura. El paradigma actual para el cómputo de la
altura en un sistema de este tipo cociste, en segregar el sonido en el eje tonotópico, computar
a cada señal segregada la ACF, y luego juntar todas las estimaciones de la altura y extraer
la más probable (la moda). En nuestro caso no realizaremos la ACF para cada señal, sino
que serán histogramas de intervalos a primer orden. Luego se agrupan todos estos conteos
y de ahı́ se extrae el intervalo más prominente.
Modelos 9

4.1.1. Procesamiento de señales en la periferia auditiva para la altura

En el párrafo anterior se mencionó que cada sección de la cóclea se tiene una señal
que varı́a en el tiempo. El estudio de como son las formas de onda de estas vibraciones en
los distintos sectores de la cóclea nos será útil para entender luego como serán los eventos
neuronales afines a esos desplazamientos temporales de la membrana.
En la figura 1 se resume todo el comportamiento lineal de la cóclea, en un modelo sencillo
de filtros. La descripción detallada está en la viñeta. A grandes rasgos, lo importante es notar
como la cóclea segrega las frecuencias del estı́mulo no uniformemente. Las frecuencias más
bajas de un estı́mulo armónico son resueltas por la periferia auditiva, en cambio las más
altas no.
Si se incorporan a este modelo simple de filtros otras limitaciones dadas por los procesos
de transducción celulares y neuronales se puede obtener una fiel respuesta de lo que sucede
en la periferia auditiva. Estas limitaciones vienen dadas por el hecho de que las células
que codifican los movimientos continuos de la membrana basilar en disparos neuronales no
pueden seguir frecuencias mayores a 4000 hz aproximadamente. Es decir en la instancia
siguiente al modelo que se presenta en la figura hay que pasar las vibraciones por un filtro
pasa bajos.
Veamos esto en el ejemplo de la figura. Los primeros armónicos están lejos de la frecuencia
de corte de 4000 hz y ademas están resueltos por la cóclea, es decir, a cada uno le corresponde
por lo menos un canal auditivo distinto. Entonces está limitación de las células transductoras
no impide que los eventos neuronales pueden sintonizarse a la frecuencia de estos armónicos.
Por otro lado, si miramos la región de armónicos no resueltos, si a la oscilación que
aparece a la altura de los 3000 hz en la figura, la pasamos por un filtro pasa bajos, lo que
se obtendrá es básicamente la envolvente de la señal y no la estructura temporal fina.
Sin embargo, existe una región intermedia, digamos cerca de los 1500 hz, donde la señal
neuronal resultante puede llegar a tener codificada la estructura fina de las oscilaciones.
Es decir, podemos pensar en tres regiones. Una donde los armónicos están resueltos y
la forma de onda es sinusoidal, por lo tanto los eventos neuronales correspondientes tienen
información sobre la forma de la oscilación. Una segunda región donde los armónicos están
casi resueltos, pero hay superposición de frecuencias en el movimiento y de todas formas los
eventos neuronales pueden codificar el movimiento fino. Y una tercera donde los armónicos
están totalmente no resueltos y la codificación es prácticamente sobre la envolvente del
patrón de vibración.
La clasificación de estas tres regiones es importante en los experimentos psicoacústicos.
En estos se busca identificar que tipo de codificación (fina o envolvente) es la que utiliza
el sistema auditivo para computar la altura que se escucha. Por ejemplo, si se presentan a
un sujeto, dos tonos que tienen la misma envolvente pero distinta estructura fina, este los
podrá discernir solamente si la región espectral corresponde a la zona baja o intermedia.
Si los armónicos de este tono están completamente no resueltos, los dos tonos tendrán la
misma altura, ya que el sistema auditivo sólo está utilizando la envolvente como pista para
10 Modelos

el cómputo de la altura. Este paradigma sobre las distintas regiones ha sido comprobado en
varios trabajos [26] [23] [25]. Según estas ideas, la altura se computa de distintas maneras
según la región que se estimula.
Si sólo se presentan armónicos resueltos, y se evita que algún canal auditivo transmita
frecuencias superpuestas, entonces la salida de la cóclea son solamente sinusoidales. Esto
implica que debe existir un área central dentro de las vı́as de procesamiento donde se combina
la información de los distintos canales ya que para computar la altura necesito conocer la
periodicidad del estı́mulo y no la de sus componentes por separado.
Si el sonido presentado posee frecuencias dentro de la segunda región existirá cierto grado
de superposición en las frecuencias al nivel de la cóclea. Es decir, en este caso puede o no
computarse la periodicidad del sonido sin el requerimiento de combinar la información de
distintos canales.
En cambio si la región que se estimula esta sólo compuesta por armónicos no resueltos,
entonces no hay manera de que se puedan extraer por separado las frecuencias y la altura
que se escucha está dada exclusivamente por la periodicidad de la envolvente de la señal. La
información neuronal para esta altura existe al nivel periférico.
Otra importante caracterı́stica sobre el procesamiento y codificación de señales en el
sistema periférico, es la relacionada con la percepción de intensidad. Las fibras auditivas
son las responsables de enviar toda la información al sistema nervioso, por lo tanto también
deben enviar la información sobre la intensidad del sonido. A grandes rasgos se cumple que
si sube la intensidad del sonido sube la tasa de disparo de las fibras hasta saturar. Para
tener un mayor rango dinámico en la percepción de la intensidad, en el nervio auditivo
existen distintos tipos de fibras que saturan a distintos niveles. En la figura 2 se muestran
tres tipos de fibras, las de baja, media y alta tasa espontánea de disparo (LSR, MSR,
HSR). Al mismo tiempo estos tres tipo se pueden clasificar según el rango dinámico de
intensidades donde trabajan. Las de alta tasa espontánea, trabajan en el rango más bajo,
desde 5 hasta 25 dBSPL según la figura. Para intensidades más altas estas fibras se saturan y
dejan de ser útiles para codificar la intensidad. Las de tasa media ocupan una región media
de intensidades, activándose a partir de los 15 dBSPL y saturando para niveles mayores a
40 dBSPL . Por último las de baja tasa espontánea, disparan recién para estı́mulos mayores
a 30 dBSPL y además no presentan una saturación.
Mencionamos estas caracterı́sticas, ya que en el sistema rudimentario de fibra auditiva
que implementamos, se tienen dos parámetros que caracterizan la respuesta de la fibra. Uno
es el nivel de ruido σ y el otro el umbral de disparo u. Podemos extrapolar estos parámetros
a la descripción de los tipos de fibras que recién se mencionó. Si una fibra tiene una alta tasa
espontánea y se activa para niveles muy bajos, entonces supondremos que corresponderı́a
en nuestro modelo a un caso con mucho ruido y un umbral de disparo bajo. El otro caso,
de baja tasa espontánea y actividad para estı́mulos altos, corresponderı́a a un nivel de
ruido bajo y un umbral de disparo alto. Es decir que dentro del espacio de parámetro de
nuestro modelo (σ,u), si queremos representar una distribución de fibras auditivas realistas,
deberı́amos tomar puntos de alto σ y bajo u y en la punta opuesta bajo σ y alto u.
Modelos 11

Figura 1: Distintas etapas y visualizaciones de un espectro al ser procesado por un banco de filtros
pasa bandas. En la primera fila se muestra un estı́mulo armónico de ejemplo con frecuencias múltip-
los de 100 hz. En la segunda fila se muestra como el eje tonotópico está discretizado en los llamados
canales auditivos, representados por las flechas. Cada canal funciona como un filtro pasa bandas. La
resolución limitada de la cóclea se ve reflejada en el ancho del filtro que depende linealmente de la
frecuencia (f /∆f ≈ cte). Por otro lado los filtros están distribuidos exponencialmente y esto provoca
que ciertas frecuencias se solapen y contribuyan a un mismo canal. En la tercera fila se muestra
un tı́pico patrón de excitación. Este simboliza como está distribuida la energı́a sobre la cóclea. Lo
importante de esta representación, es notar que los armónicos superiores, a partir del 10 aproximada-
mente, no están resueltos. En la última fila se muestra el desplazamiento de la membrana basilar
para algunos canales. Los primeros muestran un desplazamiento casi sinusoidal, que representa que
en ese canal sólo hay una frecuencia. Para los canales más altos en cambio, se ve que el patrón de
oscilación corresponde a la superposición de varias frecuencias y se asemeja a la forma original del
estı́mulo.
12 Modelos

Figura 2: Tasa de disparo versus intensidad del sonido para tres grupos de fibras auditivas. Las fibras
de alta tasa espontánea (HSR) tienen un rango dinámico acotado y saturan rápidamente. Las de baja
tasa espontánea, en cambio comienzan a disparar recién para estı́mulos más altos y no presentan una
saturación. Las de tasa intermedia rellenan el espacio dejado por los otros dos tipos. Datos de cobayo
[28]
Modelos 13

4.2. Modelo de la cóclea

En esta sección se describirá con un poco más de detalle el modelo de cóclea que se utiliza
en este trabajo. En el grupo de trabajo se realizó anteriormente un estudio detallado de los
procesos que ocurren en la periferia auditiva realizando un modelo ı́ntegramente biofı́sico
[15]. En el presente trabajo sólo utilizaremos la parte correspondiente a la segregación en
frecuencias. Las partes subsiguientes incorporaban varias etapas para la transducción de
los movimientos mecánicas en la actividad de las células. Como en este trabajo estamos
haciendo un primer estudio sobre el procesamiento de altura, decidimos no incorporar estas
etapas del modelo original, y plantear el sistema de neuronas rudimentarias con ruido para
estudiar una posible conexión con el trabajo de Chialvo.
La cóclea es el órgano que traduce las vibraciones que llegan al oı́do en impulsos nerviosos.
Los componentes principales son la membrana basilar y las células ciliadas externas e inter-
nas. Las células internas traducen los movimientos mecánicos en variaciones de su potencial
eléctrico de membrana. Esto finalmente conduce al disparo de las fibras auditivas. Como
mencionamos esta etapa es simplificada en este trabajo, sólo se mantiene la actividad de la
membrana basilar y de las células ciliadas externas.
Se puede pensar a la membrana basilar como una linea de transmisión donde cada sitio
corresponde a un oscilador acoplado a sus vecinos. Cada oscilador tiene una frecuencia
natural propia la cual varı́a a lo largo de la membrana, permitiendo la descomposición
en frecuencias. Diferentemente a lo que sucede en una transformada de Fourier, donde el
sonido es analizado en paralelo para cada frecuencia, en la membrana basilar, las vibraciones
son inyectadas en los osciladores más agudos y estas se propagan como ondas viajeras
hacia los osciladores más graves. Hasta aquı́ este sistema tiene sólo componentes lineales.
El sistema es capaz de segregar las frecuencias pero tiene una resolución limitada según el
acoplamiento entre los vecinos. Para solventar esta limitación a cada oscilador se le incorpora
un amortiguamiento negativo el cual permite una resonancia mucho más marcada. Esta es
una descripción muy simplificada del fenómeno, pero a grandes rasgos, se entiende que en
la cóclea hay ciertas no linealidades esenciales que se presentan como procesos activos cuyo
fin es mejorar la respuesta y sintonı́a de la membrana basilar [13].
A modo de ejemplo, se presenta en la figura 3 dos ondas viajeras a dos niveles distintos
de intensidad para un tono sinusoidal de 2000 hz. En 3.a la intensidad es de 50 dBSPL
(nivel de conversación normal). Es sabido que por debajo de los 60 dBSPL los componente
activos de la cóclea cumplen un rol primordial, ya que sin ellos la escucha serı́a realmente
dificultosa. Esto se puede ver en el perfil de los desplazamientos de la membrana basilar
mostrados. La onda viajera al llegar a la zona de resonancia es fuertemente amplificada en
una pequeña región permitiendo una alta resolución espacial. En cambio en la figura 3.b
se ven los desplazamientos para un estı́mulo a 80 dBSPL . Se nota que la región de máxima
activación es mucho más ancha y por lo tanto la resolución espacial se deteriora. Para esos
niveles el comportamiento activo se ve tapado por el comportamiento lineal de la membrana.
Cada sitio de la cadena de osciladores se considera un canal auditivo. Nos preguntamos
como es la actividad o la variación RMS del canal para un estı́mulo sinusoidal. En el primer
14 Modelos

0.15 1

0.1
0.5
Desplazamiento (µm)

Desplazamiento (µm)
0.05

0 0

−0.05
−0.5
−0.1

−0.15
−1
4 6 8 10 12 14 4 6 8 10 12 14
Distancia desde la base (mm) Distancia desde la base (mm)

(a) Intensidad de 50 dBSPL (aprox) (b) Intensidad de 80 dBSPL (aprox)

Figura 3: Desplazamientos instantáneos de la membrana basilar para un tono de 2000 Hz. Se puede
observar en los dos casos la onda viajera a distintos tiempos dada por el degradé de colores. Se puede
ver como avanza la perturbación manteniendo un máximo de amplitud en el sitio de resonancia. La
única diferencia entre los dos casos es la intensidad del estı́mulo. Para baja intensidad (a), los proce-
sos activos de la cóclea que afinan la resolución son más notorios y permiten que los desplazamientos
se acentúen en una pequeña región debido al amortiguamiento negativo. Para alta intensidad (b) la
resolución empeora porque los desplazamientos son más grandes y tapan al mecanismo activo.

panel de la figura 4 se puede observar como es está actividad para 1000 hz. Los canales agudos
(altas frecuencias del eje tonotópico), presentan vibraciones considerables hasta la frecuencia
del estı́mulo. En esa región encontramos la máxima actividad, la cual luego decae. También
podemos inspeccionar como evoluciona la fase de la componente de Fourier correspondiente
a la frecuencia del estı́mulo. En el segundo panel, se muestra esta fase y como esta va
variando a medida que la onda viaja, hasta llegar al punto de resonancia donde tiene un
salto abrupto. Esto se asemeja a una tı́pica resonancia de un oscilador forzado. Para tener
aun un asercamiento más preciso de como está segregando las frecuencias el modelo, podemos
estudiar la transformada de Fourier S(w) para cada canal auditivo. Esto se ve en el tercer
panel, donde podemos ver las frecuencias presentes por canal. Lo primero que notamos es
que todos los canales de frecuencia mayor a la del estı́mulo, tienen oscilaciones a 1000 hz.
El comportamiento esperado serı́a que cada sitio del eje tonotópico oscile a su frecuencia
natural. Esto no sucede para las altas frecuencias, pero si para las bajas, donde se ve una
recta a 45o . También se puede observar energı́a a los 2000 hz, producto de las saturaciones
que inducen las no linealidades.

4.3. Modelos tipo detectores con umbral ruidoso

Llamaremos sistema del tipo umbral al siguiente sistema de dos niveles.


0 si x(t) ≤ u
y(t) = (1)
1 si x(t) > u
Modelos 15

Fase de S(w0) MB RMS (dB)


0

−50

−100
pi
0
−pi
−2pi
−3 pi

−20
2000
Frecuencia Fourier [Hz]

−40
−60
1500
−80
−100
1000 −120
−140
500 −160
−180

0
500 1000 1500 2000
Frecuencia tonotopica [Hz]

Figura 4: Respuesta del modelo de cóclea para un tono sinusoidal a 1000 hz (w0 ) e intensidad de
60 dBSPL . El eje tonotópico (abscisas) indica la frecuencia caracterı́stica de cada canal. En el panel
superior se muestra la actividad promedio RMS para cada canal. Se puede observar un máximo en
el sitio correspondiente a la frecuencia del estı́mulo. Al mismo tiempo todos los canales de más alta
frecuencia también tienen una actividad no nula. En cambio los canales de más baja frecuencia tienen
menor actividad. En el segundo panel se muestra la fase de la componente de Fourier a la frecuencia
del estı́mulo S(w0 ) para cada canal. En el se ve como la fase va cambiando a medida que la onda
viaja, teniendo un salto en la región de resonancia. En el tercer panel se muestra un diagrama de
colores mostrando la amplitud de las componentes de Fourier en dB para cada canal (abscisas) y
cada frecuencia de Fourier (ordenadas).

Donde x(t) es la señal de entrada al sistema, u es el umbral de disparo e y(t) es la señal


de salida. El sistema se puede ver también como un sistema no lineal con una función de
transferencia tipo escalón. Si consideramos señales de entrada del tipo sinusoidales (x(t) =
Asin(2πf t)), la respuesta del sistema queda totalmente caracterizada por la amplitud A de
la señal y por el umbral u. Si u = 0, la respuesta del sistema es una onda cuadrada con la
misma frecuencia que la señal de entrada.
El paso siguiente es agregar en alguna instancia del sistema una cuota ruidosa η(t). En
un sistema lineal la adición de ruido nubla la respuesta del mismo y por lo tanto la relación
entre la entrada y la salida se empobrece. En nuestro caso tenemos un sistema no lineal, y
por lo tanto se puede esperar que aparezcan fenómenos interesantes al agregar el ruido. Si
el ruido se lo agregamos a la señal de entrada x(t). Podemos plantear la salida del sistema
de esta manera, computando un evento y(t) = 1 cada vez que se cumple la desigualdad:

x(t) + η(t) > u (2)

El sistema es muy general y se puede interpretar de varias formas. Si el valor medio del
16 Modelos

ruido cumple hη(t)i = 0, entonces se puede pasar η al lado derecho de la ecuación, y pensar
que lo que se tiene es un umbral ruidoso. Otra manera equivalente es pensar que la entrada
es ruido, y la modulación x(t) es parte del umbral.
Vamos a trabajar con ruido blanco gaussiano, por lo tanto, la correlación será del tipo
delta, hη(t)η(t′ )i = σ 2 δ(t − t′ ). Donde σ es la amplitud del ruido. Esto introduce un nuevo
parámetro (σ), pero se puede descartar este o los otros si se rescalean las amplitudes de x(t),
η(t) y el umbral u según la ecuación (2). En las simulaciones utilizaremos una amplitud de
x(t) arbitraria y los parámetros que se barrerán serán σ y u.
Entonces tenemos un sistema muy rudimentario de dos niveles en el cual estamos agre-
gando ruido y esperando que aparezcan propiedades más o menos interesantes. Estudiando
sistemas de este tipo, varios trabajos [17] [2] resaltan la importancia del ruido, para la trans-
misión de información del sistema y también las implicancias del ruido en la codificación
neuronal [19] [34]. En los artı́culos más viejos (años 90) sobre estos sistemas, el fenómeno
benefactor del ruido era analizado como un caso de resonancia estocástica. En trabajos más
recientes, se muestra que un sistema como el que se presenta en la ecuación (1), el fenómenos
queda mejor descrito por una linearización ayudada por el ruido.
En el campo del procesamiento de señales digitales, tanto sonido como imágenes, se viene
utilizando desde hace 50 años el fenómeno conocido como dithering. Este proceso consiste en
agregar una señal ruidosa (dither ) a la señal continua que será cuantizada digitalmente. El
propósito de esto es mejorar la percepción de la señal anulando distorsiones. En los últimos
años han surgido varios trabajos que buscaron relacionar este proceso con el fenómeno de
resonancia estocástica [14] [37]. Todos concuerdan, que en realidad lo que ocurre con el
dithering no es una resonancia propiamente dicha, sino más bien una linealización inducida
por el ruido, de la función de transferencia no lineal con la cual se cuantiza.
En sistemas donde ocurre resonancia estocástica la oscilación que fuerza al sistema suele
ser sinusoidal. Esto permite una fácil caracterización de la salida del sistema en base a la
componente de Fourier de la frecuencia del estı́mulo. En cambio si se trabaja con señales más
arbitrarias, incluso aperiódicas, ese análisis no es muy conveniente, ya que lo que se busca
es que el sistema pueda a pesar del ruido, transmitir la forma temporal de la señal forzante,
y no una frecuencia especı́fica. Para esto, en vez de inspeccionar la densidad espectral de
potencia de la salida, se puede inspeccionar la correlación entre la entrada y la salida [9],
o medir la información mutua [2] [35]. En este trabajo utilizaremos estos enfoques, pero
también estamos interesados en la codificación de la salida como disparos neuronales y los
intervalos entre ellos.
Debemos mencionar, que dentro de la variedad de fenómenos que se han observado
con respecto a resonancia estocástica o linearización por ruido de estı́mulos complejos, la
que más tiene relación con el procesamiento de la fundamental ausente es la denominada
resonancia estocástica fantasma [7]. El nombre se atribuye a que el sistema, por medio
del ruido, puede resonar a frecuencias subarmónicas no presentes en el estı́mulo (de ahı́ el
nombre de fantasma).
Pasando al terreno neuronal propiamente dicho, en este trabajo utilizaremos el sistema
Modelos 17

(1) como un generador de disparos. Usualmente en el modelado de neuronas, cuando no se


quiere complicar el asunto con modelos dinámicos excitables, se plantean procesos puntuales
estocásticos del tipo Poisson. En esos modelos se necesita establecer una probabilidad de
disparo por unidad de tiempo. El modelo que nosotros implementamos, puede ser traducido
a un proceso puntual, pero ası́ como está planteado en (1), tiene la ventaja de estar descrito
por una señal y un umbral, elementos ligados a una descripción más realista de una neurona.
Como se mencionó antes, el ruido tiene una tarea benefactora, y no borronea simplemente
al sistema. Esta propiedad también ocurre en modelos dinámicos realistas de neuronas, ais-
ladas y en ensambles [8]. La similitud de estos resultados con los provistos por el sistema
aquı́ utilizado valida en cierta medida nuestra simplificación. Al mismo tiempo se ha estu-
diado la similitud entre la estadı́stica de tiempos de disparos de medidas electrofisiológicas
de fibras auditivas con la estadı́sticas de saltos entre 0 y 1 de sistemas de dos niveles o
Poissoneanos [20] [19].
Para terminar la conexión entre nuestro sistema de la ecuación (1) y una neurona,
tenemos que interpretar el estado de salida y(t) = 1 como un disparo neuronal. Si la señal
supera el umbral por más de un instante obtendremos un continuo de disparos. Para prevenir
este comportamiento antineuronal, le aplicamos al sistema un perı́odo refractario. Cuando
se produce un disparo se prohı́ben los disparos sucesivos por un perı́odo determinado. En
este trabajo utilizaremos un perı́odo refractario estocástico. Cada vez que ocurre un disparo,
se calcula el tiempo de prohibición al azar sobre una distribución de tiempos [11].
Experimentos 19

5. Experimentos

En estas secciones se presentan resultados de simulaciones de un sistema tipo umbral


(eq. (1)). Los estı́mulos pueden ser subumbral o supraumbrales. En el caso de la señal sub-
umbral, si añadimos ruido de cierta magnitud, podemos obtener cruces del umbral. Estos
cruces, serán pensados como disparos neuronales, y por lo tanto la salida del sistema es-
tará caracterizada por los tiempos en los que ocurren estos disparos. Exploraremos distintos
niveles de ruido y encontraremos un comportamiento similar al que ocurre en resonancia
estocástica.
En el caso supraumbral el papel del ruido es el opuesto, permite que por momentos la
señal pase debajo del umbral y no se produzca un evento. Según la bibliografı́a [34], el caso
supraumbral presenta caracterı́sticas de resonancia estocástica, o visto desde el enfoque del
dithering, una ampliación del rango dinámico.

5.1. Para señales sinusoidales

Se estudió la respuesta de un sistema de dos niveles tipo umbral (eq. (1)) a entradas
dadas por señales sinusoidales (Asin(2πf t)) subumbrales. Las simulaciones fueron hechas
con una frecuencia de muestro finita f m = 100000 hz y la frecuencia del estı́mulo fue f = 800
hz. La amplitud de la señal fue A = 0.6 y el umbral u = 1.05.
Para caracterizar el comportamiento de la salida presentamos varias medidas. El coefi-
ciente señal-fondo y el coeficiente de correlación lineal entre la salida y la entrada.
Para realizar una correlación entre la señal de entrada continua y la salida caracterizada
por los disparos se optó por calcular la tasa instantánea de disparo R(t). Para esto se
realizó una convolución de los disparos con una ventana del tipo Hanning2 con un ancho de
medio perı́odo. Se calculo la correlación como:

hx(t − τ )[R(t) − hR(t)i]i


C=p (3)
hx(t)2 ih[R(t) − hR(t)i]2 i

Donde se buscó el tiempo τ para maximizar el coeficiente C. De esta manera esta medida
indica cuan similar es la forma de onda x(t) a la tasa instantánea de disparo R(t). Como
está última puede quedar desfasada con respecto a la señal de entrada, se introdujo el tiempo
τ para hacerlas coincidir lo mejor posible.
En la figura 5 se puede observar esta correlación entre la entrada x(t) y la tasa de disparo
R(t) a medida que se incrementa la intensidad del ruido. Se observa un máximo en C para
un nivel de ruido óptimo.
Podemos suponer que para esa intensidad, la forma temporal de R(t) se asemeja a
una sinusoidal. Esto se muestra en la figura 6. En ella se muestra, en la primera fila, los
“ “ ””
2 2πn
w(n) = 0.5 1 − cos N−1
20 Experimentos

0.9

Coeficiente de correlacion lineal x(t), R(t)


0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 5 10 15 20
σ

Figura 5: Coeficiente de correlación lineal entre la entrada x(t) y la tasa instantánea de disparo
R(t). Se observa un máximo para un nivel de ruido finito, en el cual la alta correlación indica la
similitud entre la señal de entrada y la tasa de disparo. Parámetros f = 800 hz, u = 1.05, A = 0.6,
f m = 100000 hz.

histogramas de perı́odo, para distintos valores de ruido. El eje de las abscisas va entre 0 y 2π.
Se puede observar que a medida que se incrementa el nivel de ruido, los disparos aparecen
preferentemente en el máximo de la señal (en verde en la segunda fila), y se empieza a
dibujar un perfil sinusoidal. Cuando la intensidad es muy grande, hay disparos en todo los
momentos del perı́odo, y se empieza a achatar la modulación. En la segunda fila se observa
en verde la señal de entrada, o sea un perı́odo de la función seno, más la tasa instantánea
de disparo R(t) − hR(t)i promediada de todos los perı́odos de la simulación total. Se ve
claramente como esta tasa de disparo sigue la forma del histograma de perı́odo, y queda
claro porqué la curva de la figura 5 tiene un máximo.
En resonancia estocásticas se suele mostrar el coeficiente señal-fondo de la componente
de Fourier a la frecuencia del estı́mulo. Es decir, tomamos la densidad de potencia de la
salida del sistema evaluada en un intervalo de f (± % 5) y la dividimos por la densidad de
potencia espectral evaluada en el resto del dominio de frecuencias. En la figura 7 se observa
un tı́pico patrón de resonancia estocástica, donde existe un máximo en el coeficiente para
un valor de intensidad de ruido finito.
En nuestro caso, como el sistema representa una neurona, estamos interesados en la
codificación de la señal en base a los tiempos de los disparos y no a la señal en sı́. Es decir,
la densidad espectral de potencia no corresponde a una medida relevante en la fisiologı́a,
o por lo menos en el enfoque que aquı́ utilizamos. Lo que nos interesa como codificación
de la señal, es la distancia entre disparos. Para esto realizamos el histograma de intervalos
entre disparos (ISIH) y buscamos la cantidad de intervalos iguales al perı́odo T de la señal
de entrada. En la figura 8 se muestra el coeficiente señal-fondo pero utilizando el ISIH.
El cómputo se hizo promediando 50 histogramas para cada nivel de ruido. A diferencia de
Experimentos 21

0.6

0.5

0.4

0.3

0.2

0.1

−2

−4
0.063 0.14 0.33 0.74 1.7 3.9 8.8 20
0.095 0.22 0.49 1.1 2.6 5.8 13
σ

Figura 6: Paneles mostrando histogramas de perı́odo y tasa de disparo para distintos valores de
intensidad de ruido. La primera fila corresponde a los histogramas de disparos por perı́odo. Se puede
observar como par un cierto nivel de ruido la forma del histograma se asemeja a una sinusoidal
o sea la forma de la señal de entrada. La segunda fila contiene un perı́odo de la señal de entrada
(verde), y la tasa de disparo promediada por perı́odo con media cero (azul). Se nota una similitud
con el histograma de perı́odo pero se encuentra suavizada debido a la convolución con la ventana.
Parámetros f = 800 hz, u = 1.05, A = 0.6, f m = 100000 hz.

−3
x 10
2

1.8

1.6
Coeficiente senial−fondo (FFT)

1.4

1.2

0.8

0.6

0.4

0.2

0
0 5 10 15 20
σ

Figura 7: Coeficiente señal-fondo de la densidad de potencia espectral Fourier en función de la


intensidad del ruido. Se observa un máximo para un valor de ruido óptimo. Parámetros f = 800 hz,
u = 1.05, A = 0.6, f m = 100000 hz.
22 Experimentos

las otras medidas, esta es mucho más sensible al ruido, y muestra un máximo mucho más
localizado y a un nivel de ruido mucho menor. Se ve un pico inicial cuando sube la curva
mostrando que esta forma codificar es mucho más sensible a pequeños cambios en el nivel
de ruido, sobre todo cuando comienzan a haber disparos. Si se realizan promediados más
grandes, esos picos desaparecen.
0.4

0.35
Coeficiente senial−fondo (ISIH)

0.3

0.25

0.2

0.15

0.1

0.05

0
0 0.1 0.2 0.3 0.4 0.5 0.6
σ

Figura 8: Coeficiente señal-fondo del ISIH en función de la intensidad del ruido. Se observa un
máximo mucho más fino que en el caso de la densidad espectral y la posición del máximo se obtiene
para un nivel de ruido mucho menor. Parámetros f = 800 hz, u = 1.05, A = 0.6, f m = 100000 hz.

Para ver como son los ISIH a medida que sube el ruido, en la figura 9 se muestran para
tres intensidades de ruido. En el panel inferior, el caso con menor ruido, se ven pocos datos,
por lo tanto la salida del sistema produjo pocos disparos. En el caso intermedio, se ve que
los modos del histograma se ubican en múltiplos del perı́odo T . Como la altura de estos
modos son todas similares, el coeficiente señal-fondo todavı́a está lejos del máximo. En el
tercer panel, se observa que el modo ubicado en T es mucho más prominente que el resto
mostrando la saliencia de la señal de entrada contra el fondo del histograma.
En resumen, en las figuras 5, 7 y 8, se observa una correlación o coherencia entre la señal
de entrada y la señal de salida para un nivel de ruido distinto de cero. En el apéndice (1)
se motiva un posible análisis teórico para explicar este fenómeno para señales sinusoidales.
En las siguientes secciones no mostraremos todas las medidas presentadas en esta sección
y usaremos la relación señal-fondo del ISIH para el cómputo de la altura. En los modelos
temporales de la altura se extrae el pico más alto del histograma y se asocia el valor del
intervalo con el perı́odo de la altura. Notemos que el coeficiente señal-fondo cumple este
rol, sólo que nosotros no estamos extrayendo el perı́odo más prominente sino que dado que
conocemos el estı́mulo, ya sabemos cual deberı́a ser este perı́odo. Entonces computamos el
coeficiente señal-fondo a partir de esta ”señal” que queremos se transmita. Esto permitirı́a
que histogramas con un gran pico en el perı́odo buscado, pero con mucho ruido de fondo
tengan un coeficiente muy bajo, a pesar de tener un máximo en T . Es decir, esta manera
de medir la salida, es menos exigente que pedir que el máximo este en T y nada más. En
Experimentos 23

0.03

0.02

σ=0.26 0.01

0
0.03

0.02
σ=0.17

0.01

0
0.2
σ=0.13

0.1

0
0 T 2T 3T 4T 5T
Tiempo [ms]

Figura 9: ISIH para tres niveles de ruido. En el nivel más bajo se ve que los primeros intervalos que
aparecen son múltiplos del perı́odo de la señal. A medida que va subiendo el nivel se van poblando
los modos del histograma. En el panel superior se ve que hay más intervalos en el primer modo (T ).
Para niveles más altos (no se muestra), los intervalos se hacen más pequeños y el pico del histograma
se desplaza hacia la izquierda dejando de contribuir a la medida de la salida. Los histogramas están
normalizados para que puedan ser interpretados como una densidad de probabilidad. Parámetros
f = 800 hz, u = 1.05, A = 0.6, f m = 100000 hz.

[4] utilizan esta relación señal-fondo para estudiar la saliencia perceptual de la fundamental
ausente, es decir, cuan fácil es distinguir la nota. Entonces, el coeficiente que calculamos no
sólo nos dice que el máximo está en T , sino que también cuan escuchable es la nota.
Los resultados que se mostraron deberı́an ser idealmente independientes de la frecuencia
del estı́mulo ya que el sistema no tiene ninguna escala temporal caracterı́stica. Sin embar-
go en las simulaciones si se observaron cambios al variar la frecuencia de entrada, pero
pueden ser atribuidos, a que la simulación tiene un muestreo finito, y el ruido no es exacta-
mente blanco. Para que los resultados sean los más generales posibles la frecuencia que se
utilizó (800 hz) fue dos órdenes de magnitud menor comparada con la máxima frecuencia
representable por el sistema (frecuencia de Nyquist 50000 hz).
Pasemos ahora a incorporar una escala temporal caracterı́stica al sistema, dada por la
inclusión de un perı́odo refractario. Esta inhibición al sistema es una limitación en frecuencia
de los disparos. El modelo de perı́odo refractario que implementamos consiste en prohibir
disparos consecutivos por un tiempo tomado de una distribución normal N (1ms, 2ms) y
rechazando perı́odos refractarios menores de 0.7 ms. Por lo tanto el sistema no puede tener
eventos con un periodo menor que 0.7 ms (1400 hz). Sin embargo esta limitación permite
que para frecuencias bajas el phase-locking se intensifique. Mostramos los resultados para
un estimulo sinusoidal a 500 hz. En la figura 10 vemos el coeficiente señal-fondo del sistema
con periodo refractario. Se puede ver que la curva es mucho mas ancha mostrando como
la inclusión del periodo refractario evita que el ruido provoque mas de un disparo por
24 Experimentos

ciclo. En la figura 11(b) mostramos varios ISIH para distintos niveles de ruido, para el caso
con y sin perı́odo refractario. Se puede observar como para altos niveles de ruido (panel
superior), el modo principal del histograma del sistema sin periodo refractario, se desplaza
hacia periodos mas cortos. En cambio al incluir el periodo refractario, este modo se ensancha,
pero permanece centrado en el periodo correspondiente al estimulo.

0.35

0.3
Coeficiente senial−fondo (ISIH)

0.25

0.2

0.15

0.1

0.05

0
0 0.2 0.4 0.6 0.8 1 1.2
σ

Figura 10: Coeficiente señal-fondo del ISIH en función de la intensidad del ruido. Se observa un
máximo mucho más fino que en el caso de la densidad espectral y la posición del máximo se obtiene
para un nivel de ruido mucho menor. Parámetros f = 500 hz, u = 1.05, A = 0.6, f m = 100000 hz.

Hasta aquı́ se han mostrado las principales caracterı́sticas de un sistema básico del tipo
umbral cuando es estimulado con una señal sinusoidal y ruido gaussiano. Por ser un sistema
no lineal, el ruido no borronea la salida del dispositivo sino que para cierta intensidad, la
salida del sistema preserva caracterı́sticas temporales de la entrada (figuras 5,7,8). Como
vamos a utilizar la información provista por los ISIH, tuvimos que introducir un perı́odo
refractario para hacer más robustas las medidas del ISI.
El caso supraumbral para estı́mulos sinusoidales no presenta mucho interés, pero se
realizaron las simulaciones correspondientes con y sin perı́odo refractario, y se observó que
existe un máximo para un nivel óptimo de ruido solamente en la correlación lineal de la
ecuación (3) debido a que el suavizado que se introduce para calcular R(t), permite que esta
tasa de disparo se asemeje a una sinusoidal. Para amplitudes levemente supraumbrales, se
puede llegar a ver curvas con máximos en las otras medidas (señal-fondo ISIH y FFT)
En la siguiente sección procedemos a realizar el análisis pero con estı́mulos con varias
frecuencias.

5.2. Para señales con varias frecuencias

Como señal compleja con varias frecuencias utilizaremos un tono rico en armónicos pero
filtrado con un pasa-bandas, que suele identificarse como una vocal sintética de una sola for-
Experimentos 25

0.03 0.015
σ=0.48

σ=0.48
0.02 0.01

0.01 0.005

0 0
0.015
0.02
σ=0.28

σ=0.28
0.01

0.01 0.005

0 0
0.015 0.015
σ=0.2

σ=0.2
0.01 0.01

0.005 0.005

0 0
0 T 2T 3T 4T 5T 0 T 2T 3T 4T 5T
Tiempo [ms] Tiempo [ms]

(a) Sin perı́odo refractario (b) Con perı́odo refractario

Figura 11: ISIH para tres niveles de ruido. En (a) se muestran los resultados del sistema sin
perı́odo refractario, se ven las mismas caracterı́sticas que en la figura 9. En (b) se ha aplicado el
perı́odo refractario. La principal diferencia es que el primer modo de los histogramas no sufre una
deriva, y permanece siempre localizado en T . Por otro lado, la inhibición de intervalos muy pequeños,
evita que estos se localicen por completo en el primer modo, por eso se ve que en el segundo panel, el
modo en 2T es comparable al modo en T . Parámetros f = 500 hz, u = 1.05, A = 0.6, f m = 100000
hz.

mante (código generador en apéndice B). En experimentos de neurofisiologı́a, suelen usarse


estas vocales sintéticas con el propósito de estudiar las respuestas de las fibras auditivas a
sonidos tipo vocales [4]. En la figura 5.2 se puede ver la forma de la señal y su densidad
espectral.

1 0

0.8
−20
Densidad de potencia (dB/Hz)

0.6

0.4 −40

0.2
−60
0

−0.2 −80

−0.4
−100
−0.6

−0.8 −120
20 25 30 35 40 45 50 0 0.2 0.4 0.6 0.8 1 1.2 1.4
Tiempo [ms] Frecuencia [kHz]

(a) Forma de onda x(t) (b) Densidad espectral

Figura 12: Vocal sintética de una sola formante. La frecuencia fundamental F 0 es de 100 hz, y la
formante esta localizada a los 400 hz. En (a) se puede ver la forma temporal de la señal y en (b) la
densidad espectral de potencia
26 Experimentos

Se eligió este estı́mulo ya que por un lado presenta una periodicidad bien marcada, pero
al mismo tiempo muestra una estructura temporal fina caracterizada por varios máximos
de oscilación con amplitud decreciente.
A continuación mostramos los resultados del sistema umbral para este estı́mulo. En la
figura 5.2 se observan dos de las medidas introducidas antes (coeficiente señal-fondo de ISIH
y coeficiente de correlación) para el estı́mulo complejo de la figura 5.2.

18 0.7

Coeficiente de correlacion lineal x(t), R(t)


16 0.6
Coeficiente senial−fondo (ISIH)

14
0.5
12
0.4
10
0.3
8
0.2
6
0.1
4

2 0

0 −0.1
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
σ σ

(a) Coeficiente. Señal-fondo del ISIH (b) Coeficiente. lineal de correlación entre
x(t) y R(t)

Figura 13: Se puede observar que para las dos medidas mostradas, existe un nivel de ruido óptimo.
Esto significa que en (a) el sistema codifica satisfactoriamente el perı́odo de la señal. En (b) en
cambio significa que la salida del sistema es semejante a la entrada. Parámetros f 0 = 100 hz,
F = 400, u = 1.05, A = 0.8, f m = 100000 hz.

Para ver más de cerca como responde el sistema mostramos nuevamente los histogramas
de perı́odo y la tasa de disparo para distintos varios valores de intensidad de ruido (figura
14).
Lo interesante de este modelo ruidoso es que según el nivel de ruido, el sistema exhibe
distintas respuestas que puede ser útiles para el procesamiento de la señal. Si observamos los
ISIH en este caso, podemos ver como por un lado se pueden obtener resultados similares a
los para estı́mulos sinusoidales, como también se puede tener acceso a la estructura temporal
fina del estı́mulo complejo presentado. En la figura 15 se observan estos histogramas para
tres niveles de ruido.
Solamente estamos interesados en los histogramas que nos muestren el perı́odo funda-
mental como el intervalo más recurrente en las secuencias de disparos, pero en las teorı́as
temporales de la percepción auditiva, estos histogramas de intervalos pueden asociarse a
otras caracterı́sticas sonoras, como información espectral de vocales o consonancia musical.
Como mencionamos al comienzo de la sección, también se estudio el régimen supraum-
bral. Para resumir estos resultado se muestra la información de manera condensada en unos
gráficos de colores (figura 5.2).
Experimentos 27

0.1

0.08

0.06

0.04

0.02

0
1

0.5

−0.5

−1
0.1 0.14 0.19 0.26 0.36 0.49 0.67 0.92
0.12 0.16 0.22 0.3 0.42 0.57 0.79

Figura 14: Paneles mostrando histogramas de perı́odo y tasa de disparo para distintos valores de
intensidad de ruido. La primera fila corresponde a los histogramas de disparos por perı́odo. Se puede
observar como par un cierto nivel de ruido la forma del histograma se muestra los picos de la señal
de entrada. La segunda fila contiene un perı́odo de la señal de entrada (verde), y la tasa de disparo
promediada por perı́odo con media cero (azul). Se nota una similitud con el histograma de perı́odo pero
se encuentra suavizada debido a la convolución con la ventana. Parámetros f 0 = 100 hz, F = 400,
u = 1.05, A = 0.8, f m = 100000 hz.

En estas figuras se muestra una exploración del espacio de parámetros (σ, u). En 5.2.a
se muestra el coeficiente señal-fondo de los ISIH. Dentro del código de colores se introdujo
el color naranja simbolizando un valor de coeficiente infinito, es decir, el ISIH sólo tiene
componentes dentro de la señal buscada, y no hay intervalos que no sean a la fundamental.
El estı́mulo fue el de la figura 5.2, pero con amplitud A = 1. Se puede ver que esta región con
altos valores de coeficiente, corresponde a valores de umbral menores que la amplitud A, por
lo tanto se ve que que para este estı́mulo existen regiones de comportamiento subumbral
donde el sistema dispara al perı́odo del estı́mulo. Sin embargo en esas regiones no se ve
un comportamiento tipo resonancia estocástica, ya que para niveles de ruido nulo, sigue
habiendo un alto valor de coeficiente. Por otro lado, en 5.2.b se ve el coeficiente de correlación
entre la entrada y la salida. En este caso también se ve que la mancha de alta correlación
se extiende a regiones donde el estı́mulo es supraumbral, incluso se notó que dentro de esta
mancha, el máximo de correlación está cerca de u = 0.5 y para un nivel de ruido no nulo.
A modo de ejemplo, en la figura 5.2, se muestra histogramas de intervalos y de perı́odo
de dos puntos en el espacio de parámetros (σ, u), marcados por cuadraditos en la figura 5.2.
28 Experimentos

0.015
σ=0.49

0.01

0.005

0
0.015

0.01
σ=0.3

0.005

0
0.04
σ=0.14

0.02

0
0 1/F T 2T 3T 4T 5T
Tiempo [ms]

Figura 15: Tres ISIH para distintos niveles de ruido. En el panel inferior vemos algo similar al caso
de una entrada sinusoidal, el sistema responde con intervalos múltiplos del perı́odo fundamental. En
el segundo panel, en cambio se observa que también puede haber phase locking con los otros máximos
locales de la señal, mostrando intervalos al perı́odo de la formante y sus múltiplos. En el último caso
se elevó el nivel de ruido para que muestre sólo un modo en el perı́odo de la formante. Parámetros
f 0 = 100 hz, F = 400, u = 1.05, A = 0.8, f m = 100000 hz.

1 100 1 0.7
0.9 90 0.9
0.6
0.8 80 0.8

0.7 70 0.7 0.5


0.6 60 0.6
0.4
0.5 0.5
σ

50

0.4 40 0.4 0.3

0.3 30 0.3
0.2
0.2 20 0.2

0.1 10 0.1 0.1

0 0 0
0 0.5 1 1.5 0 0.5 1 1.5
u u

(a) Coeficiente señal-fondo del ISIH (b) Coeficiente lineal de correlación

Figura 16: Exploración del espacio de parámetros (σ, u). En (a) se muestra el coeficiente señal-
fondo de los ISIH. El código de color naranja indica valores divergentes de este coeficiente. En (b)
se muestra el coeficiente de correlación, se puede ver una gran región similar en forma a la de la
figura (a), con alta correlación. Parámetros f 0 = 100 hz, F = 400, f m = 100000 hz. A = 1

5.3. Con la cóclea

En esta sección aplicaremos nuestro modelo rudimentario de neurona a la salida de una


simulación de la cóclea, es decir, hará las veces de fibra auditiva. Esta simulación entrega
Experimentos 29

0.4
σ=0.02 u=0.91 0.4 σ=0.02 u=0.91
0.3
0.3
0.2

Densidad de disparos por periodo


0.2
Densidad de intervalos

0.1 0.1

0 0
0.3
0.06 σ=0.1 u=0.4 σ=0.1 u=0.4

0.2
0.04

0.1
0.02

0 0
0 1/F 2/F 3/F T 2T 0 2 4 6 8 10
Tiempo [ms] Tiempo [ms]

(a) ISIH (b) Histograma de perı́odo

Figura 17: Histograma de intervalos (a) y de perı́odo (b) para dos puntos del espacio de parámetros.
Para los paneles superiores se puede ver exclusivamente un phase-locking a la frecuencia fundamental.
En cambio en el caso inferior, que corresponde a un estı́mulo supraumbral, se ve que el sistema
responde a la frecuencia formante. Los parámetros en (a) son u = .9 y σ = 0.02. En (b) u = .4 y
σ = 0.1. Parámetros f 0 = 100 hz, F = 400, f m = 100000 hz. A = 1

por cada canal auditivo una señal que varı́a en el tiempo. Estas señales serán la entrada
del sistema umbral que se vino utilizando (con perı́odo refractario). Lo que esperamos es
que lo disparos ocurran en los máximos de las señales de cada canal, las cuales transmiten
fragmentos de la señal original debido a la segregación. Por lo tanto esta información debe
ser agrupada para ası́ obtener una sola medida de la altura y no una por canal. Una vez
computados todos los disparos que ocurren por canal, se contabilizan los intervalos entre dis-
paros (ISI) y estos histogramas son sumados para obtener el recuento de todos los intervalos
que ocurren en estas fibras auditivas.
Para comenzar el estudio del modelo de cóclea, utilizamos en este P caso un estı́mulo
armónico pero sin filtrarle componentes, dado por la siguiente suma s(t) = 50
n=1 sin(2πf 0 n t)
con una frecuencia fundamental f 0 = 100 hz. La forma de onda de este estı́mulo consiste es
pulsos localizados separados T 0 = 1/f 0.
En la figura 5.3 observamos como las frecuencias de este estı́mulo se segregan en la cóclea
(a) y como es el comportamiento temporal de las oscilaciones de cada canal auditivo (b).
En (a) observamos que a pesar de que en el estı́mulo todas las componentes tienen la misma
amplitud, la membrana basilar no preserva exactamente las intensidades individuales. En
la región de altas frecuencias se ven la mayor actividad, ya que no se distinguen picos indi-
viduales y la energı́a presente en un canal corresponde a varias componentes de frecuencia
del estı́mulo. Las lineas verticales separan las tres regiones comentadas en la sección 3.1.1,
en la más baja los armónicos son resueltos, en la intermedia en menor medida, y en la más
alta se ve una meseta. En 5.3.(b) se muestra la traza temporal de cada canal auditivo, o
cocleograma. En la primera parte se muestran estas oscilaciones para todos los canales. Se
30 Experimentos

puede ver que en los canales más altos hay un patrón que se repite a la frecuencia funda-
mental. En la segunda parte sólo se muestran los canales cuyas frecuencias corresponden a
las componentes del estı́mulo. Ahı́ se ve que las componentes más bajas están bien segre-
gadas ya que su oscilación es prácticamente sinusoidal, mientras que cerca de los 1000 hz,
las oscilaciones empiezan a presentar una envolvente a la frecuencia fundamental.
El paso siguiente es computar la respuesta de la fibra auditiva tipo umbral a partir de las
oscilaciones de cada canal. En la figura 19 vemos la respuesta de la fibra para tres canales.
Los tipos de intervalos que se ven depende de como es la señal de cada canal. En el panel
superior, la señal tiene una envolvente que se repite con la periodicidad del estı́mulo y por
lo tanto el sistema umbral en este caso responde con disparos separados regularmente con
esta periodicidad. En los otros paneles en cambio las señales no tienen tanta repetición a
la frecuencia fundamental y por lo tanto los intervalos de los disparos siguen más bien la
frecuencia del canal.
Ahora mostraremos el recuento de intervalos (ISIH) para todos los canales (figura 20).
Cada fila representa un canal. En cada una se indica con color, la cantidad de intervalos
que hubo con ese valor. Primero, lo más notorio es que para una gran cantidad de canales,
principalmente los más altos, hay una buena cantidad de intervalos al perı́odo fundamental.
Esto se ve como un linea vertical a los 10 ms. Para los canales más bajos vemos que la
linea se pierde, mostrando que en esos canales los armónicos están resueltos y por lo tanto
no deberı́an responder a la frecuencia fundamental principalmente. El otro interesante com-
portamiento que observamos está dado por patrones que forman una curvas aparentemente
continuas. Por ejemplo para el canal de 500 hz, le corresponden muchos intervalos a 2 ms,
que justamente es el perı́odo, pero también en sus múltiplos. Esto se repite para cada canal,
hasta llegar a 1000 hz. Este comportamiento deberı́a seguir ası́, pero el perı́odo refractario
prohibe disparos a menos de 0.7 ms. Lo que sucede entonces es que para los canales superi-
ores los intervalos más prominentes corresponden a subarmónicos. Resumiendo podemos ver
que si cada armónico presente en el estı́mulo manifiesta sus subarmónicos en los histogra-
mas, el subarmónico que se repita más dentro de todos los armónicos, será el candidato a
ser la fundamental ausente. En el panel inferior de la figura se muestra efectivamente esto,
si sumamos todos los histogramas de los canales, obtenemos un pico muy marcado en el
subarmónico común a todas las frecuencias presentes en el estı́mulo.
La figura recién mostrada fue hecha eligiendo los parámetros σ y u casi al azar. Para tener
un acercamiento más detallado sobre este resultado, se procedió a computar el coeficiente
señal-fondo sobre una región del espacio de parámetros (como en la figura 5.2). Para extender
el análisis, se muestran estos coeficientes para tres tipos de estı́mulos. El primero es el
estı́mulo tipo vocal sintética que se utilizó en la sección 4.2, el segundo es el estı́mulo que se
venı́a usando en esta sección, un tono con armónicos n=1-50 y el tercero es este mismo tono
pero solamente con armónicos no resueltos n=15-20. La frecuencia fundamental en los tres
casos fue f 0 = 100 hz. La principal diferencia entre los tres tonos, es la región en frecuencia
que estimulan.
En la figura 5.3 se ven los resultados para los tres estı́mulos. A grandes rasgos, en los
tres casos se ven zonas donde el coeficiente alcanza un máximo, dadas por las regiones
Experimentos 31

0.1

0.09

Desplazamiento RMS (µm)


0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0
500 1000 1500 2000 2500 3000
Frecuencia tonotopica (hz)

(a) Perfil membrana basilar RMS

2500

2000
Frecuencia tonotopica (hz)

1500

1000

500

100 110 120 130 140 150


Tiempo (ms)
(b) Cocleograma

Figura 18: Respuesta del modelo de cóclea a un estı́mulo armónico con f 0 = 100 y armónicos 1
a 50. En (a) se muestra el desplazamiento RMS de la membrana. Se puede observar la segregación
en frecuencias y como para las frecuencias altas no se pueden resolver los picos. Las lineas verti-
cales indican las tres regiones psicoacústicas (resueltos, casi resueltos, no resueltos). En (b) la figura
está dividida en dos, en la parte de la izquierda se muestra un cocleograma y en la parte derecha
sólo los canales que corresponden a las frecuencias del estı́mulo. Los canales más bajos muestran
oscilaciones sinusoidales y los más altos patrones complejos. La intensidad del estı́mulo fue de 60 dB
SPL .

violeta oscuro que representan un coeficiente divergente. En los tres casos se puede ver
32 Experimentos

canal 5015 hz 1
0.5
0
canal 1100 hz

0.5

0
canal 599 hz

0.5

0
20 40 60 80 100
Tiempo (ms)

Figura 19: Tres canales auditivos mostrando la señal más el ruido y sus disparos. En el panel
superior se muestra un canal donde los armónicos no están resueltos, por lo que se ve una señal
con una marcada envolvente y disparos regulares. En el segundo panel se muestra un canal donde la
envolvente no es tan marcada pero se siguen viendo intervalos de disparos que corresponden al perı́odo
fundamental. En el tercer caso la señal es casi sinusoidal y los disparos ocurren mayoritariamente a
múltiplos de el perı́odo correspondiente a la frecuencia del canal. u = 0.15 y σ = 0.02

que sin la presencia de ruido, existen regiones de u donde el valor del coeficiente es alto
y el mecanismo es supraumbral. Al aumentar el nivel de ruido en todos los casos también
se ve que las regiones coloreadas de desplazan para umbrales más altos. Es interesante ver
como el mecanismo de generación de disparos que implementamos funciona en cierta medida
para tres estı́mulos que estimulan de distinta manera a la cóclea. De todas maneras se ven
diferencias locales entre las imágenes de cada estı́mulo.
Para el estı́mulo tipo vocal, la forma de onda vimos tiene una periodicidad marcada (100
hz) pero también estructura temporal fina de una frecuencia baja (400 hz). Esto quizás se
vea reflejado en la figura 5.3.a ya que las regiones de alto coeficiente están disjuntas. En
cambio en los otros dos estı́mulos la región de alto coeficiente parece estar más unificada.
Quizás porque tienen una forma de onda más parecida a un tren de pulsos periódico, y la
estructura temporal fina se pierde ya que el modelo de fibra le cuesta disparar a más de
1000 hz.
Como se mencionó a pesar de las diferencias entre los estı́mulos, los tres patrones presen-
tan una trayectoria en el espacio de parámetros similar. Lo interesante es que esta trayectoria
oblicua, se contrapone a la distribución que suelen encontrarse de las fibras auditivas. Las
fibras suelen tener una tasa espontánea baja y un umbral alto o una tasa espontánea alta
y un umbral bajo. Estos extremos cortan perpendicularmente a las regiones donde encon-
tramos a la fundamental. Podemos suponer que las fibras dispuestas de esta manera tienen
Experimentos 33

5000
20
4500
Frecuencia tonotopica (hz) 18
4000
16
3500 14

3000 12

2500 10

2000 8

6
1500
4
1000
2
500
2000
# ISI

1000

0
2 4 6 8 10 12
Tiempo (ms)

Figura 20: ISIH por canal (arriba) e histograma colectivo de todos los canales (abajo). Para la
mayorı́a de los canales se ve un interesante comportamiento de phase-locking dado por la formación
de curvas que siguen la frecuencia del canal con su perı́odo o subarmónicos. Se puede ver que en
mayor o menor medida todos los canales contribuyen con intervalos al perı́odo fundamental y este
intervalo sobresale del resto en recuento de todos los canales (panel inferior). Parámetros σ = 0.02
y u = 0.15

el propósito de ocupar más superficie en el espacio de parámetros, pero al mismo tiempo


garantiza que la altura u otra caracterı́stica sonora sea transmitida.
34 Experimentos

0.1 0.1
0.091 22
0.09 0.09

0.08 0.076 0.08 19


0.07 0.07
0.061 15
0.06 0.06

0.05 0.05
σ

σ
0.046 11
0.04 0.04

0.03 0.03 0.03 7.4

0.02 0.02
0.015 3.7
0.01 0.01

0 0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
u u

(a) Tono tipo vocal (b) Tono armónicos completos


0.1
1.7
0.09

0.08 1.4
0.07
1.1
0.06

0.05
σ

0.84
0.04

0.03 0.56

0.02
0.28
0.01

0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
u

(c) Tono armónicos no resueltos

Figura 21: Coeficiente señal-fondo de ISIHs para tres tipo de estı́mulos. En (a) el estı́mulo fue
del tipo vocal sintética de una formante (5.2). En (b) un tono armónico como el utilizado en esta
sección y en (c) un tono similar pero sólo con armónicos no resueltos (n=15-20). En todos los casos
se ve una región del espacio de parámetros donde el color violeta oscuro implica que el coeficiente
señal-fondo diverge o es varios órdenes de magnitud mayor que la escala de colores mostrada. La
intensidad de los estı́mulos fue de 60 dB SPL .
Conclusiones 35

6. Conclusiones

En este trabajo hemos presentado un modelo sencillo para el estudio de la fundamental


ausente en el sistema auditivo periférico. Este modelo consiste en una simulación de la cóclea
más un modelo de fibra auditiva rudimentario basado en detectores de umbral ruidoso. La
entrada del modelo es una señal sonora y la salida son los tiempos de los disparos neuronales
de la fibra auditiva. Siguiendo el actual paradigma sobre el cómputo de la altura con his-
togramas de intervalos de disparos, sometimos el modelo a tonos armónicos de diferentes
caracterı́sticas.
Se estudió un sistema detector por umbral ruidoso en el régimen subumbral y sin perı́odo
refractario. Se encontró que más de una medida u observable del sistema tiene un compor-
tamiento del tipo resonancia estocástica. Es decir, existe un nivel de ruido finito donde
esta medida alcanza un máximo. Decimos tipo resonancia estocástica ya que en realidad el
proceso se puede entender también como una linealización de la función de transferencia
no lineal por causa del ruido. Esto último se vio en los histogramas de perı́odos, donde se
observó que a medida que se va incrementado el ruido, la forma del histograma de perı́odo
se asemeja a la forma de la señal de entrada. Podemos pensar estos histogramas como la
respuesta ensamble del sistema para un perı́odo sólo, por lo tanto, al incorporar el ruido la
función de transferencia del ensamble se linealiza. En sistemas excitables neuronales, exis-
ten regiones del espacio de parámetros donde el fenómeno observado puede quedar descrito
por resonancia o por linelización [8]. El paso siguiente en el estudio de nuestros sistemas
tipo umbral serı́a extender los resultados a ruido coloreado y estudiar el comportamiento al
variar la frecuencia de entrada, para ver si se encuentran regiones donde prevalezca uno u
otro comportamiento.
El modelo de fibra que planteamos poseı́a solo dos parámetros, el umbral y la intensidad
del ruido. Estos dos parámetros permitieron establecer una correspondencia con las fibras
auditivas que se encuentran en un nervio auditivo real, ya que suelen ser catalogadas según
su tasa espontánea (ruido) y su umbral de disparo. Se exploró el espacio de parámetros
y se computó el coeficiente señal-fondo del recuento de los histogramas FO-ISIH de cada
canal. Se observó que en ciertas regiones de este espacio, el coeficiente era mayor que uno o
divergı́a, indicando una gran presencia de intervalos al perı́odo fundamental. Estas regiones
abarcaban tanto comportamientos sub-umbral como supraumbral. Es interesante destacar
que estas regiones ocupaban una franja diagonal en el espacio de parametros orientada de
tal forma que al aumentar el umbral, aumenta el nivel de ruido. Si tenemos en cuenta que
las fibras auditivas presentan una dependencia inversa del umbral y el nivel de ruido (al
aumentar el umbral disminuye la actividad espontanea), podemos suponer que existe una
interseccion en el espacio de parametros entre la region con alto coeficiente señal-fondo y la
region con valores de umbral y ruido plausibles biologicamente.
Utilizamos preferentemente el coeficiente señal-fondo de los FO-ISIH frente a otro ob-
servable. Este tenı́a la ventaja de por un lado mostrar si habı́a gran cantidad de intervalos
al perı́odo buscado T , o sea, la fundamental ausente, y al mismo tiempo insinuar como serı́a
la saliencia perceptual de la nota.
36 Conclusiones

Igualmente no llevamos a cabo este análisis de saliencia ya que deberı́an pesarse las dis-
tintas regiones de la cóclea con un peso perceptual que se ve en los experimentos psicofı́sicos.
Según datos reales de fibras auditivas, este conteo a primer orden no es tan robusto frente
a cambios de intensidad, por lo tanto este trabajo deberı́a completarse en un futuro con
conteos a todo orden.
Teniendo en cuenta que cada oı́do cuenta con cerca de 30 mil fibras auditivas y que el
ruido neuronal en ellas esta descorrelacionado, podemos asumir que tiempo a tiempo las
fibras proporcionan una respuesta de ensamble del estimulo sonoro, procesado en paralelo
por la cóclea. Esta respuesta de ensamble es ademas, por las propiedades del sistema umbral
estudiado, casi lineal para un amplio rango de valores de intensidad de ruido. De esta forma
el conjunto las fibras auditivas estarı́a funcionando como un transductor analógico-digital
de las ondas mecánicas en la cóclea en disparos neuronales, preservando en una muy buena
aproximación la información contenida en la forma de onda. De esta variedad de fibras,
observamos que algunas mostraban disparos a la frecuencia de la fundamental ausente, y
en cambio otras mostraban otras propiedades de la forma de onda, como las frecuencias
formantes, o portadoras.
En conclusión podemos decir que para cierta configuración de los parámetros, encon-
tramos la fundamental ausente en la periferia auditiva.
Aproximación teórica para un sistema umbral 37

A. Aproximación teórica para un sistema umbral


Gammaitioni en su artı́culo ”Stochastic resonance and the dithering effect in threshold
physical systems” [14], propone una aproximación simple para estimar el coeficiente señal-
ruido de la componente de Fourier.
Si y(t) es una señal de ruido blanco gaussiana con media cero, y nos preguntamos cuantos
puntos de esta señal sobrepasan un valor u, simplemente hay que tomar la densidad de
probabilidad e integrar sobre los casos favorables. Para una densidad gaussiana f (ξ) =
h i
(ξ)2
√ 1 exp − 2 , la probabilidad de que halla eventos mayores a u es:
2πσ 2 2σ

∞ y2
1 1 u
Z
F (u) = √ e− 2σ2 dy = erf c( √ ) (4)
2πσ 2 u 2 2σ 2

Esto nos dice que a medida que subimos la amplitud del ruido σ, o bajamos el umbral,
tendremos mayor cantidad de eventos. Si ahora al sistema de umbral, le presentamos un
estı́mulo con una amplitud A entonces, la probabilidad de que halla un evento será F (u−A),
donde u − A es la distancia entre el umbral y el pico de la señal de entrada. En este caso
aun, si aumentamos el nivel de ruido seguiremos teniendo una cantidad de eventos creciente.
Para obtener un comportamiento del tipo resonancia estocástica, donde hay un nivel de ruido
óptimo, debemos agregarle algo a esta probabilidad. Sin ser muy especı́ficos sobre la forma
o periodicidad de la señal de entrada podemos suponer que cuando la señal este cerca de
−A, es decir en un mı́nimo, no queremos que halla eventos. Por lo tanto a la probabilidad
F (u − A) le restamos la probabilidad F (u + A), quedando ası́ la cantidad:

Ay (σ) = F (u − A) − F (u + A) (5)

En la figura 22 se puede observar un esquema que representa este cálculo. F (u − A esta


representado por el área sombreada de la izquierda, y F (u + A) por la de la derecha. Si
efectuamos la resta, vemos que lo que se obtiene es una porción fija sobre la densidad de
probabilidad. Es decir, si variamos la intensidad de ruido σ el área cambiará, pero los lı́mites
donde se contabiliza el área no. Para σ muy pequeño, la magnitud Ay (σ tiende a cero, y
también para σ tendiendo a infinito.
Para comparar este acercamiento teóricop con una medida de una simulación, el autor
propone utilizar la siguiente magnitud: Py = Sy (ω0 ) − N (ω0 . Donde Sy (ω) es la densidad
espectral de la salida y(t). N (ω) es la densidad espectral de la salida, pero sin estimulo x(t),
es decir, son los saltos espontáneos de 0 a 1 dados sólo por el ruido. De esta manera la
probabilidad Ay es proporcional a la magnitud Py . En la figura 23 se puede ver el resultado
teórico y el resultado de las simulaciones. Se puede ver un ajuste casi perfecto entre el
modelo y los datos simulados. La constante de proporcionalidad fue de 0.25.
38 Aproximación teórica para un sistema umbral

u
A
−A

0 0.5 1 1.5 2
Tiempo [ms]

0.4
0.3
f(ξ)

0.2
0.1
0
u−A u u+A
ξ

Figura 22: Esquema representando la probabilidad de que halla un evento de la ecuación 5. Cuando
la señal está en un máximo hay una alta probabilidad de que halla un evento, dada por el área
sombreada de la densidad que queda por en sima del umbral. Cuando la señal está en un mı́nimo se
quieren evitar que halla en eventos, también dados por el área sombreada. Al computar la probabilidad
total se ve que lo que queda es una porción fija sobre la densidad de probabilidad. No depende de σ

0.08

0.07

0.06

0.05
Py(σ)

0.04

0.03

0.02

0.01

0
0 5 10 15 20
σ

Figura 23: Magnitud Py versus σ. Los puntos rojos muestran el resultado de la simulación y la
curva azul el modelo teórico de la ecuación 5. Constante de proporcionalidad entre Py y Ay , 0.25.
Código generador de una vocal sintética 39

B. Código generador de una vocal sintética


Código en matlab para la generación del estı́mulo tipo vocal usando en la sección 3.2 y
3.3.

function [x,B,A]=vocalsintetica(f0,F,Bw,Ttotal,fs)

% f0 = 100; % Frecuencia fundamental (Hz)


% F = 400; % Frecuencias formantes (Hz)
% BW = 80; % Ancho de banda de las formantes (Hz)
% fs = 100000; % Frecuencia de sampleo (Hz)
% Ttotal = 1; % Tiempo total del esimulo (s)

R = exp(-pi*Bw/fs); % Radio de los polos


theta = 2*pi*F/fs; % Ángulo de los polos
j=complex(0,1);
poles = R .* exp(j*theta); % Polo complejo

B = 1; %Coeficiente B del filtro


A = real(poly([poles,conj(poles)])); %Coeficiente A del filtro

nsamps = Ttotal*fs;
w0T = 2*pi*f0/fs;

%Se genera un tren de pulsos limitado en frecuencia

nharm = floor((fs/2)/f0); % Numero de armónicos


sig = zeros(1,nsamps);
n = 0:(nsamps-1);

for i=1:nharm,
sig = sig + cos(i*w0T*n);
end

%se normaliza el tren de pulsos y se lo filtra con los coeficientes A y B

sig = sig/max(sig);
x = filter(B,A,sig);
40 REFERENCIAS

Referencias
[1] E. de Boer. On the ’Residue’ in Hearing. PhD thesis, Amsterdam, 1956.

[2] A.R. Bulsara and A. Zador. Threshold detection of wideband signals: A noise-induced
maximum in the mutual information. Physical Review E, 54(3):2185–2188, 1996.

[3] P. Cariani, M. Tramo, and B. Delgutte. Neural representation of pitch through temporal
autocorrelation. PREPRINTS-AUDIO ENGINEERING SOCIETY, 1998.

[4] P. A. Cariani and B. Delgutte. Neural correlates of the pitch of complex tones. I. Pitch
and pitch salience. J Neurophysiol, 76(3):1698–1716, 1996.

[5] Robert P. Carlyon and Trevor M. Shackleton. Comparing the fundamental frequencies
of resolved and unresolved harmonics: Evidence for two pitch mechanisms? The Journal
of the Acoustical Society of America, 95(6):3541–3554, 1994.

[6] Dante R. Chialvo. How we hear what is not there: A neural mechanism for the miss-
ing fundamental illusion. Chaos: An Interdisciplinary Journal of Nonlinear Science,
13(4):1226–1230, 2003.

[7] Dante R. Chialvo, Oscar Calvo, Diego L. Gonzalez, Oreste Piro, and Guillermo V.
Savino. Subharmonic stochastic synchronization and resonance in neuronal systems.
Phys. Rev. E, 65(5):050902, May 2002.

[8] D.R. Chialvo, A. Longtin, and J. M


üller-Gerking. Stochastic resonance in models of neuronal ensembles. Physical Review
E, 55(2):1798–1808, 1997.

[9] JJ Collins, C.C. Chow, A.C. Capela, and T.T. Imhoff. Aperiodic stochastic resonance.
Physical Review E, 54(5):5575–5584, 1996.

[10] E.M. Cramer and WH Huggins. Creation of pitch through binaural interaction. J
Acoust Soc Am, 30:413–417, 1958.

[11] P. Dayan, L.F. Abbott, and L. Abbott. Theoretical neuroscience: Computational and
mathematical modeling of neural systems. MIT Press, 2001.

[12] A. de Cheveigné and D. Pressnitzer. The case of the missing delay lines: Synthetic delays
obtained by cross-channel phase interaction. The Journal of the Acoustical Society of
America, 119:3908, 2006.

[13] V. M. Eguı́luz, M. Ospeck, Y. Choe, A. J. Hudspeth, and M. O. Magnasco. Essential


nonlinearities in hearing. Phys. Rev. Lett., 84(22):5232–5235, May 2000.

[14] L. Gammaitoni. Stochastic resonance and the dithering effect in threshold physical
systems. Physical Review E, 52(5):4691–4698, 1995.
REFERENCIAS 41

[15] Guadalupe Clara Garcı́a. Modelo de la periferia auditiva. PhD thesis, UBA. Departa-
mento de Fı́sica, 2008.

[16] AJM Houtsma and JL Goldstein. The central origin of the pitch of complex tones:
Evidence from musical interval recognition. J. Acoust. Soc. Am, 51(2 Part 2):520–529,
1972.

[17] P. Jung. Stochastic resonance and optimal design of threshold detectors. Physics Letters
A, 207(1-2):93 – 104, 1995.

[18] J. C. R. Licklider. A duplex theory of pitch perception. The Journal of the Acoustical
Society of America, 23(1):147–147, 1951.

[19] A. Longtin, A. Bulsara, and F. Moss. Time-interval sequences in bistable systems and
the noise-induced transmission of information by sensory neurons. Physical Review
Letters, 67(5):656–659, 1991.

[20] S.B. Lowen and M.C. Teich. The periodogram and Allan variance reveal fractal expo-
nents greater than unity in auditory-nerve spike trains. The Journal of the Acoustical
Society of America, 99:3585, 1996.

[21] R. Meddis and L.P. O’Mard. Virtual pitch in a computational physiological model.
The Journal of the Acoustical Society of America, 120:3861, 2006.

[22] Ray Meddis and Michael J. Hewitt. Virtual pitch and phase sensitivity of a computer
model of the auditory periphery. i: Pitch identification. The Journal of the Acoustical
Society of America, 89(6):2866–2882, 1991.

[23] B. C. J Moore and B. R. Glasberg. Effects of the relative phase of the components
on the pitch discrimination of complex tones by subjects with unilateral and bilateral
cochlear impairments, pages 421–430. London Academic Press, 1988.

[24] B.C.J. Moore. An introduction to the psychology of hearing. Emerald Group Pub Ltd,
2003.

[25] B.C.J. Moore, K. Hopkins, and S. Cuthbertson. Discrimination of complex tones with
unresolved components using temporal fine structure information. The Journal of the
Acoustical Society of America, 125:3214, 2009.

[26] Geoffrey A. Moore and Brian C. J. Moore. Perception of the low pitch of frequency-
shifted complexes. The Journal of the Acoustical Society of America, 113(2):977–985,
2003.

[27] Frank Moss, Lawrence M. Ward, and Walter G. Sannita. Stochastic resonance and
sensory information processing: a tutorial and review of application. Clinical Neuro-
physiology, 115(2):267 – 281, 2004.
42 REFERENCIAS

[28] M. M
üller and D. Robertson. Relationship between tone burst discharge pattern and sponta-
neous firing rate of auditory nerve fibres in the guinea pig. Hearing research, 57(1):63–
70, 1991.

[29] R. Nobili and F. Mammano. Biophysics of the cochlea II: Stationary nonlinear phe-
nomenology. Journal of the Acoustical Society of America, 99(4):2244–2255, 1996.

[30] C.J. Plack, A.J. Oxenham, R.R. Fay, and A.N. Popper. Pitch: neural coding and per-
ception. Springer Verlag, 2005.

[31] D. Pressnitzer, A. de Cheveigné, and I.M. Winter. Perceptual pitch shift for sounds
with similar waveform autocorrelation. Acoustic Research Letters Online, 3:1–6, 2002.

[32] J. F. Schouten, R. J. Ritsma, and B. Lopes Cardozo. Pitch of the residue. The Journal
of the Acoustical Society of America, 34(9B):1418–1424, 1962.

[33] S. Shamma and D. Klein. The case of the missing pitch templates: how harmonic
templates emerge in the early auditory system. The Journal of the Acoustical Society
of America, 107:2631, 2000.

[34] NG Stocks. Suprathreshold stochastic resonance in multilevel threshold systems. Phys-


ical Review Letters, 84(11):2310–2313, 2000.

[35] NG Stocks. Information transmission in parallel threshold arrays: Suprathreshold


stochastic resonance. Physical Review E, 63(4):41114, 2001.

[36] E. Terhardt. Zur Tonh


.ohenwahrnehmung von Kl
.angen. II. Ein Funktionsschema. Acustica, 26:187–199, 1972.

[37] R.A. Wannamaker, S.P. Lipshitz, and J. Vanderkooy. Stochastic resonance as dithering.
Physical Review E, 61(1):233–236, 2000.

[38] W.A. Yost, R. Patterson, and S. Sheft. The role of the envelope in processing iterated
rippled noise. The Journal of the Acoustical Society of America, 104:2349, 1998.
Epilogo
Para la madre que me parió, las abuelas que me alimentan, los abuelos que cuentan
historias, y la familia que acompaña.
Gracias a los docentes que dan respuesta a las inquietudes y por su aporte en la educación
pública. Gracias a Manuel y los jurados por ayudarme a mejorar y corregir este trabajo.
Gracias a toda la tropa de Varela, su compañı́a ameniza con mucha onda el trabajo de
todos los dı́as.
Agradecimientos especiales a todos los que me empujan, dan una mano y motivan mi
cerebro todos los dı́as. Marti y Juli, Fran, Agos, Andi, Enzo, Fede, Mati, los Helmut, Javi
y la gente linda de la facu.
Anattā!

Vous aimerez peut-être aussi