Académique Documents
Professionnel Documents
Culture Documents
7 de noviembre de 2016
Contacto: luiscolo12@gmail.com
El curso Acústica Musical puede ser seguido on-line en: Acústica Musical
i
Índice general
Prólogo VII
2. La señal de audio 16
2.1. Representación del sonido . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Un ejemplo de registro digital . . . . . . . . . . . . . . . . . . . . . 18
2.3. El editor de sonido . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4. El osciloscopio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4. El sonido simple 43
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2. El sonido simple como fundamento del sonido musical . . . . . . . . 44
4.3. El Movimiento Armónico Simple (MAS) . . . . . . . . . . . . . . . 47
ii
4.3.1. Un ejemplo de Movimiento Armónico Simple . . . . . . . . . 47
4.3.2. Parámetros del Movimiento Armónico Simple . . . . . . . . 51
4.4. El Movimiento Armónico Simple en el sonido . . . . . . . . . . . . . 53
4.4.1. Parámetros del sonido simple . . . . . . . . . . . . . . . . . 53
4.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
iii
6.7. Mezcla de dos sonidos simples cuyas frecuencias se alejan un poco
de la conmensurabilidad próxima: Batidos de segundo orden . . . . 103
6.8. Distorsión y componentes espurios en la mezcla de dos sonidos simples106
6.9. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
iv
9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
9.2. Envolvente de amplitud general . . . . . . . . . . . . . . . . . . . . 177
9.3. Envolventes de amplitud parciales . . . . . . . . . . . . . . . . . . . 181
9.4. Envolvente de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . 186
9.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
v
12.3.3. El órgano de Corti . . . . . . . . . . . . . . . . . . . . . . . 252
12.3.4. El ganglio espiral . . . . . . . . . . . . . . . . . . . . . . . . 257
12.4. La cóclea como analizador mecánico de frecuencias . . . . . . . . . 259
12.4.1. Tonotopı́a de la membrana basilar . . . . . . . . . . . . . . . 260
12.4.2. Comportamiento de la membrana basilar ante un sonido
complejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
12.4.3. Retroalimentación de las células pilosas externas sobre la
membrana basilar . . . . . . . . . . . . . . . . . . . . . . . . 266
12.5. Transducción mecano-eléctrica en la cóclea . . . . . . . . . . . . . . 267
12.6. Codificación de la información sonora en impulsos eléctricos . . . . 271
12.7. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
Bibliografı́a 314
vi
Prólogo
vii
se puede entender razonablemente bien qué es la descomposición espectral sin ne-
cesidad de conocer la formulación matemática de la Transformada de Fourier. Es
verdad que su conocimiento serı́a más profundo y estarı́a mejor expresado si se
utilizara el lenguaje matemático, pero esto sólo serı́a ası́ una vez que se hubieran
entendido las ideas en las que se basa la descomposición espectral. Creo que para
el músico es suficiente con este conocimiento y también que quien está interesa-
do en la fı́sica del sonido, sin un especial interés musical, le puede venir muy bien
observar y experimentar muchos fenómenos que luego podrán ser formalizados ma-
temáticamente. Por ello en este curso voy a procurar explicar todas las ideas de la
manera más intuitiva posible. Pienso que, armados solamente con el sentido común
y con la ayuda de abundantes gráficas y vı́deos que nos permitan relacionar lo que
oı́mos con lo que vemos, podremos entender las principales nociones de acústica
musical.
Por todo ello este curso va a utilizar con mucha frecuencia vı́deos, la mayor parte
de los cuales han sido elaborados a partir de imágenes obtenidas mediante Matlab.
Estos vı́deos van a servir como una suerte de laboratorio de acústica y van a
permitir experimentar de primera mano todo lo que se explica en el texto. En
ellos me he esforzado en mostrar la relación entre lo que se ve y lo que se oye.
Ası́ pues, espero que los conceptos más importantes de acústica musical queden
afianzados con ayuda de las imágenes de estos vı́deos, que presentan gráficamente
cómo es la naturaleza del sonido y la manera en la que nosotros percibimos sus
parámetros.
Los distintos capı́tulos de este curso de acústica musical recorren el amplio camino
que va desde la explicación de la naturaleza vibratoria del movimiento mecánico
que origina el sonido y el modo en el que se trasmite, con sus parámetros de fre-
cuencia, amplitud, periodo y fase, hasta las peculiaridades de la voz musical, es
decir, el movimiento que transcurre interválicamente de una a otra altura tonal
y que da lugar a la melodı́a, pasando por la explicación de fenómenos acústicos
de especial relevancia en la formación del sonido musical, tales como las ondas
estacionarias, la resonancia, los batidos, la consonancia, las envolventes de am-
plitud y de frecuencia, etc. A la vez, se presentan algunas herramientas que nos
permiten observar el sonido musical, tales como el espectrograma y el melograma,
y se proporciona un conocimiento básico sobre cómo funciona nuestra percepción
auditiva.
Pero querrı́a, antes de comenzar, hacer algunas aclaraciones. La primera se refiere
a lo que hay que entender en este curso por “sonido musical”. Si bien es cierto que
la música puede utilizar cualquier tipo de sonido (y no tenemos más que pensar en
las músicas de vanguardia), es necesario aclarar que aquı́ cuando hablo de “sonido
musical” me estoy refiriendo exclusivamente al sonido armónico, es decir, aquél
viii
que posee una altura tonal definida y del que, por lo tanto, podemos decir que es
un re, un fa, un mi, o cualquier otra altura tonal, lo que usualmente llamamos una
nota. No descarto en absoluto la posibilidad de que se pueda utilizar musicalmente
cualquier material sonoro, como hace una parte importante de la música contem-
poránea. Menos todavı́a niego la posibilidad de una música puramente rı́tmica, en
la cual cualquier sonido o ruido puede servir para marcar el tiempo. Sin embargo,
puesto que uno de los objetivos de este curso es proporcionar las bases acústi-
cas convenientes para el estudio de nuestro lenguaje musical estándar, creo que
es oportuno y resulta cómodo restringir la definición de sonido musical al sonido
formado por componentes armónicos.
Lo siguiente que quiero decir es que en este curso me voy a limitar a analizar el
sonido musical desde el punto de vista fı́sico y psicoacústico, sin entrar para nada
en el lenguaje musical. Cualquier sonido obtendrá su valor dentro de una escala o
de un acorde, y allı́ pasará a adquirir un significado por su posición en el sistema
correspondiente. Pero estas cuestiones pertenecen ya a la teorı́a musical, por lo que
aquı́ atenderé únicamente a las caracterı́sticas fı́sicas del sonido y a los aspectos
psicoacústicos de nuestra audición que van a repercutir en la configuración de nues-
tro lenguaje musical. Me voy a centrar en cuestiones como, por ejemplo, en qué
consiste la especificidad del sonido musical o armónico, cuáles son los elementos
básicos de todo sonido musical, qué relación hay entre frecuencia y altura tonal, o
entre amplitud y volumen sonoro, qué razones numéricas deben cumplir los com-
ponentes de los sonidos musicales o armónicos, cómo es posible lograr una buena
afinación —es decir, determinar con precisión las frecuencias de los sonidos—, qué
relación hay entre el hecho fı́sico de la vibración y nuestra forma de percibir los
acontecimientos sonoros, cuáles son los fundamentos fı́sicos de las consonancias, si
los hay, etc.
Y por último, una advertencia para poder apreciar correctamente los ejemplos so-
noros que aparecen en los vı́deos. Es necesario utilizar un sistema de reproducción
sonora que tenga una distorsión razonablemente pequeña. Puede valer un teléfono
móvil, un iPad o cualquier otra tableta con un sistema de audio razonable, pero es
necesario que disponga de un altavoz mı́nimamente decente o, en caso contrario,
los ejemplos deben ser escuchados a través de unos auriculares. Si se reproducen los
vı́deos en un ordenador también es conveniente que tenga unos altavoces de cierta
calidad. La razón es que la distorsión que introduce un sistema sonoro deficiente da
lugar a la aparición de componentes espurios, es decir, componentes que no están
presentes en la señal original. Se producen principalmente dos efectos no deseados
debidos a la distorsión, con posibles repercusiones en la audición de los ejemplos
sonoros. En primer lugar, en el caso de un sonido simple, la distorsión puede añadir
armónicos, produciéndose la llamada “distorsión armónica”, que provocará que no
ix
los oigamos con la pureza con la que debe sonar un sonido simple auténtico (que
deberı́a tener una cualidad sonora similar a la de un diapasón metálico de los uti-
lizados para afinar), sino que escuchemos un sonido más áspero y complejo. En
segundo lugar, en el caso de sonidos compuestos o de las mezclas de sonidos, la dis-
torsión puede provocar la aparición de nuevos componentes, la llamada “distorsión
de intermodulación” y, en especial en los ejemplos de mezclas de sonidos simples,
esta distorsión puede hacer aparecer un nuevo componente grave, precisamente
con una frecuencia que serı́a el resultado de la diferencia entre las frecuencias de
los sonidos mezclados. Algunas leyendas sobre la posibilidad de obtener sonidos
muy graves a partir de los tonos de diferencia son simplemente provocadas por
la distorsión de los equipos de reproducción. Para mitigar este último problema,
cuando he podido, he procurado elegir las frecuencias de los sonidos utilizados en
los ejemplos de tal forma que estos sonidos espurios de diferencia tuvieran una
frecuencia por debajo del lı́mite de graves que un reproductor de audio mediocre
es capaz de dar. Para probar si nuestro equipo distorsiona más de lo aceptable,
podemos atender, por ejemplo, al vı́deo de la figura 9 del capı́tulo 6, en concreto,
cuando se superponen dos sonidos simples cuyas frecuencias están en razón 3/2
(quinta) y 4/3 (cuarta). En ambos casos tenemos que oı́r solamente las dos notas
por separado, de modo que si oı́mos un tercer componente más grave, debemos
atribuirlo a la distorsión de intermodulación provocada por la pobre calidad del
equipo.
Espero que este curso sea de utilidad a todas las personas que se animen a seguirlo.
Mi recomendación es hacer en primer lugar una lectura superficial del capı́tulo
que queramos trabajar, luego atender especialmente a los materiales didácticos y
finalmente repasar de nuevo el texto. Si hay algún profesor que le interese para
sus clases algunos de los vı́deos, puede utilizarlos también con toda libertad y
complementarlos con sus propias explicaciones.
x
Capı́tulo 1
1
no vemos que nada se deforme, no apreciamos que nada se mueva. Ello se debe a
dos peculiaridades de las vibraciones mecánicas que percibimos como sonido.
La primera es que las amplitudes de las vibraciones sonoras son, en general, muy
pequeñas. Por poner un ejemplo, la variación de la presión sonora en una calle
con un tráfico moderado, debida al ruido de los coches y de los transeúntes, es
aproximadamente una millonésima parte de la presión media del aire.
La segunda es que las vibraciones sonoras son muy rápidas para ser seguidas por
nuestra vista. Nosotros sólo percibimos como sonidos las vibraciones mecánicas
que se producen dentro de un margen temporal adecuado a nuestra percepción, en
concreto, aquéllas que realizan una oscilación completa en un rango que va desde
unas 20 veces por segundo hasta unas 20.000 veces por segundo.
Para obtener una imagen intuitiva de la vibración sonora, podrı́amos imaginar el
aire como si estuviera formado por pequeñas bolitas o esferitas unidas por diminu-
tos muellecillos, unas esferitas que estarı́an igualmente espaciadas en su posición
de equilibrio y que osciları́an siguiendo el movimiento de la fuente sonora.
Este modelo es apropiado para simular las variaciones de la presión del aire que
constituyen el sonido. El hecho de que las esferitas se aproximen entre sı́ se co-
rresponde con un aumento de la densidad del aire y, por lo tanto, de la presión,
mientras que el que se alejen unas de otras representa la rarefacción y la dis-
minución de la presión del aire. Los muellecillos simulan la posibilidad de todo
medio elástico de ser deformado, ası́ como su tendencia a recuperar la posición de
equilibrio.
Utilizando este modelo de las esferitas y los muelles, he confeccionado varios vı́deos
didácticos, cuyos fotogramas han sido generados con Matlab. Estos vı́deos nos
ayudarán a asimilar los principales conceptos implicados en la vibración sonora,
los cuales son estudiados en los apartados “Simulación de la vibración del aire en
un sonido simple” y “Simulación de la vibración del aire en un fragmento sonoro
complejo”. Espero que esta forma de representación resulte útil para entender en
qué consiste la vibración del sonido y cómo se transmite por el aire el movimiento
vibratorio desde la fuente sonora hasta nuestros oı́dos.
2
sin armónicos. El vı́deo sigue el modelo del aire formado por una serie de bolitas y
muellecillos que se desplazan cuando cambia la presión del aire como consecuencia
de la vibración sonora.
El vı́deo representa la vibración del aire cuando suena la nota la4 generada artifi-
cialmente, cuya frecuencia es de 440 Hz. He elegido para este ejemplo un sonido
simple porque, al ser su movimiento vibratorio muy sencillo y repetitivo, nos va a
permitir observar con facilidad los rasgos caracterı́sticos de toda vibración sonora y
de su propagación. He ralentizado el movimiento 440 veces y he amplificado mucho
el desplazamiento de cada esferita para que se pueda apreciar la vibración con faci-
lidad. El sonido del vı́deo, sin embargo, corresponde a la nota la4 tal cual, es decir,
sin ralentizar, por lo que la finalidad del sonido es meramente ilustrativa.
Figura 1.1: Vı́deo que modeliza, ralentizada 440 veces, la vibración del aire ocasionada
por la nota musical simple la4 .
3
distancia, un altavoz potente está emitiendo la nota musical la4 que acabamos de
oı́r. Suponemos también que la nota está ya sonando de una forma estable cuando
el vı́deo se inicia.
Cada esferita del vı́deo representa un volumen esférico de aire de 2,8 cm de radio.
En su posición de equilibrio la distancia entre los centros de estas esferas es de 9,69
cm. He elegido esta distancia para que la longitud de onda del sonido analizado
abarque un número entero de esferitas en nuestra simulación.
Ya que la propagación de la vibración se realiza de izquierda a derecha, en el vı́deo
los muellecillos sólo unen las esferitas en el sentido longitudinal. Esta es también
la razón de que las esferitas que se mueven sincronizadamente estén agrupadas en
paneles paralelos a las caras laterales del cubo.
Debemos suponer que la vibración que vemos en esta simulación está siendo pro-
vocada por la masa de aire que se encuentra a la izquierda del cubo, la cual, a su
vez, está siendo movida por el cono del altavoz que está emitiendo la nota musical
la4 . Cuando el cono del altavoz se desplaza a la derecha, desplaza a la derecha la
masa de aire que está en contacto inmediato con él, con lo que éste se comprime.
Cuando se comprime, su densidad aumenta y, por lo tanto, la presión que ejerce
sobre lo que le rodea se hace más elevada. Ello hace que, a su vez, pero con un
cierto retraso, desplace y comprima el aire que sigue a continuación, y ası́ sucesiva-
mente. Cuando el cono del altavoz se desplaza hacia la izquierda, el vacı́o que deja
atrae el aire de sus inmediaciones, con lo que su densidad disminuye y su presión
desciende. Esta disminución de la presión provoca, a su vez, la atracción del aire
vecino.
4
aire, constituyen un movimiento ondulatorio, que es la manera en la que se propaga
el sonido desde la fuente sonora hasta nuestros oı́dos.
En efecto, distinguimos varias áreas donde los paneles de esferitas progresivamente
se amontonan, dando una sensación de mayor densidad o, lo que viene a ser lo
mismo, de mayor presión. Estas áreas de mayor densidad parecen surgir de la cara
lateral izquierda del cubo, viajar de izquierda a derecha y desaparecer por la cara
lateral derecha. Cada una de estas condensaciones que surge deja a su paso otra
zona donde los paneles de esferitas se van separando y en la que, por lo tanto, la
densidad y la presión del aire serán menores.
Podemos ver en el vı́deo que estas condensaciones se renuevan una vez por se-
gundo. En efecto, cada segundo parece surgir de la cara izquierda del cubo una
nueva condensación, por lo que la frecuencia de las ondulaciones que apreciamos
en este vı́deo es de 1 Hz. Teniendo en cuenta que en él se representa el movimiento
vibratorio ralentizado 440 veces, la frecuencia real con la que se renuevan estas
zonas de presión en el aire será de 440 veces por segundo, lo que coincide con la
frecuencia de la nota musical que está sonando, un la4 de 440 Hz.
Si midiéramos con exactitud, mediante un editor de vı́deo u otro programa similar,
el tiempo que tarda cada una de las condensaciones en recorrer el cubo, verı́amos
que es de 2,58 segundos. Como el lado del cubo representado mide 2 metros, en
un segundo cada condensación recorrerá 0,775 metros (2 ÷ 2, 58 = 0, 775). Como
la realidad es 440 veces más rápida, la velocidad real en la que se propagarı́a la
perturbación serı́a de 341 m/s (0, 775 × 440 = 341), lo cual es coherente con la
velocidad de propagación del sonido en el aire.
Sin embargo, si nos fijamos en cada una de las esferitas nos daremos cuenta de
que no se van desplazando indefinidamente hacia la derecha, sino que tienen úni-
camente un movimiento oscilatorio horizontal en torno a su posición de equilibrio:
sólo se mueven realizando un sencillo vaivén de izquierda a derecha y de derecha
a izquierda, en un rango muy reducido de desplazamiento respecto a su posición
central. Y lo mismo ocurre con los paneles en los que se agrupan.
Además, si observamos con un poco de detenimiento varias esferitas elegidas al
azar podremos comprobar que todas ellas realizan el mismo movimiento. Unas se
mueven antes y otras después en función del panel en el que se encuentran, pero
todas las esferitas del cubo oscilan exactamente de la misma manera.
5
Dado que en nuestra simulación hemos elegido un sonido simple, el movimiento de
cada esferita es un sencillo vaivén. Este sencillo vaivén repite el movimiento que
ha efectuado el cono del altavoz al emitir el sonido.
Para observar con detalle el movimiento de una esferita cualquiera he realizado un
vı́deo en el que aparece la oscilación de una esferita del cubo aislada, ralentizada
ahora 880 veces, es decir, el doble que en el vı́deo de la figura 1.1. Conforme va
oscilando se va dibujando la forma de su movimiento en el tiempo.
Tiempo
Desplazamiento
Figura 1.2: Vı́deo con el movimiento de oscilación de una esferita cualquiera del cubo
de la figura 1, ralentizado 880 veces.
6
Observamos que la esferita tarda 2 segundos en realizar una oscilación completa.
Esta duración es el periodo de oscilación de la esferita que vemos en la pantalla.
Como el vı́deo está ralentizado 880 veces, el periodo real de la oscilación de este
sonido será de 2,3 milésimas de segundo (2 ÷ 880 = 0, 0023).
Visto de otra manera, en un segundo la esferita de este vı́deo realiza media osci-
lación completa. Eso quiere decir que su frecuencia de oscilación es de 0,5 Hz. Al
estar ralentizado 880 veces, la frecuencia real de la oscilación es de 440 Hz, que
es la frecuencia de vibración del la4 que está sonando. Comprobamos, ası́ pues,
que la frecuencia de oscilación de las esferitas es la misma que la frecuencia del
movimiento ondulatorio de propagación, es decir, la frecuencia con la que se re-
nuevan las condensaciones en un punto del espacio que hemos visto en el apartado
anterior.
Al oı́r la palabra ondulación nos viene enseguida a la mente la imagen de las olas del
mar o la de los cı́rculos concéntricos que surgen en un estanque de agua al arrojar
una piedra. Pero en nuestra simulación no vemos nada que ondule, nada que tenga
la forma de una onda; a lo más, intuimos un cierto carácter ondulatorio en la su-
cesión de condensaciones y rarefacciones. Ello se debe a que las ondas mediante
las que se propaga el sonido son ondas de presión longitudinales, mientras
que las ondas del estanque o del mar son principalmente transversales.
Voy a explicar a continuación cómo son las ondas longitudinales mediante las que se
propaga el sonido. Veremos cómo surgen las ondas sonoras a partir del movimiento
individual de oscilación, que reproduce la oscilación de la fuente sonora, y de la
elasticidad del medio, en este caso, el aire. Comprenderemos, ası́ mismo, que como
consecuencia de la elasticidad del medio, la forma de la onda en el espacio
es la misma que la forma de la oscilación de la fuente sonora en el
tiempo.
En términos de nuestra simulación, vamos a estudiar cómo a partir del movimien-
to oscilatorio de cada una de las esferitas se genera el movimiento ondulatorio
mediante el que se propaga la perturbación.
Para ello he fabricado un vı́deo con una fila aislada del cubo de la figura 1.1, en el
que las esferitas aparecen oscilando, pero ahora con el movimiento ralentizado 880
veces. La oscilación de cada una de las esferitas se va dibujando en el tiempo con
trazos de ocho colores distintos. La lı́nea ondulada verde que aparece por encima
y por debajo de las esferitas indica la variación de la presión del aire a lo largo del
espacio.
7
Tiempo
Espacio
Analicemos con un poco de detenimiento lo que vemos en este vı́deo y lo que sucede
en la realidad que simula.
Podemos apreciar con claridad que la oscilación de cada una de las esferitas se
realiza en la misma dirección que la propagación de las perturbaciones, en este caso,
de izquierda a derecha. Por eso los desplazamientos individuales de las esferitas, al
oscilar en torno a su posición de equilibrio, se camuflan en el movimiento general
de propagación, lo que explica que en el cubo del aire vibrando de la figura 1.1 no
se observe ninguna forma ondulada en el espacio.
En la realidad, los pequeñı́simos desplazamientos del aire, representados por la
oscilación de las esferitas, oscilan en la misma dirección en la que se propaga el
sonido por el espacio, repitiendo el movimiento de la fuente sonora. Este tipo de
ondas se llaman longitudinales y mediante ellas se propaga el sonido.
8
b) Los desfases provocados por la elasticidad transforman los desplazamientos oscila-
torios del aire en oscilaciones de la presión
Tiempo
Figura 1.4: Vı́deo con la oscilación de las dos primeras esferitas y la evolución de sus
distancias.
9
Podemos apreciar en este nuevo vı́deo cómo la evolución en el tiempo del grado
de compresión o elongación del muelle reproduce, aunque desfasada, la forma y
el ritmo de la oscilación de las esferitas individuales. En este caso, como estamos
analizando un sonido simple, ambas oscilaciones tienen la forma de una sucesión
de eses, que repiten la oscilación de la fuente sonora.
En efecto, en la vibración real la presión del aire en cualquier punto del espacio
oscila con la misma forma y ritmo que los pequeñı́simos desplazamientos de aire
provocados por la oscilación de la fuente sonora.
c) La onda que se desplaza por el espacio tiene la misma forma que la oscilación en el
tiempo
10
Podemos observar también en este vı́deo que la secuencia de separaciones entre
las esferitas se va desplazando por el espacio. Lo que se desplaza a lo largo del
espacio no son las esferitas, que sólo tienen un pequeño movimiento oscilatorio,
sino el patrón de proximidad y lejanı́a entre ellas. Lo mismo sucede en la vibración
real, donde lo que se desplaza no son las masas de aire, sino la onda de presión y
con ella la información que lleva implı́cita, que no es otra sino la información de
la fuente sonora.
d) En un sonido simple la onda de presión del aire tiene forma de ese y una longitud
definida
11
Para apreciar mejor la forma de la onda en el espacio en este sonido simple, presento
una instantánea de la cara frontal del cubo de la figura 1.1, en la que he trazado la
gráfica de la presión del aire. He teñido cada esferita siguiendo la misma serie de
colores del vı́deo de la figura 1.3, lo que facilita el reconocimiento del patrón.
Figura 1.5: Cara frontal del cubo con la gráfica de la onda de presión en el espacio.
12
supuesto es de 341 m/s, la longitud de onda será de 77,5 cm ((2 ÷ 880) × 341 =
0, 775) , lo que coincide con la medida que hemos obtenido a partir de esta figura
1.5.
Figura 1.6: Vı́deo que modeliza, ralentizada 440 veces, la vibración del aire ocasiona-
da por un fragmento de 27 milésimas de segundo del inicio de la Quinta Sinfonı́a de
Beethoven.
13
Si nos fijamos en el movimiento de oscilación de la esferita más iluminada, no
encontramos nada parecido al sencillo vaivén del vı́deo que simula un sonido simple.
En efecto, en el caso de un fragmento sonoro real, con toda su complejidad, los
pequeñı́simos desplazamientos de aire no consisten ya en una simple oscilación de
tipo pendular que se repite una y otra vez, sino que se trata de una oscilación
bastante más compleja, que se va transformando con el transcurso del tiempo.
Además, y como consecuencia de ello, tampoco la onda de presión en el espacio
tendrá una forma fija, sino que irá cambiando constantemente. Por eso, conceptos
como periodo y frecuencia de la oscilación o longitud de onda ya no serán tan
evidentes.
Pero, lo esencial de todo movimiento ondulatorio se cumple también en el caso de
cualquier sonido complejo, sea o no musical.
Dado que en ambas simulaciones hemos supuesto las mismas condiciones para el
aire, podemos apreciar que en los dos casos el retraso ocasionado por la elasticidad
de los muellecillos es el mismo y, en consecuencia, la velocidad con la que se
propagan las perturbaciones es también igual.
Y lo que es más importante, aunque el movimiento de oscilación sea complejo,
observamos que también ahora todas las esferitas del cubo repiten, cada una con su
retraso, el mismo movimiento, el movimiento que está inducido por la fuente. Esto
nos ilustra sobre lo que ocurre en la vibración del aire. En el aire la oscilación de
la presión en cualquier punto del espacio repite, con su correspondiente
desfase en función de la lejanı́a, las variaciones de la presión originadas
por la fuente sonora al emitir cualquier sonido.
Ası́ mismo, vemos que también en el caso de un fragmento sonoro complejo, la
secuencia de distancias entre las esferitas reproduce la forma de la oscilación de
cada una de ellas. En lo que concierne al aire, la onda de presión a lo largo del
espacio adquiere la misma forma que la oscilación de la presión en un punto a lo
largo del tiempo.
1.4. Conclusión
Mediante la simulación por ordenador de la vibración sonora en el aire, hemos
experimentado qué significa que el sonido sea una vibración mecánica que se pro-
paga por un medio elástico. Hemos visto que el movimiento oscilatorio de la fuente
sonora, sea simple o complejo, se repite en cualquier punto del medio elástico por
el que se propaga, dando lugar a oscilaciones de la presión. Ası́ mismo, hemos
comprendido cómo en la transmisión del movimiento oscilatorio se generan ondas
14
de presión que toman la misma forma que la oscilación de la fuente. En conse-
cuencia, podemos concluir que la información sonora está contenida tanto en la
oscilación de la presión en cualquier punto del espacio, como en las formas que va
adquiriendo la onda al propagarse.
15
Capı́tulo 2
La señal de audio
16
la superficie de un cilindro que rotaba. De esta manera, la huella de la vibración
quedaba registrada.
17
simples. Por ejemplo, amplificar un sonido consiste en multiplicar cada una de
sus muestras por una cantidad constante; para mezclar dos grabaciones digitales
sólo hay que sumar los valores correspondientes de cada una de sus muestras, etc.
Además, la señal digital de audio, al tratarse solamente de una lista de números,
no se pierde ni se deteriora por muchas veces que sea reproducida. Y a partir de esa
lista de números se pueden generar con facilidad gráficas e imágenes que facilitan
la observación y el estudio de los sonidos.
18
Supongamos que queremos registrar y guardar en un archivo de ordenador los com-
pases iniciales de la Quinta Sinfonı́a de Beethoven interpretada por una orquesta
cualquiera en un dı́a cualquiera. Los números obtenidos —es decir, las medidas o
muestras que resulten de digitalizar la oscilación de la presión del aire en torno a
su valor medio en el lugar en el que hayamos colocado el micrófono— constituirán
la señal de audio digital de esta interpretación concreta. Y esta lista de números
será el archivo de sonido que guardaremos en el ordenador.
Para ilustrar cómo surge la señal de audio digital a partir de la vibración sono-
ra, he fabricado un vı́deo con imágenes obtenidas mediante Matlab. En el vı́deo
se simula, a cámara lenta, el movimiento arriba y abajo de la membranita del
micrófono, provocado por la variación de la presión del aire en el punto donde
se halla colocado, cuando suena un pequeñı́simo fragmento del inicio de la Quinta
Sinfonı́a de Beethoven. El resultado de ese movimiento se va dibujando en el panel
de la izquierda, dibujo que da lugar a la señal analógica de ese fragmento. En el
panel de la derecha va apareciendo el valor numérico de las muestras que se van
obteniendo, es decir, lo que constituye la señal digital.
El movimiento que apreciamos en el vı́deo está ralentizado 1.000 veces. Aunque
el sonido es meramente ilustrativo, hay que tener en cuenta que el movimiento
de la membrana, el dibujo de la señal y el valor numérico de las muestras que
aparecen en el vı́deo se corresponden a las 20 primeras milésimas de segundo de
esa grabación concreta de la interpretación de esta sinfonı́a de Beethoven realizada
por esa orquesta en ese momento.
19
El espacio de color azul viene a representar el interior de la cápsula del micrófono,
mientras que la raya horizontal de color amarillo que se desplaza arriba y abajo es
la membranita del micrófono que se mueve dentro de la cápsula, aunque la medida
real del desplazamiento de la membranita por la cápsula del micrófono serı́a de
unos pocos micrómetros.
La señal analógica es la gráfica de color blanco que se dibuja desde la cápsula del
micrófono como consecuencia de la transformación de la oscilación de la presión
del aire en oscilación de la tensión eléctrica. Las pequeñas cruces verdes que están
sobre esta gráfica de la señal representan los puntos en los que se van tomando las
muestras para la digitalización. Estas muestras se toman a intervalos de tiempo
iguales, lo que se llama la frecuencia de muestreo, que en este caso ha sido de
25.000 muestras por segundo.
Esas mediciones van apareciendo en el recuadro de la derecha. Si detenemos el
vı́deo en un instante cualquiera, podemos comprobar que el último número que
aparece, el situado en la parte superior de la lista, corresponde a la posición de
la membranita en ese momento. La lista de todas estas muestras numéricas es la
señal digital de este fragmento sonoro. Estos números se pueden almacenar en un
archivo de ordenador, de modo que el sonido quede registrado.
Si continuáramos digitalizando el sonido de la Sinfonı́a completa a tiempo real
y guardáramos la enorme lista de números, sin alteración alguna, obtendrı́amos
exactamente esa interpretación concreta, tal como fue recogida por el micrófono.
Y lo más interesante es que si conserváramos esa lista de números, no ya en un
ordenador o en un CD, sino, por poner un ejemplo disparatado, uno detrás de otro
en un papel, tendrı́amos exactamente la grabación original, sin que se perdiera
nada de ella.
A partir de esta señal digital de audio que puede ser guardada en un archivo del
ordenador es posible reproducir el sonido de esta interpretación. El sistema de
sonido de cualquier ordenador posee un circuito integrado capaz de convertir los
números en variaciones de la tensión eléctrica, un Conversor Digital Analógico
(CDA, o DAC, por sus siglas en inglés). De esa manera se puede recuperar la
misma forma original de la señal analógica. Idealmente, el altavoz al que tenemos
conectado el ordenador vibrará siguiendo la lista de números de la señal de audio
que tenemos almacenada y provocará las mismas oscilaciones de la presión de aire
que habı́an sido registradas.
20
2.3. El editor de sonido
Veamos ahora cómo podemos representar y observar con ayuda de un editor de
sonido la señal digital de ese fragmento sonoro. Existen muchos editores de sonido,
algunos de ellos, como Audacity, de libre distribución. Mediante cualquiera de
ellos podemos trazar, a partir de los números que hemos guardado en el archivo
del ordenador, la gráfica de la señal que hemos registrado.
Abrimos desde el editor de sonido el archivo con la señal de audio digital de ese
fragmento de música. Elegimos una presentación en la que podamos ver todo el
fragmento en una sola pantalla, para lo que, probablemente, necesitaremos hacer
un zoom negativo. Veremos y oiremos algo similar a lo siguiente:
Figura 2.3: Vı́deo con la señal de audio de los compases iniciales de la Quinta Sinfonı́a
de Beethoven.
21
En efecto, con esta presentación no apreciamos el detalle de la vibración sonora,
no podemos ver cómo se ha movido la membrana del micrófono en cada instante,
ni por lo tanto, cómo ha variado la presión del aire que ha hecho que nuestro
tı́mpano vibrara. Esta gráfica consta aproximadamente de 1.000.000 de muestras,
por lo que no podemos ver los detalles. Ahora bien, basta hacer sucesivos zoom
—ahora positivos— en nuestro editor de sonido para acercarnos al interior de la
señal. Obtendremos una gráfica similar a la siguiente:
En esta imagen sı́ podemos observar con bastante detenimiento cómo ha sido la
vibración sonora en un pequeño intervalo temporal. Debido a que la gráfica está
representando solamente 50 milésimas de segundo (en concreto, desde el segundo
2 hasta el segundo 2,05), ahora es posible apreciar con detalle la vibración.
Vemos que esa gráfica va dibujando un movimiento de subidas y bajadas que
oscilan en torno a un valor central. Esta gráfica es el resultado de unir los valores
de cada una de las muestras digitales que han sido tomadas en el momento de la
grabación y que han constituido la señal de audio. Por lo tanto, podemos decir
que la gráfica verde representa la oscilación del valor de la presión del aire en el
punto donde estaba colocado el micrófono.
Si seguimos la forma de la gráfica verde en la pantalla utilizando un dedo o el ratón
del ordenador, nos estaremos haciendo una idea bastante intuitiva, como si fuera
a cámara lenta, de los pequeñı́simos desplazamientos sucesivos que ha realizado la
membrana del micrófono que ha registrado el sonido. Mediante el editor de audio
podemos movernos por las barras de desplazamiento hacia la izquierda y la derecha
22
y recorrer toda la señal, de modo que podemos observar toda la vibración sonora
con el detenimiento que queramos.
2.4. El osciloscopio
Pero lo que realmente nos interesarı́a para estudiar el movimiento vibratorio que
es el sonido serı́a ver con este mismo detalle el dibujo de la señal de audio mientras
oı́mos lo que está representando. Con el editor de sonido podemos conseguir algo
aproximado si hacemos que la ventana en la que se representa la señal se vaya
actualizando conforme la música va sonando. Pero la forma idónea de representar
en vivo las vibraciones sonoras es mediante un osciloscopio.
Un osciloscopio es un instrumento de observación y medición que hace pasar a
tiempo real la señal de audio por una ventana de observación. En Teorı́a de Señal
se llama ventana de observación a la función matemática que recorta un fragmento
de la señal de un determinado tamaño.
Para simular un osciloscopio he realizado un vı́deo en el que podemos ver y escuchar
sincronizadamente la oscilación de los mismos compases iniciales de la Quinta
Sinfonı́a de Beethoven del vı́deo anterior. He elegido una ventana de observación
de 50 milésimas de segundo porque ese tamaño es lo suficientemente corto como
para que se pueda apreciar el detalle de la vibración y lo suficientemente largo
como para permitirnos observar la forma de las oscilaciones.
23
Podemos entender de manera intuitiva en qué consiste un osciloscopio si imagina-
mos que la señal de audio, la gráfica de la vibración, va pasando por delante de
nuestra ventana de observación a la vez que va sonando, entrando por la derecha
y saliendo por la izquierda. Algo ası́ como si tuviéramos la gráfica de la señal de
todo el fragmento sonoro escondida a la derecha de la ventana del osciloscopio
(una ventana en la que caben 50 milésimas de segundo) y la hiciéramos pasar de
derecha a izquierda por delante de nuestra ventana a la misma velocidad con la
que está sonando.
El hecho de ver casi simultáneamente un fragmento de 50 milésimas de segun-
do nos permite estudiar una realidad como la vibración sonora que cambia tan
rápidamente que de otro modo serı́a imposible observar. Mediante esta especie de
osciloscopio digital podremos apreciar la forma de la vibración que está sonando
y su evolución conforme el sonido va cambiando. Podemos parar el vı́deo en cual-
quier momento y analizar la forma de la vibración en las 50 milésimas de segundo
correspondientes al momento en el que lo hemos detenido.
Mediante este vı́deo-osciloscopio podemos apreciar que cuando suena una nota
musical aislada las formas de la vibración tienden a repetirse, lo que nos produce
la impresión de que en ese momento el movimiento de la gráfica se hubiera detenido
o ralentizado. En realidad estamos viendo pasar la gráfica a la misma velocidad que
antes, pero, como las formas de la oscilación se repiten muchas veces con escasas
variaciones, la sensación óptica que obtenemos es más estática.
Esta repetición, unida al ritmo en el que se actualizan los cuadros en el vı́deo y a
la persistencia en nuestra retina de las imágenes, nos produce diferentes ilusiones
ópticas: a veces parece que las formas de la oscilación se dirigieran a la derecha,
otras a la izquierda, otras parecen casi detenerse y en otras ocasiones da la impre-
sión de que se superpusieran dos vibraciones distintas. Pero estas ilusiones ópticas
no nos interesan ahora, pues nuestra atención solamente debe estar dirigida a la
forma de la vibración y a su evolución.
2.5. Conclusión
Al margen de las numerosas utilidades prácticas en los campos del registro, edición
y difusión de las obras musicales o de los acontecimientos sonoros de todo tipo,
la representación digital del sonido ofrece muchas posibilidades para el estudio
acústico. Puesto que la señal de audio digital es una representación fidedigna de
la vibración sonora, a partir de ella podemos obtener con facilidad todo tipo de
gráficas e imágenes que nos ayudarán a entender el sonido y la relación entre
24
los parámetros fı́sicos de la vibración y nuestra percepción. Ası́ mismo, podremos
utilizar técnicas numéricas para extraer la información que contiene.
25
Capı́tulo 3
3.1. Introducción
Imaginemos que hacemos escuchar a un grupo de personas de distintas edades,
culturas y formación musical varios fragmentos sonoros y les pedimos que nos
digan en cada caso cuándo se trata de música y cuándo no. Con independencia de
instrumentos, de afinaciones y escalas o de su procedencia cultural, nadie dudará
en decir si lo que está escuchando es música o no lo es.
En efecto, distinguimos con facilidad los sonidos propios de la música del ruido
que produce un atasco de tráfico, o del murmullo de una fuente de agua, o de
las palabras de una conversación, por poner unos ejemplos. Ciertamente, hay cir-
cunstancias en las que esta distinción no resulta tan obvia, como, por ejemplo,
cuando en una obra musical contemporánea se utilizan los ruidos procedentes de
una fábrica. Pero, al margen de casos similares, todos sabemos reconocer si lo que
está sonando son o no son sonidos musicales.
Ahora bien, ¿en qué consisten estas diferencias que percibimos? ¿Las señales de
audio que contienen información musical tienen alguna particularidad que las ha-
ce distintas de otros tipos de señales sonoras? ¿Por qué el ruido se considera lo
opuesto al sonido musical? Este capı́tulo va a tratar de responder a estas cuestio-
nes, mostrando las peculiaridades que poseen las vibraciones de los sonidos que
consideramos musicales.
26
3.2. Ruido y sonido musical
Habitualmente se contrapone el sonido musical al ruido. Si bien esta oposición es
de gran utilidad para ayudarnos a entender qué es lo especı́fico del sonido musical,
necesitamos precisar antes qué entendemos por sonido musical y en qué sentido
usamos la palabra ruido, pues este término tiene varias acepciones.
Cualquier sonido puede ser utilizado con un propósito musical, como, por ejemplo,
los sonidos de los instrumentos de percusión, los efectos sonoros que se generan en
la música electrónica o los ruidos diversos que se pueden incluir dentro de una obra
de música. Pero por sonido musical, en sentido estricto, vamos a entender
aquı́ solamente aquel sonido en el que podemos identificar una altura
tonal, es decir, aquél del que podemos decir que es un re o un la o cualquier otra
nota.
Por otra parte, en el sentido cotidiano del término, ruido es cualquier sonido no
deseado. Ası́, si el vecino de al lado está escuchando ópera y a mı́ no me apetece
nada oı́r la ópera que pone mi vecino, esa ópera, paradójicamente, es ruido para mı́.
Este es el sentido en el que se utiliza la palabra ruido en acústica ambiental, donde
el objetivo es atenuar las molestias que el sonido indeseado puede ocasionar.
Ası́ mismo, desde el punto de vista de la Teorı́a de la Información, ruido es cual-
quier perturbación en la transmisión del mensaje. Por poner un ejemplo similar al
anterior, si estoy hablando por el móvil en una cafeterı́a en la que está sonando
música a un volumen muy elevado, el sonido de la música, aunque parezca también
paradójico, es un ruido que perturba mi comunicación y que altera la transmisión
de la información al colarse en el canal por el que viaja la conversación.
Aquı́, sin embargo, vamos a usar el término ruido en un sentido distinto. Ruido va
a ser lo opuesto al sonido musical. Ası́ pues, ruido será una masa de sonido
indiferenciado de la que nunca podrı́amos extraer notas musicales indi-
viduales. Del ruido, cómo mucho, podremos decir que es grave o que es agudo o
que predominan en él los tonos medios, pero nunca podremos intuir, ni siquiera
remotamente, una nota musical.
Pero, ¿son tan claras las cosas?, ¿es tan nı́tida esta separación?, ¿qué es el habla,
ruido o sonido musical?, ¿y el sonido de una campana? A continuación inten-
taré responder a estas cuestiones, utilizando una serie de ejemplos que nos van
a permitir comparar por medio del osciloscopio las vibraciones de los sonidos es-
pecı́ficamente musicales con las de otros sonidos que no lo son.
27
3.3. Ruido blanco y sonido simple
Antes de entrar en la observación de señales reales, voy a presentar dos sonidos
generados artificialmente que definen los polos opuestos entre los que se mueven los
sonidos naturales: el ruido blanco y el sonido simple. En un extremo, el ruido blanco
—llamado ası́ por analogı́a con la luz blanca— contiene todas las frecuencias del
espectro con la misma intensidad. En el otro extremo, el sonido simple posee una
sola frecuencia que se mantiene estable durante toda su duración y es el paradigma
del sonido musical.
Para comparar cómo es la forma de la vibración en ambos casos, he construido un
vı́deo en el que se observa en el osciloscopio un fragmento de ruido blanco seguido
de un sonido simple de 440 Hz.
Figura 3.1: Vı́deo que simula un osciloscopio con un fragmento de ruido blanco y otro
de un sonido simple de 440 Hz.
Durante toda la primera parte del vı́deo, cuando suena el ruido blanco, resul-
ta imposible identificar alturas tonales, notas musicales. Aun es más, ni siquiera
podrı́amos responder a la pregunta de si este sonido es agudo o grave. En prin-
cipio, el chisporroteo de la parte aguda es lo que resulta más evidente, pero con
un poco de esfuerzo podemos distinguir también el ronroneo de los graves. Esta
diferencia de apreciación se debe a que nuestro oı́do no responde a todas las fre-
cuencias por igual, sino que es más sensible a la banda situada entre los 2.000 y los
5.000 Hz. Pero, al margen de las irregularidades de nuestra sensibilidad auditiva,
en el vı́deo podemos apreciar que este sonido contiene todas las frecuencias del
espectro audible, de la misma manera que la luz blanca contiene todos los colores
visibles.
28
En la segunda parte del vı́deo, sin embargo, la situación es completamente distinta.
Todos oı́mos una nota musical, en concreto, un la4 afinado a 440 Hz, la nota que
habitualmente sirve de referencia para definir la afinación estándar.
Atendamos ahora a la señal de audio, al dibujo que traza la vibración y que se
observa en el osciloscopio. Cuando suena el ruido blanco la gráfica va cambiando
aleatoriamente a lo largo del tiempo y no hay manera de reconocer en ella ningún
orden. Si paramos el reproductor del vı́deo en un cuadro cualquiera, veremos una
imagen similar a la siguiente:
29
Figura 3.3: Gráfica de la señal de audio de un sonido simple de 440 Hz.
Al ver la gráfica de esta nota simple podemos predecir con total seguridad cómo
va a continuar. Ello se debe a que los valores de las muestras de esta señal han
sido obtenidos mediante una función matemática. Por ello decimos que la señal
de audio de un sonido simple es puramente determinista.
Y, lo que es más importante, en esta gráfica distinguimos que la forma se repite
en intervalos de tiempo exactamente iguales, es decir, existe un periodo de re-
petición. Podemos apreciar que en las 50 milésimas de segundo de la gráfica se
han sucedido 22 oscilaciones completas; en un segundo, por lo tanto, se habrán
producido 440 oscilaciones. Vemos, ası́ pues, que la frecuencia de este sonido, el
número de oscilaciones completas que se producen en un segundo, es de 440 her-
cios. Nos encontramos con un concepto que es esencial al sonido musical:
la periodicidad de la vibración. Esta periodicidad de la vibración es la que
posibilita que nuestro sistema auditivo reconozca una altura tonal, es decir, una
nota musical.
Mediante este vı́deo hemos podido observar las dos referencias extremas de las
señales sonoras: la señal puramente aleatoria, la indeterminación absoluta, por un
lado, y la señal totalmente predecible, la determinista pura, por otro. O, visto de
otra manera, la máxima complejidad, la reunión infinita de todas las frecuencias
audibles posibles, frente a la máxima simplicidad, un sonido con una sola frecuencia
siempre estable.
Pero la realidad no es nunca ni totalmente impredecible ni completamente determi-
nada. Solo en el caso de sonidos generados artificialmente podremos obtener tanto
una máxima predictibilidad como una máxima impredecibilidad. Ambas señales,
el ruido blanco y el sonido simple, son dos formas paradigmáticas de los constitu-
30
yentes que están presentes en la mayorı́a de los sonidos reales, es decir, vienen a
ser las referencias ideales entre las que se mueven los sonidos naturales.
Figura 3.4: Vı́deo que simula un osciloscopio con ruido de tráfico en un dı́a lluvioso,
en la primera parte, y cinco notas de clarinete de la Rapsodia para piano y clarinete de
C. Debussy, en la segunda.
Durante la primera parte, el ambiente sonoro de fondo del tráfico con lluvia nos
recuerda el ruido blanco que hemos oı́do en el vı́deo anterior. Sin embargo, nos
damos cuenta enseguida que ahora tienen más presencia los componentes graves.
Podrı́amos decir, siguiendo la analogı́a de los colores, que esta sonoridad tiende
al rojo, la parte inferior del espectro. Esto es debido a la aportación que hace
el tráfico al sonido de la lluvia. Si detenemos el vı́deo en los segundos iniciales
observaremos una imagen similar a la siguiente:
31
Figura 3.5: Gráfica de la señal de audio de ruido de tráfico con lluvia.
Vemos en esta señal que, igual que en el caso del ruido blanco, ni hay periodicidad
alguna ni resulta posible predecir con seguridad el valor de cualquier muestra a
partir de las que le preceden. Sin embargo, el grado de aleatoriedad es ahora menor,
pues las muestras anteriores sı́ influyen en las posibilidades de la que viene a conti-
nuación. En efecto, en la gráfica podemos apreciar, tomando como referencia una
muestra cualquiera, que los valores más próximos a las muestras inmediatamente
anteriores son más frecuentes que los más alejados. Esto explica que la gráfica, aun
siendo una lı́nea quebrada, mantenga una cierta continuidad. Cuando analicemos
esta señal mediante el análisis espectral entenderemos mejor el significado de todo
esto.
Por otro lado, en medio de este ruido rojo de fondo, podemos distinguir varios
acontecimientos sonoros. Oı́mos el motor de un coche que acelera, con lo que su
sonido se va haciendo más agudo y se incrementa su volumen. Oı́mos también otros
coches más lejanos. Y ya casi al final de esta primera parte del vı́deo escuchamos
la bocina de un coche. Si prestamos atención, nos damos cuenta de que esta bocina
está dando una nota musical, en concreto, una nota que podrı́amos situar entre un
sol4 y un lab4 . En el osciloscopio podemos ver que la señal, que hasta entonces era
claramente aleatoria, parece adquirir en ese momento cierta periodicidad.
En la segunda parte del vı́deo, sin embargo, todos oı́mos con claridad las cinco notas
del clarinete (la4 , si4 , solb4 , mib4 , re4 ). Puede que quien no tenga oı́do absoluto
o sus conocimientos de música sean menores no sea capaz de darles nombre, es
decir, no pueda determinar si se trata de un la o de un si, pero todos sabemos que
lo que suena son notas musicales.
Podemos observar también que mientras está sonando cada una de las notas, la
gráfica que aparece en la pantalla del osciloscopio es bastante estable, pues la
32
vibración se repite de manera parecida durante la duración de la nota. Por eso,
ahora también podemos hablar de una forma de la vibración, como ocurrı́a en el
caso del sonido simple, si bien se trata de una forma más compleja que una sencilla
ese. Como se explica en el capı́tulo dedicado al sonido armónico, la forma de ese
dibujo tiene que ver con la cualidad del sonido, con el hecho de que sea más suave
o más áspero, por poner un ejemplo.
Si paramos el reproductor del vı́deo cuando suena la nota si4 , obtendremos una
gráfica parecida a la siguiente:
Puesto que hay una forma que se repite, podremos hablar aquı́ también de periodo
de la oscilación y, a partir de ahı́, deducir su frecuencia. En efecto, en esta gráfica,
que representa 50 milésimas de segundo, podemos distinguir casi 25 oscilaciones,
pues la última no está del todo completa, por lo que deducimos que en un segundo
se habrán producido un poco menos de 500 oscilaciones. Esta frecuencia de 500 Hz
es ligeramente superior al valor que esperarı́amos para la nota si4 en la afinación
estándar (493,9 Hz), pero se aproxima bastante a la frecuencia real de la nota que
estamos escuchando (497 Hz).
Y, puesto que existe una forma, es posible también predecir cómo va a continuar la
señal en las próximas milésimas de segundo, a no ser, claro está, que se produzca
algún cambio repentino, como, por ejemplo, que empiece a sonar otra nota.
Ası́ pues, hemos podido observar que durante la primera parte del vı́deo, en el
tráfico con lluvia, predomina la aleatoriedad, por lo que la señal de audio que
vemos en el osciloscopio tiene muchos rasgos en común con la del ruido blanco que
hemos analizado en el apartado anterior. Durante la segunda parte del vı́deo, sin
33
embargo, cuando suenan las notas del clarinete, hemos comprobado que la señal
tiende a ser de tipo determinista y también hemos podido apreciar con claridad
su periodicidad.
Mediante los ejemplos que hemos estudiado hasta ahora podemos obtener la idea
general de que el ruido se corresponde con el desorden, con la aleatorie-
dad, con la imposibilidad de predecir lo que va a suceder a continuación,
mientras que el sonido musical tiene que ver con el orden, la predictibili-
dad y, lo que es más importante, con la periodicidad.
Figura 3.7: Vı́deo que simula un osciloscopio con el sonido de una campana, en la
primera parte, y el de una nota de piano, en la segunda.
34
Podemos apreciar en el vı́deo que existe un gran parecido en la forma en la que evo-
luciona la vibración de los dos sonidos. Ciertamente, ambos son sonidos percutidos,
por lo que las vibraciones que observamos en el osciloscopio tienen bastantes seme-
janzas: el ataque es muy rápido y abrupto, ruidoso en ambos casos, y va seguido de
un decrecimiento inmediato que conduce a un nivel sonoro considerablemente más
bajo; una vez alcanzado ese nivel, el sonido prolonga su duración durante bastante
tiempo, decayendo lentamente.
Todo este proceso va acompañado de un cambio constante en la cualidad del sonido,
pues con el paso del tiempo se van extinguiendo progresivamente los componentes
más agudos. Por eso vemos en el osciloscopio que la forma de la vibración se va
haciendo cada vez más sencilla, hasta recordar al final la gráfica de un sonido
simple.
Pero, aunque el sonido de la campana y el del piano tienen todos estos rasgos
en común, ambos se diferencian en algo que es fundamental para discernir si son
sonidos musicales: la posibilidad de atribuirles una altura tonal. Cuando suenan
las notas del piano todos percibimos una altura tonal que permanece constante,
aquı́ en concreto un sol3 . Pero si tratamos de responder a la pregunta de qué
nota está dando la campana, nos encontraremos que durante la mayor parte de
su duración no podemos dar una respuesta, y sólo al final, en la parte que queda
resonando, podemos apreciar una altura tonal clara, un lab4 un poco bajo. Por
ello, podemos afirmar que en el caso del sonido de esta campana estamos al otro
lado de la frontera que delimita el sonido musical.
Esta diferencia que percibimos al oı́r ambos sonidos responde a las diferencias
que se producen en la vibración, como podemos observar en las dos señales de
audio. En el caso de la campana, a excepción de la resonancia final donde la forma
de la vibración es similar a la de un sonido simple, no podemos reconocer en
la gráfica ninguna periodicidad, si bien comprobamos que está muy lejos de las
gráficas del ruido blanco o del ruido de tráfico que hemos observado en los vı́deos
anteriores.
Para apreciar esto con claridad, veamos las gráficas que se obtienen si paramos el
vı́deo en un momento cualquiera en pleno sonido de la campana, primero, y del
piano, después.
35
Figura 3.8: Gráfica de la señal de audio de un sonido de campana.
36
se repite idénticamente igual, sı́ es posible reconocer en ella una forma compleja
que, aun con variaciones, se renueva cada cierto intervalo exacto de tiempo. Por
lo tanto, aunque no podamos decir que esta señal sea estrictamente periódica,
sı́ podemos afirmar sin ninguna duda que posee un periodo de oscilación que se
mantiene constante y que posibilita el reconocimiento de una altura tonal. En
efecto, en esta gráfica podemos contar aproximadamente unas nueve oscilaciones
y media, lo cual corresponderı́a a una frecuencia de 190 Hz, muy próxima a la
frecuencia real del sol3 que está sonando, 196 Hz.
Movimiento vibratorio periódico, en un sentido estricto, significa que el movimiento
tiene que repetirse exactamente igual cada cierto intervalo de tiempo, su periodo.
Pero en el caso de una nota musical real, como ésta que estamos observando, con
toda su complejidad, la periodicidad no es perfectamente estricta. Su oscilación es
compleja, por lo que la forma que se repite no es exactamente igual, sino que va
evolucionando con el paso del tiempo, y eso es lo que le proporciona su riqueza
sonora. Y no sólo su forma va cambiando, sino que también con el paso del tiempo
varı́a su amplitud.
No obstante, a pesar de todos estos cambios e inestabilidades, en ese intervalo
de tiempo de 50 milésimas de segundo que estamos observando, la forma de la
vibración de esta nota de piano resulta lo suficientemente periódica como para
poder percibir una altura tonal. Este es el estado que predomina en los sonidos
musicales reales, salvo en los momentos en los que se producen cambios abruptos,
como, por ejemplo, en el inicio de una nueva nota.
Ası́ pues, la frontera que delimita el sonido musical reside en que su
vibración sea lo suficientemente periódica como para poder percibir
una altura tonal determinada.
37
cantado, en concreto, el inicio del Lamento de Ariadna de Claudio Monteverdi. En
ambos casos se trata de sonidos propios del habla; la única diferencia es que en el
segundo la prosodia natural del lenguaje hablado ha sido sustituida por la melodı́a
del canto. Mediante este vı́deo podremos ver en qué se diferencia la vibración de
los sonidos en los que podemos reconocer de qué vocal se trata (si es una a o es
una e, por poner un ejemplo) de otros sonidos en los que, además de reconocer su
fonema, percibimos claramente una nota musical.
Figura 3.10: Vı́deo que simula un osciloscopio con un fragmento de una locutora de
radio, en la primera parte, y el inicio del Lamento de Ariadna, en la segunda.
Y las notas musicales que van sobre cada sı́laba, respectivamente, son: la4 , sib4 ,
fa4 , fa4 , mi4 , mi4 ,mi4 .
38
pero periódicas, que recuerdan a las de los sonidos musicales, y otras, mucho más
breves todavı́a, de aspecto aleatorio, similares a las del ruido. Esta alternancia co-
rresponde, simplificando un poco, a la que se produce en el habla entre las vocales
y las consonantes.
Por el contrario, en el fragmento del canto vemos constantemente formas periódicas
claramente reconocibles. Podemos apreciar que cambian con el texto y con la
música, incluso que durante la emisión de la misma vocal van modificando su forma
y su amplitud, pero se reconoce en ellas un patrón lo suficientemente estable como
para concluir que son sonidos musicales, incluso si simplemente los viéramos en el
osciloscopio, sin oı́r lo que suena.
Veamos la gráfica de un pequeño fragmento de la primera parte del vı́deo en la que
podemos apreciar muy bien cómo se articula el lenguaje hablado, es decir, cómo los
sonidos consonánticos se unen con los vocálicos para formar la cadena hablada. La
gráfica corresponde al momento en el que la locutora pronuncia la palabra “éticas”.
He elegido ahora una duración más extensa que la ventana de observación que he
utilizado en los vı́deos del osciloscopio, a fin de presentar un panorama general de
la vibración cuando se emite una palabra completa. La duración de este fragmento
es de 400 milésimas de segundo, es decir, ocho veces mayor que el de la ventana
del vı́deo, lo que explica que las formas de la vibración se vean ahora mucho más
apretadas.
39
a la realidad de lo que oı́mos. Podemos apreciar que existe una diferencia muy clara
entre la forma de la vibración de las consonantes y la de las vocales: las vocales son
claramente periódicas, mientras que las consonantes no son periódicas y tienden
al ruido. Observamos también que las consonantes oclusivas, la t y la k, son muy
breves, mientras que la s es bastante más larga y relativamente parecida al ruido
blanco.
Si midiéramos mediante un editor de sonido el periodo de cada una de las vocales
y, a partir de ello, dedujéramos su altura tonal, comprobarı́amos que la sı́laba
acentuada é es casi un semitono más aguda que la vocal siguiente i y cerca de
semitono y medio más alta que la tercera vocal a, cuya sı́laba, sin embargo, es la
que tiene más intensidad sonora y mayor duración.
Comprobamos que en español el acento de la palabra no se produce ni por una
mayor intensidad sonora ni por un alargamiento de la duración, sino por una
elevación de la altura tonal, lo cual justifica que se llame “sı́laba tónica” a la que
va acentuada. Ası́ pues, al margen de la entonación general propia de la prosodia,
la relación de agudeza y gravedad entre los sonidos de la cadena hablada explica
nuestra distinción entre sı́labas acentuadas y sin acentuar, como podemos apreciar
si volvemos a escuchar con detenimiento cómo suena la palabra “éticas”.
Pero lo que interesa ahora es responder a la pregunta siguiente: ¿las vocales, cuyo
movimiento vibratorio es periódico, son propiamente sonidos musicales? Lo cierto
es que no oı́mos una nota musical cuando suenan. La razón de que, en principio,
en la cadena hablada no identifiquemos una nota musical cuando se emite una
vocal, a pesar de que se trata de un sonido periódico, reside en la brevedad de
la parte periódica. En efecto, vemos que cada vocal apenas llega a completar
unos pocos ciclos. Esto, debido al constante entrecortarse en su articulación con
el sonido consonántico vecino, impide que reconozcamos esa periodicidad y que la
apreciemos como un sonido musical.
Para observar un detalle de la forma de la vibración cuando se emite la sı́laba ti,
presento una gráfica que tiene la misma duración que la ventana de observación de
los vı́deos y en la que he hecho zoom en la amplitud, que ha quedado delimitada
entre -0,4 y 0,4.
40
Figura 3.12: Gráfica de la señal de audio correspondiente a la emisión de la sı́laba ti.
41
Vemos que durante las 50 milésimas de duración la señal permanece estable, lo
cual es suficiente para que se pueda percibir una altura tonal. Conforme evolu-
cione el sonido, incluso durante la propia emisión de la vocal a, se modificará la
forma, la amplitud e incluso el periodo, pero, al margen de estas modificaciones, el
sonido en el canto es lo suficientemente estable y duradero como para permitirnos
apreciar con claridad una altura tonal. Por poner un ejemplo, si emitimos al ha-
blar la vocal a, no pensaremos que estamos dando una nota musical; ahora bien,
si prolongamos la duración de la vocal y nos esforzamos en mantener constante la
misma altura tonal, enseguida nos daremos cuenta de que estamos emitiendo una
nota musical.
Ası́ pues, el requisito de “suficientemente periódico”, que hemos reconocido en
el apartado anterior como necesario para determinar que un sonido sea musical,
exige también una cierta duración, es decir, necesitamos que la periodicidad
se mantenga durante el suficiente tiempo como para que nuestro sistema
perceptivo sea capaz de apreciar una frecuencia, y con ella, una altura
tonal.
3.7. Conclusión
A lo largo de este capı́tulo hemos podido apreciar las caracterı́sticas que posee el
sonido musical. Ayudándonos de la señal de audio que queda representada en el os-
ciloscopio, hemos comparado lo que oı́mos cuando escuchamos un sonido musical,
con lo que oı́mos cuando se trata de sonidos ruidosos y de otros de cualidad inter-
media, de modo que hemos podido experimentar que un sonido es considerado por
nuestra percepción auditiva como musical cuando su vibración es lo suficientemen-
te periódica y duradera cómo para que podamos reconocer una altura tonal.
42
Capı́tulo 4
El sonido simple
4.1. Introducción
El sonido simple, también llamado sonido puro, es el sonido al que da lugar la
vibración más sencilla posible, aquella que se comporta siguiendo lo que en Fı́sica
se denomina Movimiento Armónico Simple (MAS). El calificativo armóni-
co para describir este movimiento procede precisamente de su vinculación con la
música.
Empecemos observando cómo es un sonido simple. En el capı́tulo 1, El sonido
como vibración, he utilizado un sonido simple para estudiar la vibración del aire,
precisamente porque su oscilación es muy sencilla y repetitiva, un simple vaivén.
Volvamos, pues, al vı́deo de la figura 1.1 de ese capı́tulo donde se simula a cámara
lenta el movimiento del aire cuando suena un sonido simple generado artificial-
mente, la nota musical la4 a 440 Hz, sin armónicos y de frecuencia y amplitud
totalmente estables. En el vı́deo de la figura 1.2 de ese capı́tulo tenemos el detalle
del movimiento oscilatorio de una de las esferitas de la simulación, donde se ve
cómo la oscilación dibuja en el tiempo una serie de eses enlazadas.
Veamos ahora un vı́deo donde podemos apreciar en tiempo real mediante el osci-
loscopio la forma de la vibración cuando suena esa misma nota.
43
Figura 4.1: Vı́deo con un sonido simple, la4 a 440 Hz, visto en un osciloscopio.
44
a) El sonido simple es el paradigma del sonido musical
El sonido musical puede ser considerado como una composición de sonidos simples
cuyas frecuencias mantienen entre sı́ unas determinadas relaciones de conmensura-
bilidad. En este sentido, al sonido musical se le llama también sonido armónico,
pues la palabra griega harmonı́a designaba, en origen, la buena mezcla que resulta
de una proporción adecuada.
En efecto, al margen de fenómenos transitorios y de la parte de ruido que cualquier
sonido natural lleva consigo, todo sonido musical está formado por un conjunto
de sonidos simples denominados parciales. Salvo excepciones, las frecuencias de
estos parciales son múltiplos de un sonido simple más grave. Estos múltiplos si-
guen el orden de los números naturales y constituyen la serie armónica. Los
sonidos simples que forman parte de la serie armónica de un sonido se denominan
componentes armónicos.
La presencia o ausencia en un determinado sonido musical de unos u otros armóni-
cos, ası́ como el mayor o menor peso de cada uno de ellos, determinará en gran
medida la cualidad del sonido musical resultante. Por ejemplo, los sonidos con
45
pocos armónicos tienden a ser más dulces, mientras que aquellos en los que pre-
dominan los armónicos impares son más ásperos.
46
4.3. El Movimiento Armónico Simple (MAS)
Puesto que el sonido simple es el resultado de un Movimiento Armónico Simple,
es conveniente conocer con un cierto detalle en qué consiste este movimiento. El
Movimiento Armónico Simple es la forma más sencilla de oscilación, aquella que
surge de modo natural cuando la fuerza que tiende a recuperar la posición de
equilibrio es proporcional al desplazamiento realizado.
Figura 4.2: Vı́deo que representa en esquema un MAS, su relación con el Movimiento
Circular Uniforme y su desarrollo sinusoidal en el tiempo.
En el vı́deo hay tres paneles, cada uno con su correspondiente bola roja. Las tres
bolas se mueven al mismo tiempo. Si atendemos únicamente al movimiento vertical
de las bolas rojas, veremos que las tres bolas se encuentran en cada instante a la
misma altura. La lı́nea de puntos verde que las une resalta este hecho.
Analicemos con detalle lo que vemos en cada uno de estos tres paneles:
47
a) Panel central
En el panel del medio vemos una pequeña bola roja que simula estar suspendida
de un muelle colgado del techo. Suponemos que antes de comenzar el vı́deo hemos
desplazado la bola hacia abajo, desde la posición de equilibrio, que en la gráfica
se corresponde con la altura 0, hasta la altura -1. El vı́deo empieza justo en el
momento en el que hemos soltado la bola y ha comenzado a oscilar.
Para entender lo que sucede es necesario tener presente un principio de carácter
universal que constituye el fundamento de la Fı́sica, la Segunda Ley de Newton,
la cual dice que cualquier cuerpo sobre el que no actúa ninguna fuerza conserva
indefinidamente su velocidad. Por otra parte, es necesario suponer también que
hemos elegido un muelle adecuado al peso de la bola, de modo que su fuerza de
restauración sea proporcional al desplazamiento de ésta.
La acción combinada del peso de la bola y de la fuerza de restauración del muelle
tenderá a colocar la bola en la posición de equilibrio, la altura 0. No especifico si la
altura se mide en metros, centı́metros o cualquier otra unidad, pues es irrelevante
para el ejemplo. Cuando la bola esté por debajo de la altura 0, la fuerza total
ejercida sobre ella estará dirigida hacia arriba, hacia la posición de equilibrio, y
será mayor conforme más alejada se encuentra la bola de esa posición de equilibrio.
Por el contrario, si la bola está por encima de la altura 0, la fuerza total ejercida
sobre ella estará dirigida hacia abajo, y será mayor también conforme más alejada
esté de su posición de equilibrio.
No importa la forma en la que ambas fuerzas, el peso y el muelle, se reparten el
trabajo. Hay momentos en los que las dos fuerzas colaboran y otros en los que
se oponen. Lo importante es que la fuerza total que actúa sobre la bola siempre
estará dirigida hacia la posición de equilibrio y que la magnitud de esta fuerza será
proporcional a la distancia en la que se encuentre la bola respecto a esa posición
de equilibrio. Por eso la magnitud de esta fuerza será la misma en las posiciones
simétricas.
Observamos que al soltar la bola en la altura -1, ésta comienza a ascender impul-
sada por la fuerza de restauración del muelle, que supera el peso de la bola. En el
vı́deo podemos apreciar que este desplazamiento ascendente adquiere cada vez ma-
yor velocidad. Ciertamente, la fuerza total ascendente que se ejerce sobre la bola es
progresivamente menor conforme se va acercando a la posición de equilibrio. Pero,
hasta que se llega a la posición de equilibrio, sigue ejerciéndose una fuerza hacia
arriba, por lo que la velocidad ascendente tiene que seguir incrementándose. Por
eso, cuando la bola roja pasa por la posición de equilibrio, la altura 0, podemos ver
48
en el vı́deo que la velocidad es la máxima, pues todo el tiempo ha ido recibiendo
fuerza.
A partir de allı́ las cosas se invierten, pues la combinación del peso y de la fuerza
de restauración del muelle apunta hacia la posición de equilibro y se opone, por lo
tanto, a la velocidad ascendente que lleva la bola. Ası́, la velocidad ascendente de
la bola va siendo frenada hasta llegar a la altura 1, la simétrica a la altura -1.
En ese punto justo la bola se detiene y su velocidad se hace 0. Pero esta pausa
es instantánea, pues la fuerza que la ha frenado sigue apuntando hacia abajo,
por lo que inmediatamente la bola comienza a descender. Y va ganando de nuevo
velocidad, ya que ahora, al apuntar la fuerza en la misma dirección que va la bola,
no la frena, sino que la acelera, hasta pasar de nuevo por la posición de equilibrio,
la altura 0, a la misma velocidad máxima con la que habı́a pasado al subir.
Una vez superada la posición de equilibrio, la bola comienza a ser frenada hasta
llegar a la altura -1, donde otra vez se detiene instantáneamente. Y de nuevo
comienza a ascender. Y ası́ sucesivamente.
Este movimiento continuarı́a eternamente si no fuera por las fuerzas de fricción,
entre otras la del aire, que progresivamente van atenuando la oscilación de la
bola.
b) Panel izquierdo
49
mantiene constante: en cada unidad de tiempo recorre un arco de circunferencia
de la misma longitud. Si lo expresamos en medidas angulares vemos que, en este
ejemplo, recorre 90o en cada segundo, por lo que tarda 4 segundos en realizar una
vuelta completa, como podemos comprobar en el propio reloj del vı́deo.
De esta manera, la posición de la bola en la circunferencia nos permite expresar
utilizando medidas angulares el estado en el que en ese momento se encuentra la
oscilación. Este estado, cuantificado ası́, recibe el nombre de fase instantánea de
la oscilación.
En nuestro ejemplo el estado inicial de la oscilación coincide con el momento en el
que la bola está desplazada a su posición más baja, y por eso decimos que la fase
en ese instante inicial es de 270o . En el segundo 1 el estado de la bola alcanza en su
movimiento ascendente la posición de equilibro y la fase instantánea es 0o . En el
segundo 2 el estado de la bola ha alcanzado la altura máxima y su fase instantánea
es 90o . En el segundo 3 la bola vuelve a la posición de equilibrio, pero ahora en un
movimiento descendente, y la fase instantánea es 180o .
Dicho de otro modo, la fase instantánea es el ángulo que expresa la posición de
la bola sobre la circunferencia. Observamos también que la altura en la que
se encuentra la bola en cada instante es el seno de este ángulo, como
podemos apreciar en la siguiente figura:
50
La figura muestra el momento en el que la fase de la oscilación es 60o . Puesto que
el radio es 1, la altura (h) es el seno de 60o , que es igual a 0,866.
c) Panel derecho
Ahora, con ayuda del vı́deo, voy a explicar brevemente los parámetros que in-
tervienen en el Movimiento Armónico Simple: amplitud, fase inicial, periodo y
frecuencia.
a) Amplitud
51
que este valor es 1, tanto cuando la bola del muelle va hacia arriba, como cuando
va hacia abajo.
b) Fase inicial
c) Periodo y frecuencia
52
4.4. El Movimiento Armónico Simple en el sonido
El sonido simple es una vibración mecánica que se comporta según el modelo
oscilatorio que acabamos de estudiar. En efecto, el sonido simple es un caso
particular del Movimiento Armónico Simple. Ahora bien, para ser percibida
por nosotros como sonido, la oscilación debe ser lo suficientemente rápida, en
concreto, debe realizar entre 20 y 20.000 oscilaciones completas por segundo, que
es aproximadamente el rango en el que se mueve nuestro sistema auditivo.
Ası́ pues, el movimiento oscilatorio que he descrito con detenimiento en el ejemplo
de la bola y el muelle nos puede servir para entender cómo es la vibración de
un sonido simple. En lugar de la bola oscilante pensemos ahora en un pequeño
volumen de aire que se comprime y se expande de la manera más sencilla posible,
es decir, con un Movimiento Armónico Simple.
Cuando se emite un sonido simple, los valores que va tomando la oscilación de la
presión del aire en un punto del espacio a lo largo del tiempo describen una gráfica
sinusoidal similar a la del panel derecho que aparece en el vı́deo de la figura 4.2.
En efecto, en el sonido simple la presión del aire oscila según una función
sinusoidal del tiempo.
Examinemos ahora los parámetros del Movimiento Armónico Simple en el caso
concreto de la vibración sonora.
Veamos los parámetros del sonido simple en una gráfica que muestra las primeras
50 milésimas de segundo de la señal de audio correspondiente a la nota la4 que
hemos observado en el osciloscopio de la figura 4.1.
53
Figura 4.4: Gráfica de los 50 ms iniciales de un sonido simple, la4 a 440 Hz, con la
amplitud y el periodo.
a) Amplitud
54
b) Fase inicial
c) Periodo y frecuencia
4.5. Conclusión
El sonido simple es la forma sonora del Movimiento Armónico Simple, la osci-
lación más sencilla y elemental, que resulta de la proyección unidimensional del
55
Movimiento Circular Uniforme. El sonido simple no sólo es en sı́ mismo un sonido
musical, sino que es también el elemento constitutivo de todo sonido musical.
56
Capı́tulo 5
5.1. Introducción
Al margen del carácter convencional y arbitrario de los diversos lenguajes musica-
les, carácter que es inherente a cualquier creación del espı́ritu humano, todos los
sistemas musicales se construyen sobre unos condicionantes previos que se derivan
tanto de la naturaleza fı́sica del sonido en sı́ mismo, como de la manera en la
que nosotros percibimos los fenómenos sonoros. Por ello, para entender la Teorı́a
Musical es necesario estudiar las relaciones que se producen entre los parámetros
fı́sicos de la vibración sonora y las sensaciones auditivas que nosotros experimen-
tamos.
Dado que el sonido simple es sencillo y estable, y además puede ser considerado
como el paradigma de todo sonido musical, resulta muy adecuado para examinar
cómo afecta a nuestra sensación la variación de sus parámetros fı́sicos.
A lo largo de este capı́tulo analizaremos la manera en la que percibimos la fre-
cuencia y la amplitud en el caso de un sonido simple. Veremos que la frecuencia
determina la altura tonal que apreciamos y, por lo tanto, la nota musical que
reconocemos, y que la amplitud guarda relación con el volumen sonoro que perci-
bimos.
Sin embargo, no nos vamos a ocupar de la fase inicial, pues, aunque es un parámetro
importante para la localización espacial de la fuente sonora y puede provocar
diferentes efectos en la reunión simultánea de varios sonidos, no tiene un correlato
directo en nuestras sensaciones. En efecto, si escuchamos un sonido simple de
57
frecuencia y amplitud determinadas cuya fase inicial es de 0o , y luego escuchamos
otro sonido de la misma amplitud y frecuencia, pero cuya fase inicial sea, pongamos
por caso, 180o , no apreciaremos ninguna diferencia.
Cuando pasamos del estı́mulo a al b, entre los cuales hay una distancia aritmética
de 100, nuestra sensación aprecia una diferencia. Tomemos para nuestro ejemplo
esa diferencia sensorial como unidad y consideremos a partir de ahora que nuestra
sensación se ha incrementado en un grado al pasar del estı́mulo a al estı́mulo
b.
Examinemos ahora lo que sucederá al pasar del estı́mulo b al c. La diferencia
aritmética entre los parámetros fı́sicos del estı́mulo b y del estı́mulo c es de 200
58
(400-200), es decir, el doble de la diferencia aritmética que hay entre los estı́mulos
a y b. Si nuestra sensación respondiera de forma lineal al incremento del parámetro
fı́sico, cuando pasáramos del estı́mulo b al c tendrı́amos que percibir un incremen-
to de dos grados. Sin embargo, esto no sucede ası́, sino que experimentamos un
incremento de un grado, el mismo que hemos percibido al pasar del estı́mulo a al
b. Y este mismo incremento de un grado es también el que percibiremos cuando
pasemos del estı́mulo c al d, aunque la diferencia aritmética entre sus parámetros
sea de 400 (800-400).
La explicación reside en que nuestra sensación reconoce como incremento
de un grado el cociente entre las intensidades de los estı́mulos, no su
diferencia aritmética. Por eso, aunque en nuestro ejemplo hayamos tomado
como unidad sensitiva el paso del estı́mulo a al b, lo significativo no ha sido la
diferencia aritmética que hay entre ambos estı́mulos (es decir, 100), sino la razón
b/a que se establece entre ellos, que es la misma que c/b y que d/c. En este caso,
se trata de la razón doble, la representada por el número 2:
59
tener como base la razón numérica que hemos elegido como unidad
sensorial.
En efecto, el logaritmo, como su nombre indica, es el número que mide la razón
(la palabra logaritmo procede del griego lógos, razón, y arithmós, número) y, por
ello, el logaritmo realiza la conversión de los valores de los parámetros fı́sicos a
las unidades en las que se miden nuestras sensaciones. Por eso se dice que nuestra
percepción es logarı́tmica.
Con todas las matizaciones, excepciones y limitaciones que serı́a necesario hacer en
cada caso, la Ley de Weber-Fechner tiene especial interés para conocer cómo oı́mos
la música, pues, como veremos enseguida, nuestra audición percibe las diferencias
de frecuencia y de amplitud de modo logarı́tmico.
Aunque la altura tonal de una nota tiene un valor musical por sı́ misma, lo cierto es
que los elementos que definen las escalas y los acordes musicales no son las alturas
absolutas de los sonidos, sino los intervalos que se producen entre ellas.
Igual que ocurre con la mayor parte de nuestro sistema sensitivo, en lo que con-
cierne a la percepción del intervalo musical también está presente la Ley de Weber-
Fechner : la manera en la que percibimos las variaciones de la frecuencia no respon-
de a una escala lineal, sino a una escala logarı́tmica. Esto explica que el intervalo
60
musical no sea la diferencia aritmética entre sus frecuencias, sino su razón numéri-
ca, el cociente que se establece entre ellas.
He fabricado un vı́deo que nos va a permitir comprobar cómo percibimos las va-
riaciones de la frecuencia y por qué las magnitudes de los intervalos musicales
son razones numéricas. El vı́deo está formado por una sucesión de sonidos simples
agrupados de dos en dos para que se pueda distinguir con facilidad el intervalo que
hay entre ellos. Consta de dos partes separadas por una pausa larga. En la primera
parte se oyen en primer lugar dos sonidos seguidos, cuyas frecuencias son 220 Hz
y 440 Hz, y tras una breve pausa, se oyen otros dos sonidos seguidos de 440 Hz y
660 Hz. En la segunda parte del vı́deo se oye primero otra vez la pareja de sonidos
de 220 Hz y 440 Hz, y luego otra nueva pareja que tiene como frecuencias 440 Hz
y 880 Hz. A medida que se van sucediendo los sonidos, se muestra en un recuadro
la frecuencia y la nota musical correspondiente.
Figura 5.1: Vı́deo con una sucesión de sonidos simples agrupados por parejas que
forman distintos intervalos.
Podemos apreciar con claridad que percibimos mayor altura tonal en aquellos
sonidos que presentan las oscilaciones más apretadas, es decir, los que tienen un
periodo menor y, por lo tanto, una mayor frecuencia. Pero, sobre todo, lo que
nos interesa experimentar mediante este vı́deo es que el intervalo que percibimos
entre dos notas musicales no está definido por la diferencia aritmética entre sus
frecuencias, sino por el cociente entre ellas.
En la primera parte del vı́deo vemos que entre el primer sonido, el de 220 Hz, y
el segundo, el de 440 Hz, hay una diferencia aritmética de 220 Hz. Apreciamos
al oı́rlos un salto de altura tonal que es un intervalo de octava, en concreto, el
61
que existe entre el la3 y el la4 . Ahora bien, cuando escuchamos el salto entre los
sonidos de la segunda pareja —entre el tercero, de 440 Hz, y el cuarto, de 660 Hz—
no percibimos un intervalo de octava, a pesar de que su diferencia aritmética es
también de 220 Hz. Nuestra sensación nos dice que el salto ha sido bastante más
pequeño que el que se producı́a entre el sonido de 220 Hz y el de 440 Hz. En efecto,
ahora no reconocemos el la5 , sino el mi5 , que está a una distancia interválica de
quinta respecto al la4 .
Sin embargo, al oı́r los cuatro sonidos de la segunda parte del vı́deo apreciamos
la misma diferencia interválica entre la altura tonal de las dos parejas: entre el
primer sonido, cuya frecuencia es de 220 Hz, y el segundo, de 440 Hz, oı́mos un
intervalo de octava, que es el mismo que oı́mos entre el tercer sonido, de 440 Hz, y
el cuarto, de 880 Hz. Pero la diferencia aritmética entre las frecuencias es distinta:
mientras que entre los dos primeros sonidos es de 220 Hz, entre los dos segundos
es de 440 Hz.
Comprobamos que lo que ocurre es que la razón entre las frecuencias que definen
los dos intervalos de esta segunda parte del vı́deo es la misma: el segundo sonido
respecto al primero mantiene la misma razón numérica que el cuarto respecto
al tercero, exactamente la razón doble, 2/1, la cual es la propia del intervalo de
octava:
440 880 2
= =
220 440 1
Hemos podido experimentar que reconocemos el mismo intervalo, la misma dis-
tancia perceptiva, cuando entre los sonidos se mantiene la misma razón numérica.
Esto se debe a que lo que define el intervalo musical no es la diferencia
aritmética entre sus frecuencias, sino la razón que hay entre ellas, su
cociente.
En el vı́deo, además de los dos intervalos de octava, oı́mos un intervalo de quinta,
el que hay entre la segunda pareja de sonidos, la4 (440 Hz) y mi5 (660 Hz). Si
atendemos a la relación que se establece entre sus frecuencias vemos que están en
razón 3/2, que es la razón que define el intervalo de quinta natural:
660 3
=
440 2
Ası́ mismo, aunque no las oigamos seguidas, podemos ver que el intervalo que hay
entre la última nota de la primera parte, mi5 (660 Hz), y la última nota de la
segunda parte, la5 (880 Hz), es de una cuarta. Si nos fijamos en sus frecuencias
62
veremos que mantienen la razón 4/3, que es la que define el intervalo de cuarta
natural:
880 4
=
660 3
Los intervalos que podemos considerar estructurales en nuestro sistema musical
tienen una razón simple entre sus frecuencias: dos sonidos están a un intervalo de
octava cuando sus frecuencias mantienen la razón doble, 2/1; están a un intervalo
de quinta cuando mantienen la razón 3/2, la llamada razón sesquiáltera; y están a
un intervalo de cuarta cuando mantienen la razón 4/3, la llamada razón sesquiter-
cia. Ahora bien, en nuestra música habitualmente no oı́mos los intervalos naturales
de cuarta y quinta, sino los intervalos temperados, los cuales están ligerı́simamente
desviados.
Finalmente, del hecho de que el intervalo sea una razón numérica se deduce que
el intervalo que se obtiene de la composición de otros intervalos es el
resultado de multiplicar sus respectivas razones. Por ejemplo, de la com-
posición del intervalo de quinta y el de cuarta surge el intervalo de octava, como
podemos apreciar si unimos el intervalo que hay entre las notas la4 y mi5 (3/2)
con el que hay entre mi5 y la5 (4/3):
3 4 2
× =
2 3 1
De manera inversa, la diferencia entre dos intervalos es la división de sus razones.
Ası́ entre el intervalo de octava —por ejemplo, el que hay entre la4 y la5 (2/1)— y
el intervalo de quinta —por ejemplo, entre la4 y mi5 (3/2)— existe una diferencia
interválica de una cuarta (4/3) —la que hay entre mi5 y la5 —, lo cual se obtiene
dividiendo entre sı́ ambas razones:
2 3 4
÷ =
1 2 3
Como acabamos de ver, los intervalos se definen mediante las razones entre sus
frecuencias, pero, en tanto que el intervalo es un elemento de nuestra percepción
musical, necesitamos una unidad perceptiva que nos permita comparar unos in-
tervalos con otros. En la música disponemos de una unidad natural. Esta unidad
63
natural es el intervalo de octava, la razón 2/1 entre las frecuencias de los soni-
dos.
Sonidos que distan un intervalo de octava poseen una especial afinidad reconocida
en la práctica totalidad de los sistemas musicales de las diferentes culturas. Hay
que tener presente que cuando dos sonidos que forman una octava son emitidos
simultáneamente, el más ligero alejamiento de la relación doble es percibido inme-
diatamente como desafinación. Ası́ pues, la octava es una unidad interválica
de carácter universal y en referencia a ella establecemos las restantes
unidades que utilizamos para medir los intervalos.
Veamos cómo podemos expresar cualquier intervalo en número de octavas. Ima-
ginemos dos sonidos cuyas frecuencias sean a y b. El intervalo será la razón b/a.
Si aplicamos lo que hemos estudiado con carácter general en el apartado sobre la
Ley de Weber-Fechner para medir las distancias perceptivas, concluiremos que el
número de octavas que mide este intervalo será el logaritmo en base 2 del número
b/a (recordemos que 2 es la razón de la octava). Ası́ pues, para expresar la
medida de un intervalo en octavas bastará tomar el logaritmo en base
2 del número que define la razón entre las frecuencias de los sonidos
que lo delimitan, sin que el resultado tenga que ser necesariamente un número
entero.
Por ejemplo, el intervalo que hay entre el último sonido del vı́deo, el la5 de 880 Hz,
y el primero, el la3 de 220 Hz, está definido por la razón 880/220, es decir, 4/1.
Por lo tanto, el número de octavas de este intervalo será el logaritmo en base 2 del
número 4, que es 2. Efectivamente, entre el la5 y el la3 hay dos octavas.
Pero en la mayor parte de las ocasiones la octava es un intervalo demasiado grande
para medir las diferencias entre las alturas tonales de los sonidos. Por eso se recurre
a divisiones de la octava. Una unidad interválica habitual es el semitono
temperado, que se define como la doceava parte de la octava. Por eso
la razón que representa el semitono temperado es el número que multiplicado 12
veces por sı́√mismo da como resultado el número 2, la razón de la octava. Este
número es 12 2, que expresado con 15 decimales es: 1,059463094359295.
Cuando se trata de medir las sutilezas de la afinación el semitono sigue siendo
una unidad muy grande, por lo que es común también utilizar como unidad
interválica la centésima parte del semitono temperado, la cual recibe
el nombre de cent. Como el cent es la 1/1200 parte de la octava, la razón que
define el intervalo de cent es√aquella que multiplicada por sı́ misma 1200 veces da el
número 2. Esta razón es 1200 2, que con 15 decimales es: 1,000577789506555.
64
De las propiedades de los logaritmos se deduce que para expresar un intervalo
cualquiera en semitonos o en cents basta con tomar el logaritmo en base 2 de la
razón de las frecuencias de sus notas y multiplicar el resultado respectivamente
por 12 o por 1200.
A modo de ejemplo veamos cómo podemos expresar en semitonos temperados el
intervalo de quinta natural definido por la razón 3/2. Basta simplemente calcular
el logaritmo en base 2 del número 3/2 y multiplicarlo luego por 12. El resultado
redondeado a centésimas de semitono es 7,02.
3
log2 × 12 = 7, 02
2
Comprobamos que el intervalo de quinta natural, definido por la razón 3/2, es 2
centésimas de semitono —es decir, 2 cents— mayor que el de quinta temperada,
que por definición consta de 7 semitonos temperados.
Ası́ mismo, si queremos expresar en semitonos el intervalo de cuarta natural, la
razón 4/3, calcularemos el logaritmo en base 2 del número 4/3 y lo multiplicaremos
por 12. El resultado será 4,98 semitonos.
4
log2 × 12 = 4, 98
3
Este resultado nos indica que el intervalo de cuarta natural es 2 cents menor que
el de cuarta temperada, que por definición consta de 5 semitonos.
Una vez realizadas estas comparaciones, nos daremos cuenta de que el sistema
temperado se caracteriza porque acorta muy ligeramente las quintas y alarga las
cuartas, exactamente 2 cents en ambos casos.
65
mismo, también resultan claras las diferencias entre una pieza interpretada, pon-
gamos por caso, en la tonalidad de do mayor o la misma pieza transportada a la
tonalidad de mi mayor. Y hay todavı́a otras diferencias más sutiles: por ejemplo,
una pieza de Händel ejecutada en la afinación que se considera propia de su músi-
ca, con el la4 en torno a 422 Hz, no suena igual que esa misma pieza interpretada
en la afinación estándar actual, con el la4 a 440 Hz.
Veamos cómo se determinan las frecuencias de las notas de nuestra escala tempera-
da. Supongamos que elegimos como nota de referencia el la4 a 440 Hz y queremos
hallar la frecuencia a la que debe estar afinada la nota do6 . La cantidad de semi-
tonos temperados que separan ambas notas es 15 (12 semitonos de la octava la4
a la5 , más 3 de la5 a do6 ). El número que define el intervalo de 15 semitonos será
el resultado de multiplicar
√ 15 veces por sı́ misma la razón del semitono, que como
12
hemos visto es 2:
√
12
215 = 2, 378414230005442
√
12
440 × 215 = 1046, 5
A continuación presento una tabla con las frecuencias de las notas musicales en
la escala temperada estándar. Los números de la fila superior indican la octava a
la que corresponde cada nota. Aunque no hay unanimidad en la asignación de los
números de octava, he seguido el criterio que me parece más acertado, el que hace
corresponder el do central del piano con el inicio de la octava número 4.
Sobre fondo amarillo está destacada la frecuencia de la nota utilizada como refe-
rencia, el la4 . Las notas cuyo fondo está en color naranja coinciden con la extensión
completa de un piano moderno, que va del la0 al do8 . Las notas sobre fondo lila son
completamente excepcionales en la práctica musical: resulta muy difı́cil reconocer
la altura tonal de las más agudas, mientras que las más graves –algunas de las
cuales se pueden encontrar en algún tubo de órgano– casi no se perciben como
sonido, sino más bien como un zumbido sordo.
66
0 1 2 3 4 5 6 7 8
do# 17,3 34,6 69,3 138,6 277,2 554,4 1.108,7 2.217,5 4.434,9
mib 19,4 38,9 77,8 155,6 311,1 622,3 1.244,5 2.489,0 4.978,0
fa# 23,1 46,2 92,5 185,0 370,0 740,0 1.480,0 2.960,0 5.919,9
sol 24,5 49,0 98,0 196,0 392,0 784,0 1.568,0 3.136,0 6.271,9
lab 26,0 51,9 103,8 207,7 415,3 830,6 1.661,2 3.322,4 6.644,9
sib 29,1 58,3 116,5 233,1 466,2 932,3 1.864,7 3.729,3 7.458,6
Tabla 5.1: Frecuencia de las notas musicales (Hz) en las diferentes octavas.
67
del movimiento vibratorio que transmiten las ondas, fluye en un instante dado a
través de un área del espacio, como puede ser el tı́mpano de nuestro oı́do.
Puesto que la intensidad de las ondas sonoras cuando se propagan por el aire es
independiente de la frecuencia y, en el caso de un sonido simple, es directamente
proporcional al cuadrado de la amplitud con la que la presión oscila, el volumen
sonoro que percibimos al escuchar un sonido simple viene determinado
por el cuadrado de su amplitud.
Igual que ocurre con la altura tonal, también ahora está presente la Ley de Weber-
Fechner, de modo que el cambio en el volumen sonoro que percibimos guarda una
relación logarı́tmica con la variación de la intensidad o, lo que viene a ser lo mismo,
con la variación del cuadrado de la amplitud, a la que la intensidad es directamente
proporcional. Por ello, lo que nuestro sistema perceptivo interpreta como
un grado en la variación del volumen sonoro es el cociente entre las
intensidades de los sonidos, no su diferencia aritmética.
El rango de intensidades que podemos oı́r es mucho más amplio que el de fre-
cuencias. Mientras el sonido más agudo que oı́mos tiene una frecuencia de unas
mil veces la del sonido más grave (recordemos que el rango frecuencial de nuestra
audición va aproximadamente de 20 Hz a 20.000 Hz), el sonido más fuerte que
podemos escuchar es por lo menos un billón de veces más intenso que el más débil.
En efecto, el rango de intensidades de la audición humana va desde un picovatio
por metro cuadrado (1 pW/m2=0,000000000001 W/m2), donde se sitúa el umbral
de audición, hasta un vatio por metro cuadrado (1 W/m2), donde la sensación
auditiva se transforma en dolorosa.
Además, para medir la percepción de la intensidad sonora no existe una unidad
objetiva que cumpla una función similar al intervalo de octava en el caso de la
percepción de las alturas tonales en la música. Pero, puesto que se ha comprobado
de una manera estadı́stica que un incremento en la intensidad del sonido de 10
veces es percibido por nuestra sensación auditiva como si se hubiera doblado el
sonido, se ha establecido como unidad convencional la razón 10:1.
Por eso, para poder comparar las diferentes intensidades de los sonidos de una
manera acorde con la forma en la que percibimos el volumen sonoro se utiliza la
relación 10:1. Esta unidad recibe el nombre de bel o belio (B) en honor del cientı́fico
Alexander Graham Bell. El belio, que sirve también como unidad logarı́tmica
68
para otras magnitudes relativas, es el logaritmo en base 10 de la razón entre
las magnitudes que se quieren comparar. En lo que concierne al sonido,
podrı́amos decir que el belio es una medida interválica de las intensidades sonoras
y cumple una función similar a la que realiza la octava en la percepción de la
frecuencia.
Pero como en la mayor parte de las ocasiones el belio resulta en la práctica una
unidad demasiado grande, para medir la intensidad sonora habitualmente
se utiliza el decibelio (dB), que es la décima parte del belio. Ası́ pues, para
saber cuántos decibelios de diferencia hay entre dos sonidos, se toma el logaritmo
en base 10 de la razón entre sus respectivas intensidades —o de la razón entre los
cuadrados de sus amplitudes— y se multiplica el resultado por 10.
Veamos con ayuda de un ejemplo cómo se puede expresar en decibelios la diferen-
cia de volumen sonoro entre dos sonidos cuyas amplitudes son una el doble de la
otra. Dado que la intensidad es directamente proporcional al cuadrado de la am-
2
plitud, las diferencias entre sus intensidades estarán en razón cuádruple: 21 = 41 .
Calculamos el logaritmo en base 10 de 4 y multiplicamos el resultado por 10. Re-
dondeando, obtenemos el número 6,02. Ası́ pues, el intervalo de intensidades, la
diferencia de volumen sonoro que percibimos entre dos sonidos cuya amplitud es
una el doble que la otra, es aproximadamente de 6 dB.
Podemos aprovechar las propiedades de los logaritmos para simplificar el cálculo
(el logaritmo de un número elevado al cuadrado es igual al logaritmo de ese número
multiplicado por 2), por lo que es suficiente multiplicar por 20 el logaritmo en base
10 de la razón 2/1 que hay entre las amplitudes:
2
2 2
10 × log10 = 20 × log10 = 6, 02
1 1
Resumiendo, para expresar en decibelios las diferencias de volumen so-
noro entre dos sonidos simples basta tomar el logaritmo en base 10 del
cociente entre sus amplitudes y multiplicarlo por 20.
69
5.4.2. Correspondencia entre la amplitud normalizada y la intensidad
en decibelios
Los editores de sonido ofrecen la posibilidad de acompañar las gráficas que repre-
sentan la evolución temporal de la amplitud de la presión sonora —cuyos valores
están generalmente normalizados entre 1 y -1— con una escala logarı́tmica en de-
cibelios que indica la intensidad a la que corresponden. Esto nos permite comparar
entre sı́ las amplitudes de varios sonidos de una manera más próxima a la sensación
de volumen que percibimos.
Para obtener los valores de intensidad relativa en una escala expresada en deci-
belios, se aplica la fórmula anterior, es decir, se calcula el logaritmo en base 10
del valor de cada amplitud y se multiplica por 20. Ası́, el valor de amplitud 1
equivale a 0 dB de intensidad (el logaritmo en base 10 de 1 es 0); el valor 0,5 de
amplitud corresponde a -6,02 dB de intensidad relativa; y ası́ sucesivamente. Los
valores negativos se deben a que el logaritmo de los números inferiores a la unidad
es negativo, de modo que 0 dB se corresponde con la amplitud máxima.
A continuación presento una tabla de correspondencias entre los valores de am-
plitud normalizados y su intensidad expresada en decibelios. En la columna de la
izquierda se muestran una serie de valores de amplitud normalizada que cubren el
rango que un sistema de 16 bits es capaz de digitalizar. Los valores van decreciendo
de modo que cada uno de ellos es la mitad del anterior, hasta llegar al valor mı́ni-
mo que es posible representar con 16 bits. En la columna de la derecha se expresa
en decibelios los correspondientes valores de intensidad. Podemos observar que las
intensidades van decreciendo de manera lineal, disminuyendo 6,02 dB cada vez que
la amplitud se reduce a la mitad.
70
Amplitud Intensidad
normalizada normalizada (dB)
1,000000 0,00
0,500000 -6,02
0,250000 -12,04
0,125000 -18,06
0,062500 -24,08
0,031250 -30,10
0,015625 -36,12
0,007813 -42,14
0,003906 48,16
0,001953 -54,19
0,000977 -60,21
0,000488 -66,23
0,000244 -72,25
0,000122 -78,27
0,000061 -84,29
0,000031 -90,31
0,000015 -96,33
Por razones prácticas, hay algunas ocasiones en las que es conveniente referirse a
la intensidad del sonido en términos absolutos, como por ejemplo para determinar
si el nivel sonoro de un lugar está dentro de la normativa legal. En estos casos
71
es útil establecer una escala logarı́tmica de intensidades absolutas adecuada a la
manera en la que nosotros percibimos el volumen sonoro.
Dado que el belio o el decibelio son unidades que miden intervalos entre intensida-
des, para expresar con ellas valores absolutos es necesario tomar una intensidad de
referencia con la que comparar las que queremos medir. Como sonido de referencia
al que se asigna el valor 0 dB, se ha elegido lo que se considera el umbral mı́nimo
de la audición humana: un sonido simple de 1 pW de intensidad, a una frecuencia
de 1000 Hz.
Para hacernos una idea de las intensidades que corresponden al volumen que per-
cibimos en distintos ambientes sonoros, pongo debajo una escala de intensidades
absolutas y su correspondiente valor en dB, acompañada de unos ejemplos orien-
tativos. En la columna de la izquierda se muestra la intensidad en W/m2 y en la
del medio la intensidad en dB, a partir del valor de referencia inicial de 0 dB para
1 pW/m2. El valor de cada intensidad es 10 veces mayor que el de la fila anterior,
por lo que el incremento en dB es de 10. Como la intensidad depende de la proxi-
midad o lejanı́a de la fuente sonora, se indica la distancia o el lugar en el que se
deberı́a hacer la medición. Hay que insistir en el carácter meramente orientativo
de cada ejemplo, dada la gran variedad de intensidades que pueden darse en cada
situación sonora.
72
Intensidad Intensidad
Ejemplo sonoro orientativo
W(m2) (dB)
- Zumbido de un mosquito a 1 m.
0,000000000010 10
- Suave murmullo de hojas de árbol a 10 m.
73
5.4.4. La percepción del volumen sonoro
Figura 5.2: Vı́deo con la nota la3 a 220 Hz repetida con una amplitud que se reduce
cada vez a la mitad.
Para apreciar que los valores de amplitud e intensidad son relativos, nos basta
con subir o bajar el volumen del reproductor de sonido. Al hacer esto, aumenta
o disminuye la presión sonora que el altavoz origina y, con ello, la intensidad que
llega a nuestros oı́dos. Ahora bien, si escuchamos de nuevo todo el vı́deo con el
nuevo volumen, comprobaremos que percibimos el mismo grado de disminución
del volumen sonoro al pasar de nota en nota. En efecto, el intervalo entre las
intensidades sonoras, lo que nosotros percibimos como un grado en el volumen
sonoro, sigue siendo el mismo: cada vez que la amplitud se reduce a la mitad
nosotros percibimos el mismo descenso de volumen sonoro, el que corresponde
aproximadamente a 6 dB.
Hemos podido comprobar que nuestra percepción del volumen sonoro guarda mu-
chas similitudes con nuestra percepción de la altura tonal. Sin embargo, hay varias
74
diferencias que conviene tener presente, debidas tanto a las peculiaridades fı́sicas
del sonido, como a las de nuestro sistema auditivo.
A diferencia de la frecuencia que, salvo situaciones excepcionales, se mantiene in-
variable en su transmisión a través de las ondas, la amplitud y la intensidad
disminuyen progresivamente conforme el sonido se aleja de la fuente: la
amplitud de forma lineal y la intensidad según el cuadrado de la distan-
cia. Además, ambas magnitudes son muy sensibles a las múltiples incidencias que
las ondas pueden encontrase en su camino.
Por otra parte, nuestra sensación no responde de igual manera a todos los
sonidos de la misma intensidad, sino que el grado de volumen sonoro
que percibimos depende en buena medida de la frecuencia. Para permitir
comparar el volumen sonoro en función de la frecuencia se ha establecido una
unidad de referencia: el fon o fonio. Hay que tener en cuenta que el fonio no es
una unidad fı́sica objetiva, sino que se trata de una unidad establecida a partir
de criterios psicoacústicos estadı́sticos. El número de fonios de un sonido
simple es la sensación de volumen sonoro que experimenta un oyente
medio cuando escucha un sonido de 1000 Hz de ese número de decibelios
de intensidad absoluta.
Por ello la escala de fonios coincide con el valor de intensidad sonora de un sonido
a 1000 Hz. Por ejemplo, cuando hablamos de un sonido que provoca una sensación
de volumen sonoro de 50 fonios, estamos refiriéndonos a un sonido simple de 1000
Hz cuya intensidad sonora expresada en decibelios absolutos es de 50 dB. Si la
frecuencia del sonido fuera de 200 Hz, para provocar la misma sensación de volumen
sonoro —es decir, 50 fonios— serı́a necesario que tuviera una intensidad de 60 dB,
expresada en unidades absolutas.
Podemos verlo en las gráficas que habitualmente se establecen con los valores psi-
coacústicos de la percepción del volumen sonoro en función de la frecuencia.
75
Figura 5.3: Gráficas de la percepción del volumen sonoro en las diferentes frecuencias.
La raya azul marca los 1000 Hz, la frecuencia de referencia donde el número de
fonios coincide con el valor de la intensidad sonora absoluta. Podemos observar que
en torno a los 4000 Hz es donde, con la misma intensidad sonora, la percepción del
volumen es mayor, tal vez debido a la resonancia de nuestra canal auditivo. Por
otra parte, las zonas extremas, tanto graves como agudas, requieren una intensidad
mucho mayor para que el oyente experimente el mismo número de fonios, es decir,
la misma sensación de volumen sonoro.
5.5. Conclusión
A lo largo de este capı́tulo hemos podido comprobar que nuestra percepción musical
de los parámetros fı́sicos del sonido es logarı́tmica. Percibimos razones interválicas,
no diferencias aritméticas. Mientras la altura tonal es el correlato perceptivo de la
frecuencia, el volumen sonoro está en relación directa con el cuadrado de la ampli-
tud. En ambos casos, nuestra sensación se incrementa de grado en grado cuando
se mantiene la misma razón en la variación de los parámetros fı́sicos. El intervalo
melódico entre dos notas musicales queda determinado por la razón entre sus fre-
cuencias y puede ser expresado utilizando como unidad la octava —la razón 2/1—
o cualquiera de sus subdivisiones, como el semitono o el cent. Ası́ mismo, también
podemos definir el “intervalo” de volumen sonoro entre dos sonidos como la razón
entre el cuadrado de sus amplitudes y utilizar para medirlo el belio —la razón
76
10/1— o el decibelio. El hecho de que, a diferencia de la amplitud, la frecuencia
permanezca invariable a lo largo de la transmisión ondulatoria ha posibilitado su
codificación en las notas y escalas del lenguaje musical.
77
Capı́tulo 6
6.1. Introducción
Los sonidos que oı́mos todos los dı́as, sean o no musicales, no suelen ser sonidos
simples, sino el resultado de la superposición de un conjunto de vibraciones que
coinciden en un momento dado. En el caso de la música, que es lo que nos interesa
ahora, estas superposiciones se pueden producir en cualquier lugar: en el cuerpo
mismo de los instrumentos, en el espacio por el que se transmiten las ondas sonoras
o en el interior de nuestro oı́do.
Cuando se mezclan las vibraciones sonoras se producen diversos fenómenos acústi-
cos, fenómenos que dan lugar a las diferentes cualidades sonoras que oı́mos. Estas
mezclas, dependiendo de sus caracterı́sticas, pueden ser combinaciones armónicas
que percibimos como notas musicales o pueden ser otro tipo de combinaciones en
las que apreciamos simplemente ruido. En efecto, los fenómenos acústicos deriva-
dos de las distintas combinaciones de sonidos simples (es decir, de componentes
sinusoidales) generan buena parte de la riqueza sonora de nuestro entorno. En lo
que concierne a la música, los fenómenos que se crean al combinarse las vibraciones
de distintos sonidos o de distintos componentes de un mismo sonido constituyen
buena parte del fundamento acústico de nuestro sistema musical.
Como se estudia en el capı́tulo siguiente, el sonido armónico o musical, hablando
en general, está formado por una serie de componentes simples cuyas vibraciones
se superponen de una manera especial. Las caracterı́sticas de las mezclas y com-
binaciones de sonidos simples que dan lugar al sonido musical son la causa de su
78
particular naturaleza sonora. Estas caracterı́sticas explican, además, los principios
fı́sicos que rigen las consonancias, los pilares del lenguaje musical.
En este sentido, este capı́tulo prepara el estudio del sonido armónico, es decir,
de la estructura armónica creada por la combinación de componentes simples que
mantienen entre sı́ unas determinadas relaciones. Puesto que los principios que
rigen la superposición de dos componentes simples son los mismos que los que están
detrás de la mezcla de cualquier número de componentes, conviene experimentar
cómo son los fenómenos que se crean cuando interfieren entre sı́ las vibraciones
de dos sonidos simples y analizar a qué se deben esos fenómenos. Después será
sencillo entender las especiales relaciones de conmensurabilidad que se establecen
entre las frecuencias de un número cualquiera de componentes simples cuando se
superponen unos con otros para formar un sonido armónico.
Ası́ pues, en este capı́tulo vamos a comprobar que los fenómenos acústicos que se
crean en las diferentes tipos de mezclas de sonidos simples son el resultado bien
de la diferencia aritmética entre las frecuencias de los sonidos que se superponen
o bien de la razón numérica que hay entre esas frecuencias, y que estos fenómenos
están condicionados por la anchura de la banda crı́tica correspondiente a sus res-
pectivas frecuencias. Además, vamos a atender a los fundamentos acústicos de las
consonancias musicales, es decir, a los fenómenos que se producen cuando se mez-
clan dos sonidos simples cuyas frecuencias mantienen unas especiales relaciones de
conmensurabilidad.
Por otra parte, al estudiar todos estos fenómenos, vamos a entender el mecanismo
acústico que permite la afinación de los instrumentos musicales. Comprenderemos
cómo, a lo largo de la historia, de manera natural y sin recurrir a ninguna herra-
mienta externa, ha sido posible afinar con precisión los instrumentos y, a partir de
esas afinaciones, han sido establecidas las diferentes escalas musicales. En efecto,
podremos experimentar que las interferencias que se crean cuando se mezclan entre
sı́ los sonidos permiten determinar de manera empı́rica las alturas tonales que dan
lugar a los intervalos y a las escalas, y que eso se hace con tanta exactitud que
muy ligeras variaciones son interpretadas por nuestra percepción como extrañas a
esa escala o desafinadas.
Experimentaremos también los lı́mites de nuestra capacidad para discernir indi-
vidualmente sonidos simultáneos, comprobando que estos lı́mites dependen de la
anchura de la banda crı́tica correspondiente a cada zona frecuencial.
Y, por último, mediante la introducción de una distorsión artificial en la señal,
comprobaremos los efectos que ésta puede ocasionar en la mezcla de sonidos sim-
ples, al dar lugar a la aparición de componentes espurios. Esta es la razón de
que, para poder apreciar correctamente las caracterı́sticas sonoras que se mues-
79
tran en los vı́deos, sea necesario que la distorsión del equipo de audio en el que los
reproduzcamos sea pequeña, como he indicado en el Prólogo de este libro.
A mi juicio, el modo más sencillo que tenemos hoy en dı́a para estudiar los fenóme-
nos acústicos y psicoacústicos que se crean al mezclarse los sonidos es observar
como se comportan dos sonidos fabricados por ordenador. El hecho de utilizar so-
nidos artificiales nos garantiza su estabilidad y permite que sus parámetros estén
perfectamente controlados. Mediante vı́deos que simulan un osciloscopio creados
a partir de Matlab, a lo largo de este capı́tulo vamos a escuchar cómo suenan las
diferentes mezclas de interés musical de dos sonidos simples y observar la forma
de la vibración de la señal resultante, atendiendo tanto a los fenómenos acústicos
en sı́ mismos, como a la manera en la que nosotros los percibimos.
80
A continuación vamos a estudiar una serie de fenómenos fı́sicos, todos ellos de in-
terés musical, que surgen al mezclarse dos sonidos simples. Todos estos fenómenos,
ası́ como la forma en la que nosotros los percibimos, dependen de tres factores: la
distancia aritmética entre las frecuencias de los sonidos que se mezclan; la razón
numérica que se establece entre sus frecuencias; y la región frecuencial a la que
pertenecen. Generalizados a la mezcla de cualquier número de componentes, estos
fenómenos y la forma en la que nosotros los percibimos constituyen el fundamento
acústico sobre el que se ha construido nuestro Sistema Musical.
81
Figura 6.1: Vı́deo con dos sonidos unı́sonos que van incrementando su desfase.
82
Para ver en detalle lo que sucede, la figura de abajo presenta una instantánea de
la forma de la vibración en cada una de las cinco emisiones, de modo que cada
gráfica corresponde a uno de los desfases que hemos visto en el vı́deo.
Figura 6.2: Formas de la vibración de dos sonidos simples unı́sonos con diferentes
desfases.
Puesto que cada muestra de la señal resultante es, según el Principio de Superposi-
ción Lineal, la suma de las correspondientes muestras de las señales componentes,
vemos que, conforme se van incrementando los desfases, la pérdida de sincronı́a da
lugar a que la amplitud resultante vaya disminuyendo. En la gráfica de la quinta
fila, en la que ambas señales están en oposición de fase, podemos apreciar que los
valores de todas las muestras son prácticamente opuestos, de modo que resulta
fácil deducir que si ambos componentes hubieran tenido la misma amplitud, el
sonido resultante hubiera tenido una amplitud de 0, es decir, hubiera desaparecido
por completo.
Ası́ pues, en este vı́deo hemos podido observar que el resultado de la mezcla de
dos sonidos simples de igual frecuencia siempre es otro sonido simple de la mis-
ma frecuencia y que el cambio en la fase inicial sólo modifica la amplitud del
sonido simple resultante y, por lo tanto, solo repercute en el volumen sonoro que
apreciamos, sin que afecte a la cualidad sonora que percibimos.
83
Los cambios en el volumen sonoro derivados de los desfases entre dos sonidos
unı́sonos explican algunos problemas que pueden surgir al realizar una grabación
en un estudio. En el caso de que la misma fuente sonora sea recogida por dos
micrófonos, pudiera suceder que algunos componentes llegaran a cada micrófono
casi en oposición de fase, lo que podrı́a dar lugar a que, al realizarse la mezcla,
esos componentes quedaran significativamente atenuados. Si esto ocurre se puede
percibir una especie de agujero acústico en el sonido grabado. Para evitar este
problema las mesas de mezclas suelen llevar un dispositivo que permite invertir
la fase de cada señal de entrada. En la audición directa este problema queda
minimizado por el hecho de que disponemos de dos oı́dos y porque los sonidos
habitualmente llegan hasta nosotros con múltiples desfases, debido a que, por
regla general, provienen de diversos lugares, como consecuencia de las reflexiones
en las paredes, techos y suelos.
84
Figura 6.3: Vı́deo con diferentes casos de batidos de primer orden.
85
batidos por segundo que oı́mos (es decir, la frecuencia de los batidos) coincide
con la diferencia que hay entre la frecuencia de los dos componentes que han
intervenido en la mezcla. En efecto, en el primer caso oı́mos 8 batidos por segundo;
en el segundo 4; en el tercero 2; en el cuarto 1; en el quinto 1 batido cada dos
segundos (es decir, 0,5 cada segundo); y en el último los batidos desaparecen y
los dos componentes se quedan fundidos plenamente en un solo sonido estable y
continuo.
Ahora bien, si detenemos el vı́deo en cualquier momento, con independencia de
que haya o no batidos, observaremos que en todos los casos la vibración sigue
teniendo una forma sinusoidal. Esto explica que en todos esos sonidos, incluso
cuando están formados por dos componentes de diferente frecuencia, oı́mos un
solo sonido simple, con una altura tonal bien definida.
En resumen, cuando se producen los batidos de primer orden la amplitud
del sonido oscila periódicamente, pero su frecuencia permanece estable
durante toda su duración.
Si tenemos un oı́do muy fino podremos apreciar que la altura tonal desciende
ligerı́simamente de un sonido a otro, conforme se van aproximando más las fre-
cuencias de los dos sonidos componentes. La frecuencia del sonido resultante
depende de la frecuencia y la amplitud de los componentes que lo for-
man. Si la amplitud de ambos componentes hubiera sido la misma, la frecuencia
resultante de la mezcla hubiera sido la media aritmética de las frecuencias de los
dos componentes; pero como en todos los casos de este vı́deo el componente más
grave tiene mayor amplitud, la frecuencia resultante se aproxima más a la de este
componente. Por ello la frecuencia de los seis sonidos que oı́mos desciende ligera-
mente de un caso a otro: desde 222 Hz en el primero, hasta 220 Hz en el último
cuando desaparecen los batidos y ambos componentes suenan al unı́sono.
Para ver en detalle a qué se debe este fenómeno, vamos a centrar nuestra aten-
ción en las señales del primer caso del vı́deo, cuando las frecuencias de los dos
componentes están a una distancia de 8 Hz. Veamos una gráfica que corresponde
a 2 décimas de segundo de este primer sonido, en concreto, las que están entre
los segundos 1 y 1,2. En esta gráfica las señales están más comprimidas que en la
ventana del osciloscopio, donde se representan sólo 50 milésimas de segundo, con
lo que ahora podremos apreciar la forma de los batidos.
86
Figura 6.4: Detalle de un batido de primer orden.
La gráfica representa algo más de un batido y medio. En ella podemos ver que la
ligera diferencia entre las frecuencias de los dos componentes provoca unos desfases
que van cambiando durante toda la emisión del sonido. Ası́, vemos que la señal azul
y la señal magenta (que, recordemos, corresponden respectivamente al componente
de 220 Hz y al de 228 Hz) pasan alternativamente por momentos en los que están
en fase y por momentos en los que están en oposición de fase. En el primer caso
la señal resultante tiene la máxima amplitud y en el segundo, la mı́nima.
Por ejemplo, podemos observar que en torno a los segundos 1,07 y 1,20 las señales
magenta y azul coinciden en sus fases, con lo que en ese momento, al sumarse la
amplitud de ambos componentes, la señal verde adquiere su máxima amplitud (0,2
+ 0,1 = 0,3). Por el contrario, en torno a los segundos 1,00 y 1,13 ambas señales se
encuentran en oposición de fase, por lo que en ese momento la amplitud resultante
es la diferencia entre la amplitud de ambos componentes, teniendo su valor más
bajo (0,3 – 0,2 = 0,1). La profundidad del batido es la diferencia entre la amplitud
máxima y mı́nima de la señal resultante, por lo que en este caso es de 0,2 (como
en el resto de los sonidos del vı́deo en los que hay batidos).
La variación en los desfases entre los componentes es la causa de que la amplitud
de la señal resultante vaya modificándose a lo largo del tiempo, oscilando también
de una forma sinusoidal. Ese cambio periódico de la amplitud es lo que origina
los batidos que escuchamos. El ritmo de los batidos o pulsaciones es la diferencia
aritmética entre las frecuencias de los componentes.
Para entenderlo mejor podemos imaginarnos la señal de cada componente simple
como si fuera el resultado de un movimiento circular uniforme, similar al del panel
87
de la izquierda del vı́deo de la figura 4.2 del capı́tulo 4. En un segundo el com-
ponente de color magenta dará 220 vueltas, mientras que el componente de color
azul dará 228 vueltas. Por lo tanto, como si se tratara de una carrera de coches, en
un segundo el componente magenta habrá “doblado” 8 veces al componente azul.
Y cada vez que lo “doble” sus fases volverán a sincronizarse, de modo que en la
vuelta de después de la sincronización, en la que ambos componentes irán casi a
la vez, se producirá la máxima amplitud del sonido resultante; por el contrario,
como consecuencia de los desfases, cuando ambos componentes estén en oposición,
el sonido resultante alcanzará su amplitud mı́nima.
En resumen, cuando se mezclan dos sonidos de frecuencias muy próximas,
el resultado es un solo sonido simple, cuya frecuencia se encuentra entre
la de los dos componentes y cuya amplitud oscila de forma sinusoidal
tantas veces por segundo como la diferencia que hay entre la frecuencia
de los dos componentes, dando lugar a los batidos de primer orden.
Hay que tener en cuenta que para que se perciban los batidos la diferencia entre las
frecuencias de los componentes debe ser inferior a 15 Hz, aproximadamente, pues
nuestro sistema perceptivo no tiene capacidad para distinguir con nitidez cambios
más rápidos en la variación de los parámetros sonoros.
Cualquier músico que tiene que afinar su instrumento está habituado a “poner
el oı́do”, es decir, a prestar atención y escuchar las pequeñas oscilaciones en el
volumen sonoro que se producen cuando las frecuencias de dos sonidos distintos
que se emiten simultáneamente están muy próximas, pero no son idénticas. En
efecto, como el fenómeno de los batidos se produce de manera natural siempre
que se mezclan sonidos de frecuencias muy próximas, su observación ha sido el
método habitualmente utilizado para afinar los instrumentos musicales: si se conoce
la frecuencia de un sonido que se utiliza de referencia, este método permite la
determinación precisa de la frecuencia de otro.
El vı́deo de la figura 6.3 nos sirve para entender cómo se utilizan los batidos para
la afinación. Por ejemplo, para afinar la cuerda de una guitarra, tomando como
referencia la nota ya afinada de una cuerda inferior, empezaremos tensándola de
manera aproximada para acercarla al sonido de referencia y, una vez en ese rango,
iremos ajustando su tensión hasta que los batidos desaparezcan por completo.
En el vı́deo vemos que, conforme las frecuencias de los componentes están más
próximas, el ritmo de los batidos va disminuyendo, hasta desaparecer cuando los
sonidos están completamente afinados.
88
Incluso cuando no se busca una coincidencia exacta, el número de batidos que
se produce cada cierto tiempo proporciona al músico una medida precisa de la
diferencia entre las frecuencias de los dos sonidos. El número de batidos que se
produce por segundo (es decir, la frecuencia de los batidos) es un medio para
determinar con precisión el grado de desafinación.
Este procedimiento no sólo es válido para afinar notas unı́sonas, sino también para
determinar la afinación de las principales consonancias musicales y, a partir de ahı́,
la escala entera. Aunque en este capı́tulo estamos estudiando el modelo de dos so-
nidos simples cuyas frecuencias se superponen en un momento dado, tenemos que
tener presente que la mayorı́a de los sonidos que emiten los instrumentos musica-
les no son simples, sino que están formados por muchos componentes armónicos,
como se estudia en el capı́tulo 7. Por ello, en la afinación natural la frecuencia de
algún importante componente armónico de una nota coincidirá exactamente con
la frecuencia de otro armónico de la otra nota. En la afinación temperada, donde
ya no se produce esa coincidencia exacta, el número de batidos permite bajar con
precisión las quintas, exactamente en la pequeña cantidad requerida. Éste es el
método habitualmente utilizado por los afinadores de pianos.
89
do áspero, sin que todavı́a seamos capaces de distinguir dos alturas tonales
diferenciadas.
c) Cuando la separación está cerca de la anchura de la banda crı́tica corres-
pondiente a la zona frecuencial en la que se hallan los dos componentes que
se mezclan, comenzamos a distinguir ya dos sonidos, pero la cualidad sonora
de la mezcla sigue siendo áspera y rugosa.
d) Conforme aumenta la distancia entre las frecuencias de los dos componen-
tes, la cualidad sonora se va haciendo cada vez menos rugosa, hasta que, una
vez superada holgadamente la anchura de su banda crı́tica, llega un momento
en el que percibimos con nitidez los dos sonidos.
Para experimentar esto, he fabricado, a partir de fotogramas construidos mediante
Matlab, un vı́deo con cuatro sonidos en los que se mezclan dos componentes simples
de la misma amplitud. Las frecuencias de los dos componentes se van distancian-
do progresivamente: en todos los casos la frecuencia del componente grave es 220
Hz, un la3 temperado; en el primer sonido, la frecuencia del componente agudo es
233,1 Hz, que corresponde al sib3 de la escala temperada habitual, de modo que
la distancia frecuencial respecto al componente grave es de 13,1 Hz; en el segundo
sonido, la frecuencia del componente agudo es 246,9 Hz, el si3 de la escala tempe-
rada, con lo que la distancia respecto al grave es de 26,9 Hz; en el tercer sonido,
la frecuencia del componente agudo es 261,6 Hz, el do4 de la escala temperada,
con lo que la distancia respecto al grave es de 41,6 Hz; y en el cuarto sonido la
frecuencia del componente agudo es 311,1 Hz, el mib4 de la escala temperada, de
modo que la diferencia con el componente grave es de 91,1 Hz.
90
En el primer sonido, donde los componentes están separados 13,1 Hz, oı́mos una
nota simple tremolada, con unos batidos muy rápidos y muy profundos, similares
a los que hemos oı́do en los primeros casos del vı́deo de la figura 6.3. En efecto,
como la distancia frecuencial es menor de 15 Hz, estamos ante un caso de una
mezcla en la que se percibe un solo sonido, pero en la que se producen batidos de
primer orden, como hemos visto en el apartado anterior. Lo he incluido aquı́ para
que podamos comparar su sonido con el de los siguientes casos. La altura tonal
que percibimos corresponde a una nota situada entre el la3 y el sib3 , pues, al ser
igual la amplitud de ambos componentes, la frecuencia del sonido resultante es la
media aritmética entre ellos, es decir, 226,6 Hz.
En el segundo sonido, cuando la distancia entre las frecuencias de los dos compo-
nentes es de 26,9 Hz, no oı́mos ya ninguna nota musical, ni una sola nota tremolada,
ni tampoco las dos notas por separado, sino un sonido áspero y rugoso, como un
zumbido. Ello se debe a que, cuando la diferencia aritmética entre las frecuencias
de los dos componentes supera los 15 Hz aproximadamente, la frecuencia de los
batidos es tan rápida que nuestro sistema auditivo es incapaz de seguirlos. Por
eso ya no podemos distinguir un solo sonido simple tremolado, sino que oı́mos un
sonido sucio y rugoso, un zumbido borroso en el que no oı́mos en absoluto los
componentes individuales de la mezcla.
En el tercer sonido, en el que la distancia entre las frecuencias es de 41,6 Hz,
podemos apreciar ya las dos notas por separado, el la3 y el do4 , aunque la cualidad
de la mezcla que oı́mos sea sucia y borrosa.
En el cuarto sonido, sin embargo, cuando la distancia entre las frecuencias es de
91,1 Hz, distinguimos con nitidez dos notas individuales, el la3 y el mib4 , y el
carácter rugoso de la mezcla anterior ha desaparecido, siendo sustituido por una
sonoridad mucho más clara y eufónica.
Estos fenómenos son de orden psicoacústico, es decir, se deben a las peculiaridades
de nuestro sistema auditivo, en concreto, a la fisiologı́a de nuestro oı́do interno.
Como consecuencia de ello, para poder distinguir dos sonidos simples simultáneos
es necesario que la separación entre ellos supere una distancia mı́nima. La an-
chura de la banda crı́tica varı́a en función de la zona frecuencial de los
sonidos que se superponen, incrementándose conforme los sonidos son
más agudos. En los casos del vı́deo la anchura de la banda crı́tica está en torno
a los 40 Hz. Ello explica que no hayamos sido capaces de distinguir en el vı́deo
los componentes simples cuando la distancia entre sus frecuencias era inferior a
esta cantidad y, sin embargo, en el último caso, cuando la separación excede en
mucho a la anchura de la banda crı́tica de esta región frecuencial los oı́mos con
claridad.
91
Es oportuno aclarar que, si en lugar de sonidos simples, se hubieran superpuesto
notas normales —es decir, compuestas por varios armónicos—, hubiéramos podido
distinguirlas con facilidad, pues la distancia entre sus armónicos superiores hubiera
excedido la anchura de su banda crı́tica correspondiente.
92
Ahora bien, en fı́sica, astronomı́a, otras ciencias en general y en la música en
particular, hay circunstancias en las que es relevante que esa razón sea sencilla.
Podemos considerar que una razón es sencilla cuando, expresada como fracción
irreducible, sus términos están comprendidos entre los primeros números enteros
positivos. Diremos en ese caso que su conmensurabilidad es próxima. Ası́ pues,
dos números están en razón de conmensurabilidad próxima cuando los
términos de la fracción irreductible que los relaciona son alguno de los
primeros números enteros positivos. Conforme menores sean los términos de
la fracción irreducible, más sencilla será la razón y más próxima la conmensurabi-
lidad. En este sentido, 2/1 es una razón más sencilla que 3/2, y ésta más sencilla
que 4/3.
En lo que concierne a la música, esta sencillez tiene que ver con los lı́mites de
nuestro sistema auditivo. La proximidad de los términos de la razón entre las
frecuencias de dos sonidos simples va a permitir que nuestro oı́do perciba su su-
perposición como una buena mezcla y los reconozca como consonantes: cuando
las dos frecuencias que se superponen son cercanamente conmensura-
bles, las vibraciones de los sonidos coinciden de modo periódico cada
pocos ciclos, lo que hace que el patrón de repetición de las coincidencias
sea lo suficientemente sencillo como para que nuestro sistema percepti-
vo sea capaz de seguirlo. De ese modo podemos oı́r la mezcla como un sonido
perfectamente amalgamado.
Cuando las frecuencias de los dos sonidos componentes están en una relación doble,
2/1, sucede que mientras una vibración completa un ciclo entero, la otra comple-
ta exactamente dos; cuando están en una relación sesquiáltera, 3/2, ocurre que
mientras una vibración realiza dos ciclos, la otra hace exactamente tres. Por eso
conforme más próxima es la conmensurabilidad, más unitaria resulta la mezcla de
las vibraciones de los dos sonidos simples, hasta el punto de que en la octava, 2/1,
la más perfecta de las consonancias, prácticamente oı́mos un solo sonido.
Ası́ pues, la consonancia, más que un hecho fı́sico externo, viene dada
por la capacidad de nuestro oı́do para reconocer un sonido unitario
cuando se combinan dos vibraciones cuya periodicidad coincide cada
pocos ciclos. Por eso, conforme la conmensurabilidad se aleja, percibimos un
sonido cada vez más complejo: cada vez oı́mos menos el resultado de la mezcla y
los componentes individuales van adquiriendo más presencia.
La cuestión serı́a precisar hasta dónde podemos considerar que una razón expresa
una conmensurabilidad próxima. La teorı́a musical creada por los antiguos, que
realizaba los cálculos atendiendo a la longitud de la cuerda y no al valor de la
frecuencia, consideraba que sólo los intervalos formados por razones cuyos términos
93
estaban comprendidos entre los cuatro primeros números enteros eran consonantes.
De acuerdo a este criterio, dentro del rango de la octava, serı́an consonantes las
mezclas de sonidos que están en razón doble (2/1), es decir, que están a distancia
interválica de una octava; en razón sesquiáltera (3/2), los que están a distancia de
un intervalo de quinta; o en razón sesquitercia (4/3), en un intervalo de cuarta.
No en vano estos intervalos son los que han estructurado las escalas musicales de
Occidente.
Desde el punto de vista de nuestra percepción musical, la relación 5/4 podrı́a
incluirse también entre las razones simples, pero lo cierto es que el intervalo de
tercera mayor (al que, en principio, corresponderı́a en nuestras escalas) queda ya
bastante alejado de esta razón: el intervalo de 5/4 está 14 cents por debajo de la
tercera mayor temperada y 22 cents por debajo del dı́tono que surge en la afinación
por quintas justas de 3/2.
94
amplitud de cada uno de ellos es diferente: la del componente grave es 0,2 y la del
agudo 0,1.
Figura 6.6: Vı́deo con las consonancias definidas por los cuatro primeros números
enteros.
Si ponemos un poco de atención, en todos estos ejemplos, además del sonido re-
sultante de la mezcla, también podemos oı́r cada uno de los dos componentes
por separado. Solamente en el primer caso, cuando las frecuencias están en razón
2/1, predomina la tendencia a percibir un solo sonido, en lugar de dos sonidos
simultáneos distintos que se mezclan bien. Pero incluso ahı́, si orientamos un po-
co nuestra escucha para hacerla más analı́tica, podemos apreciar las dos notas
individuales.
Para entender por qué percibimos en todos los casos la superposición de los dos
sonidos componentes como una mezcla consonante, vamos a fijarnos en la forma
de la vibración de cada uno de los ejemplos que vemos en el osciloscopio del vı́deo.
Para poder comparar unas formas con otras, la figura 6.7 representa un fragmento
de la señal de audio de cada uno de los ejemplos del vı́deo.
95
Figura 6.7: Formas de la vibración de las consonancias entre los cuatro primeros núme-
ros enteros.
En los tres primeros casos podemos observar que cada vez que el componente grave,
el de color magenta (el sonido de 220 Hz, que es común a todos ellos) realiza un
ciclo completo, el componente agudo, el de color azul, completa exactamente un
número entero de ciclos: dos ciclos en el caso de la octava (de ahı́ la razón 2/1);
tres en el caso de la octava y quinta natural (de ahı́ la razón 3/1); y cuatro en el
caso de la doble octava (de ahı́ la razón 4/1). Ello hace que en todos estos casos el
sonido resultante de la mezcla tenga el mismo periodo que el del componente más
grave, como podemos comprobar en las gráficas.
En la cuarta gráfica, en el caso de la quinta natural, vemos que cada dos ciclos
del componente grave, el componente agudo completa exactamente tres (de ahı́
la razón 3/2). Por ello, el periodo del sonido resultante es el doble que el del
componente más grave o, lo que es lo mismo, el triple del periodo del componente
más agudo.
En la última gráfica, en el caso de la cuarta natural, observamos que cada tres
ciclos del componente grave, el componente agudo completa exactamente cuatro
(de ahı́ la razón 4/3). De esta forma, el periodo del sonido resultante es el triple
del periodo del componente más grave y el cuádruple del más agudo.
Ası́ pues, en este vı́deo y en las gráficas correspondientes, hemos podemos observar
que la conmensurabilidad es la causa de la aparición de una periodicidad
en la mezcla resultante.
96
Podrı́a parecer que esta periodicidad deberı́a haber dado lugar a la percepción de la
altura tonal correspondiente a la mezcla. Si esto hubiera sido ası́, en el cuarto caso,
por ejemplo, deberı́amos haber oı́do la nota la2 , que corresponderı́a al periodo de
la mezcla resultante, en lugar de las notas individuales la3 y mi4 bien amalgamadas
y formando la consonancia de quinta. Sin embargo, esto no ocurre ası́, salvo que
el equipo de música en el que estemos oyendo los ejemplos distorsione y provoque
la aparición de componentes espurios, como veremos un poco más adelante. La
explicación de ello reside en que nuestra percepción es frecuencial, de modo que,
como estudiaremos en el capı́tulo correspondiente, oı́mos dos notas y no una sola
nota más grave correspondiente a la señal resultante.
Pero, debido a los márgenes de nuestra percepción, las fronteras entre lo que nos
suena consonante y lo que nos parece disonante son algo difusas.
Para observar donde acaba la consonancia y donde empieza la disonancia, he fa-
bricado un vı́deo con varios casos en los que se mezclan dos sonidos simples cuya
distancia interválica está en torno a la quinta: la quinta natural o quinta justa (la
que propiamente está en razón 3/2), la quinta temperada, la quinta disminuida y
una quinta desafinada. He elegido el ámbito interválico de la quinta por dos razo-
nes: primero porque la quinta justa es la consonancia en la que se pueden distinguir
con más facilidad los dos componentes; y, segundo, porque en nuestro sistema mu-
sical también se encuentran la quinta temperada y la quinta disminuida, por lo
que estamos familiarizados con ellas y podemos compararlas. He añadido la quinta
desafinada para permitir apreciar la diferencia.
En todos los ejemplos la frecuencia de la nota grave es 220 Hz (la3 ). En el primer
caso la frecuencia de la nota aguda es 330 Hz (mi4 natural), por lo que están
exactamente en razón 3/2 y forman el intervalo de quinta natural o justa. En el
segundo caso la frecuencia de la nota aguda es de 329,6 (mi4 temperado) por lo que
forman un intervalo de quinta temperada (700 cent) con la nota grave (la quinta
temperada está solamente 2 cent por debajo de la quinta justa). En el tercer caso
la frecuencia de la nota aguda es 325,8 Hz (mi4 desafinado) y forman un intervalo
de quinta que está 20 cent por debajo del que formarı́a con el mi4 temperado. Y
en el cuarto caso la frecuencia de la nota aguda es 311,1 Hz (mib4 ) y forma un
intervalo de quinta disminuida (600 cent) con la nota grave. Para permitir que se
distingan la amplitud del componente grave es 0,2 y la del agudo 0,1.
97
Figura 6.8: Vı́deo que ilustra el paso de la consonancia a la disonancia.
En todos los casos oı́mos los dos sonidos de forma independiente, pues la distancia
entre ellos excede con mucho la anchura de la banda crı́tica de esa zona frecuen-
cial, que está en torno a los 55 Hz, lo cual, como hemos visto en los apartados
anteriores, es una condición necesaria para que podamos reconocer con claridad
ambos sonidos. Analicemos con un poco de detenimiento lo que ocurre en cada
caso.
a) En el primer caso, cuando las frecuencias de los componentes están exac-
tamente en razón 3/2 y forman la consonancia de quinta natural, oı́mos una
mezcla muy bien amalgamada y observamos en el osciloscopio que la forma
de la vibración resultante permanece totalmente estable. En efecto, el máxi-
mo común divisor de las frecuencias de los dos componentes (220 y 330) es
110. Esto quiere decir que la forma de la vibración de la mezcla resultante se
repite 110 veces por segundo y que, por lo tanto, su periodo es 1/110 s, o sea,
redondeando, 9 milésimas de segundo. Ası́ pues, cada 9 ms aproximadamente
ambos componentes se sincronizan: el sonido grave completa 2 ciclos mientras
que el sonido agudo completa 3, como podemos comprobar en el osciloscopio
si detenemos el vı́deo. Este periodo de 9 ms está dentro del rango temporal
en el que nuestro sistema auditivo es capaz de detectar periodicidades en la
forma de la vibración. Por eso, aunque seguimos oyendo los dos componentes
por separado, percibimos que se combinan muy bien, por lo que obtenemos
una clara sensación de buena mezcla, una mezcla sin perturbaciones que no
varı́a a lo largo del tiempo.
b) En el segundo caso, en el que se mezclan dos sonidos que están en intervalo
de quinta temperada, la razón entre sus frecuencias, redondeadas a décimas
de hercio, es 3296/2200. Esta razón expresada como fracción irreducible es
98
412/275, la cual no es para nada una razón sencilla, por lo que las frecuencias
de los componentes están muy lejos de mantener una relación de conmensura-
bilidad próxima. Sin embargo, la diferencia entre la frecuencia del componente
agudo (329,6 Hz) y la del componente agudo del caso de la consonancia de
quinta natural (330 Hz) es solamente de cuatro décimas de hercio. En efecto,
bastarı́a con subir 0,4 Hz la frecuencia de la nota aguda para obtener la razón
simple 3/2. Por ello también ahora oı́mos un intervalo de quinta cuyas notas
se mezclan bien, lo que coincide con la cuasi-periodicidad que observamos en
la señal verde del vı́deo. Ahora bien, la mezcla que oı́mos ya no es totalmente
estable como en el caso anterior, sino que, si prestamos atención, podremos
oı́r que va acompañada de una lenta y periódica evolución de la cualidad so-
nora, lo cual también se refleja en la cı́clica evolución de la forma de la señal
resultante que observamos en el osciloscopio, una forma que parece estirarse
y encogerse como si se tratara de una goma elástica. En el siguiente apartado,
en el que se estudian los batidos de segundo orden, se explica a qué se debe
este fenómeno.
c) En el tercer caso, en la superposición de dos sonidos que forman un interva-
lo de quinta desafinada (20 cent menos que la quinta temperada), vemos que
la razón entre sus frecuencias es 3258:2200, que expresada como fracción irre-
ducible es 1629:1100, la cual está muy alejada de ser una razón simple y, por
lo tanto, de mantener una conmensurabilidad próxima. El sonido agudo, el de
325,8 Hz, es 4,2 Hz más grave que el sonido agudo de la mezcla consonante
justa, que tiene 330 Hz. Es decir, le faltan 4,2 Hz para mantener, respecto
al sonido grave, la razón simple más cercana, en este caso la razón 3:2. Y
esta diferencia es ya significativa. Por ello ahora percibimos que esta mezcla
nos produce una sensación de inestabilidad. El ritmo de las modificaciones de
la cualidad sonora es ya tan rápido que dificulta la buena amalgama de los
dos componentes y percibimos ahora claramente los batidos de segundo or-
den. Podemos apreciar también esa inestabilidad en el osciloscopio del vı́deo,
donde la señal resultante modifica constantemente su forma.
d) En el cuarto caso, en el que se superponen dos sonidos que están en un
intervalo de quinta disminuida, oı́mos una disonancia. Percibimos con claridad
cada uno de los sonidos componentes, pero ahora ya no tenemos la sensación
de que se amalgamen el uno con el otro. Ası́ mismo vemos en el osciloscopio
que la forma de la vibración cambia constantemente. Si atendemos a sus fre-
cuencias (220 Hz y 311,1 Hz), vemos que la razón entre ellas es 3111:2200,
que es ya una fracción irreducible, por lo que su conmensurabilidad es muy
alejada: el sonido grave tendrı́a que completar 2200 ciclos y el agudo 3111
para que sus fases volvieran a sincronizarse y se repitiera de nuevo la forma
99
de la vibración. El periodo de la señal resultante serı́a, por lo tanto, de 10
segundos, lo que, a efectos de nuestra percepción, es equivalente a decir que
no hay ningún periodo. Con la finalidad de expresar este intervalo como una
razón más simple, podrı́amos bajar la afinación del sonido agudo 1,1 Hz y
atribuirle una frecuencia de 310 Hz. En ese caso la razón simple entre las
frecuencias expresada como fracción irreducible serı́a 31:22, por lo que cada
22 ciclos del sonido grave, el sonido agudo completarı́a 31. Pero, incluso en
este caso, la conmensurabilidad seguirı́a siendo muy alejada —el periodo de la
señal resultante serı́a ahora un segundo— por lo que percibirı́amos esa mezcla
también como una disonancia.
100
6.6.4. Grados de consonancia según la conmensurabilidad
Nuestra percepción auditiva no es igual para todas las consonancias, sino que el
grado de perfección de la consonancia disminuye conforme la conmensurabilidad
entre las frecuencias de los dos sonidos simples que se mezclan se hace más lejana.
Para experimentar este fenómeno he confeccionado un vı́deo con cinco ejemplos
en los que se mezclan dos componentes simples, dentro del rango de una octava.
En todos los casos sus frecuencias están en una razón simple próxima y, por lo
tanto, forman una consonancia, pero su conmensurabilidad se va alejando, desde
el unı́sono (1/1) hasta la consonancia de tercera mayor natural (5/4).
En todos los ejemplos la frecuencia del componente grave es 440 Hz, un la4 en
la afinación habitual. La frecuencia del componente agudo va cambiando: en el
primer caso es también 440 Hz, por lo que ambas notas forman un unı́sono (1/1);
en el segundo, es 880 Hz, un la5 , por lo que forman una octava (2/1); en el tercero
es 660 Hz, un mi5 , formando un intervalo de quinta natural (3/2); en el cuarto
caso, redondeando a décimas de hercio, es 586,7 Hz, un re5 , por lo que forman
un intervalo de cuarta natural (4:3); y en el quinto caso la frecuencia aguda es
550 Hz, un do#5 , formando una tercera mayor natural (5:4). En este vı́deo he
elegido como nota grave la4 , una nota que está en una octava más aguda que la
de los vı́deos anteriores, para evitar que en la consonancia de tercera mayor las
frecuencias de los dos sonidos se aproximaran a la anchura de la banda crı́tica y se
generara alguna rugosidad en la mezcla resultante. Como referencia para nuestro
oı́do, a fin de facilitar la escucha individualizada de los componentes del intervalo
de octava, he incluido también el unı́sono.
Figura 6.9: Vı́deo con las consonancias de unı́sono, octava, quinta, cuarta y tercera
mayor.
101
En el osciloscopio del vı́deo podemos apreciar que la forma de la vibración per-
manece totalmente estable en todos los casos y que en cada uno de ellos oı́mos
con claridad una mezcla consonante. En efecto, al mantener las frecuencias de los
dos sonidos una relación de conmensurabilidad próxima, el periodo de la señal re-
sultante está dentro de los márgenes en los que nuestro sistema auditivo es capaz
de detectar la sincronización de ambas vibraciones, de modo que percibimos una
buena mezcla.
Pero si escuchamos con un poco de atención nos damos cuenta de que no todas
las mezclas son igualmente armoniosas, sino que, a medida que avanza el vı́deo y
la conmensurabilidad entre las frecuencias se va alejando, se produce una pérdida
progresiva de la sensación de “buena mezcla”. Conforme la conmensurabili-
dad de las frecuencias es más alejada, el periodo de su sincronización
es mayor y la forma de la vibración resultante adquiere mayor comple-
jidad, por lo que cada vez se hace más difı́cil percibir las coincidencias
periódicas entre los dos sonidos. Ello da lugar a la progresiva disminución
de la sensación de buena mezcla: desde la octava, en la que la amalgama de los
dos componentes es tan fuerte que se hace difı́cil su escucha individualizada, has-
ta la tercera mayor natural, donde la sensación de buena mezcla es ya bastante
débil.
102
el quinto, 240o ; y en el sexto, 300o . La amplitud del componente agudo es 0,3 y la
del grave 0,1.
Figura 6.10: Vı́deo de dos sonidos en consonancia de octava con diferentes desfases.
103
próxima y ser, por lo tanto, consonantes se produce una modificación periódica
de la forma de la vibración resultante, la cual es percibida por nuestro oı́do como
una oscilación regular de la cualidad sonora. Este fenómeno recibe el nombre de
“batidos de segundo orden”. Estos fenómenos recuerdan mucho a las interferencias
que se producen entre sonidos muy próximos al unı́sono (es decir, los batidos de
primer orden), pero sus causas y sus efectos no son exactamente los mismos.
He fabricado un vı́deo que nos va a permitir experimentar cómo se producen los
batidos de segundo orden cuando se mezclan dos sonidos cuyas frecuencias están
muy próximas a la consonancia de octava. En todos los casos la frecuencia del
componente más grave es de 220 Hz (la3 ). En el primer caso la frecuencia del
componente agudo es de 446 Hz, con lo que la diferencia respecto a la frecuencia
que deberı́a tener para estar en razón doble (440 Hz) es de 6 Hz; en el segundo caso
la frecuencia del componente agudo es de 444 Hz, es decir, tiene una diferencia
respecto a la consonancia de octava de 4 Hz; en el tercer caso la frecuencia aguda es
de 442 Hz con lo que su diferencia es de 2 Hz; y en el cuarto caso la frecuencia del
sonido agudo es de 440 Hz, con lo que la razón que mantiene con el sonido grave es
exactamente la de octava. Para que se distingan bien los dos componentes y para
que se aprecie mejor el fenómeno de los batidos de segundo orden, la amplitud de
cada componente es diferente: la del primero es 0,3 y la del segundo 0,1.
Figura 6.11: Vı́deo con los batidos de segundo orden de dos sonidos cuyas frecuencias
están muy próximas a la octava.
En los tres primeros sonidos podemos observar que la forma de la vibración resul-
tante cambia periódicamente, como si se tratara de una goma elástica, mientras
que su amplitud, al margen de los cambios de posición que acompañan la evolución
104
de la forma, permanece prácticamente constante. En el último caso, por el contra-
rio, cuando son perfectamente consonantes, la señal permanece totalmente estable.
En todos ellos, el ritmo con el que la forma de la vibración evoluciona coincide
con la variación periódica en la cualidad del sonido que oı́mos. Estas variaciones
periódicas dan lugar a los batidos de segundo orden. Los batidos de segundo orden
se repiten tantas veces por segundo como la diferencia que hay entre la frecuencia
que tiene el sonido agudo y la que deberı́a tener para mantener la razón exacta de
octava (440 Hz): en el primer caso, 6 veces por segundo; en el segundo caso, 4 veces
por segundo; y en el tercero, 2 veces por segundo. En el último caso, al mantener
la frecuencia de los dos sonidos la razón 2:1 exacta, desaparecen los batidos y los
dos sonidos se funden perfectamente.
Veamos la explicación de este fenómeno. En el vı́deo de la figura 6.10, donde los dos
sonidos mantienen exactamente la razón 2/1, hemos visto que los desfases entre los
sonidos dan lugar a diferentes formas en la vibración resultante, pero, puesto que
esos desfases permanecen constantes durante la emisión de cada sonido, la forma
de la vibración resultante se mantiene estable en todos los casos. Pero ahora las
frecuencias de los dos sonidos que se mezclan no están exactamente en la razón
2/1, sino que el sonido agudo difiere en algunos hercios del que deberı́a tener para
que la mezcla fuera exactamente una octava.
Esta ligera diferencia da lugar a que el desfase entre ambas señales vaya aumen-
tando, haciendo que la forma de la vibración resultante no permanezca constante,
sino que vaya cambiando a lo largo del tiempo. Estas modificaciones en la forma
de la vibración se repiten cı́clicamente, pues el progresivo incremento de los desfa-
ses hace que cada cierto periodo de tiempo ambos sonidos vuelvan a estar en fase
y comience un nuevo ciclo. Los batidos de segundo orden son los cambios
cı́clicos en la forma de la vibración que nuestro oı́do percibe como una
periódica oscilación en la cualidad sonora.
Ası́ pues, la razón por la que se producen tanto los batidos de primer orden como los
de segundo orden es la misma: la evolución en el desfase entre los dos componentes
cuando se alejan ligeramente de los números que definen las razones exactas del
unı́sono (1/1) o de las consonancias (2/1, 3/2, 4/3).
Sin embargo, la naturaleza de los batidos de primer orden (que se producen en
lo que podrı́amos llamar cuasi-unı́sono) y los de segundo orden (que se dan en lo
que podrı́amos llamar cuasi-consonancia) es distinta. Los primeros provocan una
evolución cı́clica de la amplitud y son percibidos por nuestro oı́do como un trémolo
en el sonido resultante, mientras que los batidos de segundo orden no afectan a
la amplitud de la señal resultante, sino que producen una modificación, también
cı́clica, de la forma de la vibración y son percibidos por nuestro oı́do como una
105
variación periódica de la cualidad sonora. En el capı́tulo dedicado a la fisiologı́a
de la audición estudiaremos la causa de que, siendo nuestra audición frecuencial,
percibamos estos batidos de segundo orden.
106
sonido que oı́mos. Sin embargo, en otras ocasiones la alteración de la importan-
cia de las bandas de frecuencia puede ser un problema, como cuando la acústica
de una sala de conciertos refuerza en exceso unos determinados componentes en
detrimento de otros.
Pero ahora vamos a referirnos a la distorsión en un sentido más limitado: aquellas
deformaciones de la señal de audio que provocan la aparición de nuevos compo-
nentes frecuenciales que no estaban en la señal original. Esta distorsión es muy
importante, pues no se limita a teñir o matizar los componentes de la señal origi-
nal, sino que introduce en ella componentes espurios.
Cuando la señal de audio consta de un solo componente sinusoidal esta distor-
sión provoca que surjan en la señal nuevos componentes que son armónicos del
componente original, por lo que recibe el nombre de distorsión armónica. Se lla-
ma armónica porque los componentes que se introducen son armónicos del sonido
simple original, es decir, sus frecuencias son múltiplos de éste. Como veremos en
el capı́tulo dedicado al sonido armónico, esto quiere decir que si el sonido original
es un sonido simple de 220 Hz, por ejemplo, el sonido resultante será un sonido
que, además de este componente original, tendrá otro u otros componentes cuyas
frecuencias sean múltiplos de la de ese componente original. Es decir, será la suma
del componente original de 220 Hz, más otro en 440 Hz, y tal vez otro en 660 Hz,
y ası́ sucesivamente en función de la importancia de la distorsión.
En el caso de que la señal de audio esté compuesta por dos o más sonidos simples,
el resultado de la señal distorsionada estará formada no sólo por los armónicos
correspondientes a la distorsión de cada uno de los sonidos que intervienen en la
mezcla, sino también por nuevos componentes que serán la suma y la diferencia
de las frecuencias de los componentes originales. Esta distorsión recibe el nom-
bre de distorsión de intermodulación y altera considerablemente la señal original,
de tal modo que, a partir de cierto nivel, dificulta seriamente la audición de la
música.
Si bien las razones de esta distorsión exceden nuestro objetivo, a continuación voy
a mostrar un caso particular de distorsión de intermodulación, la cual ha dado
lugar a que en ocasiones se haya interpretado mal el fenómeno de la mezcla de
dos sonidos simples. Vamos a ver lo que puede suceder si el equipo reproductor
presenta cierta cantidad de distorsión cuando los dos componentes que se mezclan
forman un intervalo de quinta natural (3/2). En los vı́deos de la figura 6.6 y de
la figura 6.8 hemos podido apreciar que ambos se oyen como una consonancia de
quinta. Sin embargo ahora vamos a poder experimentar que si el equipo presenta
una distorsión relevante pueden ser oı́dos como si se tratara de un solo sonido cuya
frecuencia fuera una octava más grave que la del más grave de los dos componentes.
107
He elegido este caso precisamente para mostrar hasta qué punto es fácil confundir
el resultado de un proceso producido por la distorsión con una propiedad derivada
de la mezcla entre sonidos.
En el vı́deo que vamos a ver a continuación se han mezclado dos componentes
simples cuyas frecuencias son de 440 Hz (la4 ) y 660 Hz (mi5 natural), ambos de
igual amplitud.
Figura 6.12: Vı́deo que ilustra el efecto de la distorsión en la mezcla de dos sonidos
simples.
108
Esta deformación provoca que la señal verde no esté ahora formada únicamente
por los dos componentes originales, sino que tenga nuevos componentes.
Los componentes más destacados han sido los que resultan de la suma y de la
diferencia de los componentes reales: un componente en 1100 Hz y otro en 220 Hz.
Luego, los que son el doble de los originales: uno de 880 Hz y el otro de 1320 Hz.
Si los reordenamos todos sucesivamente nos encontramos con que tenemos los si-
guientes componentes: 220, 440, 660, 880, 1100, 1320. Como veremos en el capı́tulo
dedicado al sonido armónico, estos componentes forman una serie armónica, pues
todos ellos son los sucesivos múltiplos de 220 Hz. Y ésta es la razón por la que
ahora oı́mos el la3 (220 Hz) como la nota fundamental y no oigamos ya los dos
componentes aislados, las notas la4 y mi5 formando una consonancia.
En el tercer caso tenemos la misma situación, pero ahora con una distorsión mucho
más exagerada. Vemos que incluso los movimientos descendentes han sido trans-
formados en gran medida en ascendentes. El resultado es similar al anterior, sólo
que ahora todavı́a apreciamos una cualidad sonora más plena. Esto explica por
qué, de una manera aparentemente paradójica, la distorsión nos puede dar lugar a
un resultado engañoso y nos puede hacer pensar que la mezcla de dos componentes
simples en relación de quinta ocasiona un nuevo sonido una octava más baja. Este
error aparece a veces incluso en algún libro de texto y por ello me ha parecido
oportuno explicarlo aquı́.
Cuando lleguemos al capı́tulo dedicado al análisis espectral podremos entender
mejor las causas de que la distorsión pueda alterar las propiedades de la mezcla de
los sonidos, ya que podremos observar con más detalle los componentes espurios
que surgen como consecuencia de esta distorsión de intermodulación.
6.9. Conclusión
En este capı́tulo hemos podido experimentar que cuando dos sonidos simples sue-
nan simultáneamente se producen diferentes fenómenos acústicos y psicoacústicos,
los cuales dependen de la diferencia aritmética entre sus frecuencias, de la anchura
de la banda crı́tica de nuestro oı́do en esas frecuencias y de la razón numérica
que hay entre ellas. Estos fenómenos, que fundamentan una parte importante de
nuestro lenguaje musical, pueden ser resumidos de la siguiente manera:
- Si los dos sonidos simples tienen la misma frecuencia, el resultado es un solo
sonido simple de esa frecuencia, cuya amplitud depende no sólo de la amplitud de
sus componentes, sino también del desfase que hay entre ellos.
109
- Si la diferencia aritmética entre la frecuencia de los dos sonidos simples es menor
de unos 15 Hz, percibimos un solo sonido simple, cuya amplitud oscila sinusoi-
dalmente dando lugar a un efecto de trémolo (batidos de primer orden) y cuya
frecuencia se sitúa entre la de los dos componentes, aproximándose más a la del
que tiene mayor amplitud. La frecuencia con la que se repite la oscilación de la
amplitud (el número de batidos por segundo) es la diferencia aritmética entre las
frecuencias de los dos sonidos componentes. Estos batidos, al permitir determinar
con precisión la diferencia entre la frecuencia de los dos componentes, posibili-
tan afinar con facilidad los instrumentos musicales y establecer con exactitud los
intervalos que dan lugar a las escalas.
- Cuando la diferencia aritmética entre las frecuencias de los dos sonidos simples
supera aproximadamente los 15 Hz, nuestro sistema auditivo no puede seguir el
ritmo de los batidos y dejamos de percibir un solo sonido simple tremolado. Si esta
diferencia está dentro de la anchura de la banda crı́tica correspondiente a esa zona
frecuencial, oı́mos un sonido áspero y rugoso, a modo de zumbido, en el que no
podemos distinguir individualmente los dos componentes. Cuando esta diferencia
se aproxima al lı́mite de la anchura de la banda crı́tica, aunque la cualidad del so-
nido siga siendo rugosa, progresivamente pasamos a reconocer los dos componentes
individuales. Y cuando la diferencia supera con cierta holgura esa anchura de la
banda crı́tica desaparece la sensación de rugosidad y percibimos ya nı́tidamente
los dos componentes por separado.
- Cuando las frecuencias de los dos sonidos simples mantienen una relación de
conmensurabilidad próxima (razones entre los primeros números enteros positi-
vos), la mezcla sonora resultante es periódica y la forma de la vibración es lo
suficientemente sencilla como para que nuestro sistema auditivo pueda reconocer
las coincidencias periódicas entre los dos componentes. A consecuencia de ello, si
las frecuencias de estos componentes superan la anchura de la banda crı́tica, per-
cibimos una sensación de buena mezcla que explica la consonancia musical entre
dos sonidos simples.
- Cuando las frecuencias de los dos sonidos simples se alejan ligeramente de una
razón de conmensurabilidad próxima, percibimos un cambio periódico en la cuali-
dad de la mezcla resultante (batidos de segundo orden). A diferencia de los batidos
de primer orden, los batidos de segundo orden no son el resultado de una oscilación
de la amplitud, sino que se producen porque nuestro sistema auditivo es capaz de
reconocer cambios cı́clicos en la forma de la vibración.
- La distorsión de intermodulación puede dar lugar a una mala interpretación de
los resultados de la mezcla de sonidos.
110
Capı́tulo 7
El sonido armónico
7.1. Introducción
La palabra griega harmonı́a originalmente designaba al conjunto que resulta del
buen ensamblaje de sus partes. Por ello, en la Antigüedad las escalas musicales,
estructuradas mediante consonancias, eran llamadas armonı́as y la música era
considerada el paradigma de lo armónico. En tanto que el sonido musical es un
conjunto formado por partes perfectamente ensambladas, hasta el punto de que es
percibido como un solo sonido, también es llamado sonido armónico.
Hasta ahora hemos estudiado la vibración de un sonido simple y los fenómenos
acústicos que se producen al superponerse dos vibraciones simples, pero la mayor
parte de los sonidos que oı́mos son bastante más complejos, pues en realidad son
el resultado de la combinación de muchos sonidos simples.
Los sonidos simples cuando forman parte de un sonido compuesto reciben el nom-
bre de parciales. Ahora bien, cualquier combinación de sonidos simples no genera
un sonido musical, es decir, el sonido resultante no siempre vibra de una manera
lo suficientemente periódica como para que nuestro sistema auditivo sea capaz de
reconocer una altura tonal. Para que se produzca un sonido musical es necesario
que las relaciones entre las frecuencias de los componentes simples que intervienen
en la mezcla sean armónicas, es decir, que sus frecuencias sean múltiplos de una
frecuencia fundamental. En ese caso se crea una estructura armónica y los soni-
dos simples que la constituyen se llaman componentes armónicos, o simplemente
armónicos. El sonido simple puede ser considerado como un caso particular de
sonido armónico, aquél que consta de un solo componente sinusoidal.
111
El sonido musical o armónico puede ser definido como el sonido for-
mado por la superposición simultánea de varios sonidos simples cuyas
frecuencias son múltiplos de una frecuencia fundamental, es decir, de
una frecuencia que es el máximo común divisor de todas ellas. La fre-
cuencia de ese sonido fundamental determina la periodicidad del sonido resultante
y, por lo tanto, la altura tonal que percibimos. Y ello es ası́ incluso si esa frecuencia
fundamental no está presente, siempre que el número de componentes armónicos
sea suficiente como para que podamos percibir la mezcla como un solo sonido. Por
el contrario, cuando las frecuencias de los componentes no son múltiplos de una
frecuencia fundamental se generan sonidos inarmónicos.
Los elementos mediante los que se producen los sonidos musicales en los instrumen-
tos —por ejemplo, las cuerdas o las columnas de aire de los tubos— habitualmente
son capaces de vibrar de diferentes modos a la vez, cada uno de ellos con su propia
frecuencia de vibración, generando diferentes sonidos simples. Esos instrumentos
emiten sonidos musicales porque, debido a su propia constitución fı́sica, las fre-
cuencias de todos esos modos de vibración son conmensurables entre sı́, es decir,
son todas ellas múltiplos de una frecuencia base, llamada fundamental o primer
armónico. El resultado es una vibración armónica, a la que podemos asignar una
altura tonal definida, por lo que reconocemos una nota musical.
En este capı́tulo vamos a limitarnos a estudiar el sonido armónico, dejando al
margen las mezclas inarmónicas de componentes parciales. Por razones didácti-
cas vamos a analizar el comportamiento de sonidos totalmente estables, es decir,
de sonidos formados por componentes cuyos parámetros de frecuencia y amplitud
permanecen sin cambios durante toda su duración. Esto nos va a facilitar la obser-
vación aislada de las diferencias en la cualidad sonora derivadas de la presencia o
ausencia de unos u otros componentes de la serie armónica, ası́ como de su mayor
o menor amplitud, dejando para más adelante el estudio de los rasgos sonoros que
dependen de la evolución temporal de los parámetros, es decir, de las envolventes
de frecuencia y de amplitud.
He confeccionado mediante Matlab varios vı́deos que nos van a permitir observar
con detenimiento qué es el sonido armónico. En la parte superior de todos ellos
podremos examinar la forma de la vibración, es decir, la señal de audio, como en
el osciloscopio virtual que hemos visto en los vı́deos de los capı́tulos anteriores,
y en la parte inferior podremos ver unas gráficas que representan la frecuencia
y la amplitud de cada uno de los componentes que constituyen ese sonido. El
color de cada componente en esas gráficas viene determinado por su amplitud,
siguiendo una escala que va del negro (el valor cero) al blanco (el valor máximo
que podrı́a representarse en el eje de ordenadas), pasando por los distintos colores
que adquiere el hierro al calentarse: negro rojizo, rojo oscuro, rojo claro, naranja,
112
amarillo y, finalmente, blanco, con todos sus matices intermedios. Este mapa de
color es el que se utilizará en las gráficas de los capı́tulos siguientes cuando sea
necesario representar mediante colores el valor de la amplitud.
Figura 7.1: Vı́deo que muestra la diferencia entre los sonidos armónicos y los inarmóni-
cos.
113
son bastante similares, lo cual dificulta su visualización, pero he optado por man-
tenerlos ası́ para que coincidan con los valores de la gráfica de abajo y también
para que nos vayamos familiarizando con el mapa de color que se usará en los
capı́tulos siguientes, cuando se estudie el análisis frecuencial.
En la gráfica de abajo aparecen la frecuencia y la amplitud de cada componente
que interviene en la mezcla, representadas respectivamente en el eje de las abscisas
y en el de las ordenadas. Además, la leyenda indica la frecuencia de cada uno de los
componentes con el color correspondiente a su amplitud: 0,12; 0,10; 0,08; y 0,06.
Como vemos en el eje de las ordenadas, ahora el valor máximo de la amplitud
(al que le corresponderı́a el color blanco) es 0,15. Puesto que los componentes no
cambian en amplitud, esta gráfica no se modifica a lo largo de la duración del
sonido.
En el primer caso oı́mos un sonido que no es un ruido, pero del que para nada
podremos decir que se trate de una nota musical. Como mucho, algún experi-
mentado afinador de instrumentos o alguien con un oı́do analı́tico particularmente
bueno podrı́a detectar los componentes individuales, que aproximadamente son:
la3 , mib4 , do#5 , sib5 . En efecto, estamos ante un sonido que podrı́amos calificar
como inarmónico: no es ruido, pero tampoco es una nota musical.
En el segundo caso, por el contrario, todos oı́mos claramente una nota musical, en
concreto, el la3 a 220 Hz. Aunque un buen oı́do analı́tico muy entrenado podrı́a
identificar aisladamente cada componente, lo cierto es que los percibimos como un
único sonido musical, pues han amalgamado perfectamente bien. Se ha producido
la mezcla armónica.
Si nos fijamos en las gráficas de arriba, las del osciloscopio, comprobamos que hay
una evidente diferencia en la forma de la señal entre el primer sonido y el segundo.
En el caso del sonido inarmónico, vemos que la forma de la vibración no es estable,
sino que va cambiando constantemente, de modo que es imposible reconocer ningu-
na periodicidad en ella. En el caso del sonido armónico, por el contrario, la forma
de la vibración permanece constante, con lo que podemos apreciar la estabilidad
de su dibujo, es decir, su periodicidad.
En la gráfica de abajo apreciamos la disposición espacial de los componentes. Tam-
bién ahora las diferencias son claras. Vemos que en el caso del sonido inarmónico
los componentes mantienen entre sı́ distancias totalmente desiguales, sin que poda-
mos encontrar ningún patrón espacial, mientras que en el caso del sonido armónico
todos los componentes están igualmente espaciados. Conviene fijarnos en que, en
este segundo caso, la distancia entre los componentes armónicos es la misma que
la que hay entre 0 y la frecuencia del primer componente, es decir, 220 Hz.
114
Para entender lo que sucede podemos fijarnos en un pequeño fragmento de la
señal de la segunda parte del vı́deo, cuando se produce la superposición de cuatro
componentes parciales armónicos:
115
Figura 7.3: Forma de la vibración de un sonido inarmónico y sus componentes.
116
Los ejemplos que vamos a observar en los vı́deos nos servirán también para com-
prender que cualquier forma de vibración periódica, por compleja que sea, puede
ser generada a partir de componentes armónicos. Para ello he fabricado dos vı́deos
a partir de fotogramas creados mediante Matlab. En ambos vı́deos podemos ob-
servar que conforme se añaden armónicos al sonido la forma de la vibración se va
haciendo cada vez más compleja, alejándose de la forma sinusoidal, y la cualidad
sonora va adquiriendo cada vez más brillantez. El primer vı́deo muestra cómo se va
formando una señal en dientes de sierra y el segundo una señal rectangular. Igual
que en el vı́deo anterior, en la parte de arriba podemos ver la forma de la vibración
del sonido resultante, a modo de osciloscopio, y en la de abajo la frecuencia y la
amplitud de los componentes que lo constituyen. A medida que van apareciendo,
se muestra también el número de armónico del que se trata y su frecuencia.
En ambos vı́deos suena ocho veces la misma nota, un la3 a 220 Hz, lo que nos per-
mite apreciar cómo va cambiando la cualidad sonora conforme se van añadiendo
nuevos componentes armónicos. En los dos casos empieza sonando el componente
fundamental aislado, un sonido simple de 220 Hz. En el primer vı́deo se van in-
corporando uno detrás de otro todos los componentes de la serie armónica, tanto
pares como impares, hasta llegar al octavo armónico. En el segundo vı́deo sólo
se incorporan los armónicos impares, de modo que, puesto que también se van
añadiendo un total de ocho componentes, llegan hasta el decimoquinto armónico.
En los dos vı́deos la amplitud de cada armónico se decrementa proporcionalmen-
te al ordinal del armónico correspondiente: la amplitud del armónico quinto, por
ejemplo, es la quinta parte de la amplitud del fundamental. En todos los casos los
componentes simples tienen la misma fase inicial.
117
Figura 7.4: Vı́deo que muestra la generación de una señal en diente de sierra a partir
de los componentes consecutivos de la serie armónica.
Podemos apreciar que el carácter puro, seco y más bien mate del sonido simple ais-
lado que oı́mos al inicio, se va perdiendo con la adquisición de nuevos componentes.
Observamos que progresivamente el sonido va adquiriendo más cuerpo y nos va
transmitiendo una sensación de mayor grosor y de mayor brillo. En efecto, la incor-
poración del segundo armónico elimina ya la sequedad del sonido simple y le otorga
una cualidad dulce y redondeada. Con el tercer armónico se introduce una clara
sensación de nasalidad. El cuarto armónico refuerza el carácter redondo y compac-
to, atenuando un poco la nasalidad que habı́a introducido el tercer armónico. El
quinto aporta plenitud al sonido, produciéndonos la sensación de una sonoridad
compacta y llena. El sexto añade de nuevo nasalidad. El séptimo introduce, por
primera vez, una sensación de aspereza. Y el octavo refuerza la coherencia total
del sonido, aumentando el brillo y la luminosidad del conjunto.
En lo que respecta a la forma de la señal que vemos en el osciloscopio, comproba-
mos que conforme se van añadiendo nuevos armónicos, va haciéndose más y más
compleja, adquiriendo nuevas ondulaciones y alejándose de la forma sinusoidal que
tenı́a al principio. El hecho de que todos componentes que introducimos estén en
fase y que la relación entre sus amplitudes se decremente proporcionalmente al
número del armónico, hace que esas ondulaciones tiendan a aproximarse a una
forma rectilı́nea, conforme aumenta el número de armónicos que se incorporan.
Aunque en este vı́deo para construir el sonido compuesto sólo he sumado ocho
armónicos, podemos darnos cuenta de que la incorporación de un número mayor
nos permitirı́a aproximarnos cada vez más a una señal que tuviera la forma de
dientes de sierra.
118
7.3.2. Sonido formado por los componentes impares consecutivos de
la serie armónica: Señal rectangular
Figura 7.5: Vı́deo que muestra la generación de una señal rectangular a partir de los
componentes impares de la serie armónica.
Podemos apreciar que la incorporación del tercer armónico hace que el sonido ten-
ga un carácter nasal muy destacado. Ası́ mismo, la ausencia del segundo armónico
nos produce un efecto de hueco. El quinto armónico aporta también ahora una
sensación de acabado, pero dentro de una cualidad sonora dominada por la nasa-
lidad. Los restantes armónicos que se van incorporando (el séptimo, el noveno, el
undécimo, el decimotercero y el decimoquinto) proporcionan cada vez más brillo
al sonido, pero el resultado es también progresivamente más áspero.
Respecto a la forma de la vibración, observamos que va evolucionando con la in-
corporación de nuevos armónicos, hasta adquirir un aspecto rectilı́neo, una señal
rectangular. Esta forma rectangular se debe a la concentración de las ondulaciones
en los tramos superior e inferior de la señal, unas ondulaciones que van aumen-
tando en número y atenuándose en amplitud con cada nueva incorporación de
armónicos. Igual que en el caso de la señal en dientes de sierra, también ahora
podemos imaginar que si se siguieran añadiendo componentes armónicos impares,
manteniendo la misma proporción en el decremento de la amplitud, podrı́amos
aproximarnos cuánto quisiéramos a una señal rectangular.
El predominio de los armónicos impares es un rasgo caracterı́stico del timbre de
algunos instrumentos como, por ejemplo, el clarinete.
119
7.3.3. Cualidad sonora derivada de los componentes de la serie armóni-
ca
120
7.4. Componentes de la serie armónica y notas de la escala
temperada
Una vez que hemos visto que los sonidos musicales complejos se forman combi-
nando diversos componentes de la serie armónica, nos interesa conocer la corres-
pondencia entre esos componentes y las notas e intervalos de la escala musical
temperada, la habitual en nuestra música.
Muchos teóricos de la Armonı́a han considerado que los acordes imitan en cierta
manera la estructura armónica de los sonidos musicales, por lo que es común que los
tratados de Armonı́a comiencen enumerando los componentes de la serie armónica
e indicando las notas de la escala a las que más se aproximan. Aunque estas
consideraciones hoy en dı́a están en desuso, lo cierto es que existe una gran afinidad
entre los elementos de nuestro lenguaje musical y la organización interválica de la
serie armónica. Esta afinidad se debe a que la estructura cognitiva que posibilita
la percepción unitaria de un sonido armónico es la misma que la que está detrás
de la construcción de nuestro lenguaje musical.
Por otra parte, conocer la correspondencia entre los componentes de la serie
armónica y las notas de la escala musical nos va a permitir entender por qué
oı́mos consonancias o disonancias cuando se mezclan notas musicales. Puesto que
habitualmente las notas de las voces y de los instrumentos musicales constan de
múltiples componentes armónicos, cuando se emiten simultáneamente dos o más
notas se va a producir la mezcla e interferencia entre sus respectivos componen-
tes. La coincidencia o divergencia entre los armónicos de cada una de esas notas
determinará el grado de consonancia que se establezca entre ellas.
Para ver las correspondencias entre los componentes armónicos y las
notas de la escala temperada, primero debemos traducir a semitonos
temperados los intervalos que forman cada uno de los componentes de
la serie armónica con el fundamental o primer armónico. Las razones que
definen estos intervalos vienen dadas por las que se establecen entre sus respectivos
números de armónico: el intervalo del segundo armónico con el fundamental tiene
la razón 2/1 (o sea, 2); el del tercero con el fundamental, la razón 3/1 (o sea,
3); el del cuarto, la razón 4/1 (o sea, 4); y ası́ sucesivamente. Como hemos visto
en el capı́tulo 5, para expresar estas razones en semitonos temperados bastará
tomar el logaritmo en base 2 de los sucesivos enteros positivos que constituyen
la serie armónica y multiplicar el resultado por 12. Por ejemplo, para expresar en
semitonos temperados el intervalo que forma el tercer armónico con el fundamental,
tomaremos el logaritmo en base 2 del número 3 y multiplicaremos el resultado por
12, lo que nos dará, redondeado a centésimas de semitono, 19,02 semitonos.
121
En la tabla de abajo presento el número de semitonos temperados, redondeados
a cents, que tiene el intervalo que forma cada uno de los componentes de la serie
armónica con el fundamental.
1o Unı́sono 0 0
2o Octava 12 0
4o Doble octava 24 0
8o Triple octava 36 0
Tabla 7.1: Intervalos que se establecen entre los componentes de la serie armónica y el
fundamental.
122
con el calificativo “natural” para diferenciarlo del temperado; en la tercera, el
número de semitonos temperados que tiene ese intervalo natural redondeado a
cents; y en la cuarta, la diferencia en cents entre el intervalo natural y el intervalo
temperado más próximo.
Ası́, por ejemplo, en la quinta fila, el ordinal 5o indica que se trata del quinto
componente armónico y que, por lo tanto, la razón con el fundamental es 5/1.
En la segunda columna figura el nombre habitual de ese intervalo, en este caso,
“doble octava más tercera mayor natural”. En la tercera columna se presenta el
número de semitonos temperados de este intervalo, que es el resultado de tomar el
logaritmo en base 2 de 5 y multiplicarlo por 12, lo que nos da un valor, redondeado
a centésimas de semitono, de 27,86 semitonos. Esta cantidad será de utilidad para
averiguar cuál es la nota musical de nuestra escala temperada que más se aproxima
a ese componente en una serie armónica concreta, es decir, una serie armónica
con un componente fundamental determinado (por ejemplo, la serie armónica que
comienza en do2 que podemos ver en la figura 7.6. En la cuarta columna se presenta
la diferencia en cents entre el intervalo que forma ese componente armónico con el
fundamental y el intervalo temperado más próximo (recordemos que por definición
todo intervalo temperado tiene un número entero de semitonos). Puesto que en
este caso el valor en semitonos que forma el quinto armónico con el fundamental es
de 27,86, la diferencia con el intervalo temperado más próximo, el de 28 semitonos,
será de -14 cents, tal como aparece en la cuarta columna. Dicho de otra manera
el intervalo natural de 5/1 es 14 cents menor que el intervalo de 28 semitonos, el
intervalo de doble octava más tercera mayor temperada.
Una vez que hemos expresado en semitonos temperados el valor interválico de cada
armónico con el fundamental, es sencillo asignar el primer armónico a una nota
cualquiera y, a partir de ahı́, determinar la nota musical que más se aproxima a
cada uno de los componentes armónicos.
La figura que presento a continuación nos va a permitir observar que la frecuen-
cia de algunos componentes armónicos coincide exactamente con la frecuencia de
una nota de la escala temperada, que la de otros se aproxima mucho, pero que
la frecuencia de otros se aleja significativamente de la de cualquier nota de esa
escala. Estas coincidencias y divergencias entre las frecuencias de los componentes
armónicos y las de sus correspondientes notas de la escala temperada condicionan
el grado de consonancia que se establece entre las notas musicales, como se explica
en el capı́tulo que trata de la consonancia entre sonidos compuestos.
Para minimizar el número de bemoles y sostenidos, suele ser habitual presentar las
notas de la serie armónica tomando como referencia la nota do. He elegido como
fundamental el do2 , para evitar sobrepasar en exceso los lı́mites del pentagrama. La
123
serie armónica que presento a continuación se extiende hasta los primeros dieciséis
componentes armónicos.
Figura 7.6: Serie armónica con fundamental en do2 y diferencias entre las notas natu-
rales correspondientes a cada armónico y las temperadas.
Debajo del pentagrama vemos el número del armónico al que se asigna cada nota.
Los colores de las notas representan la cualidad sonora caracterı́stica que aporta
cada armónico a la mezcla: en negro están los que proporcionan coherencia al
sonido; en magenta, los que añaden una sensación de nasalidad; en azul, los que
aportan una impresión de plenitud; y en rojo, los que introducen cierto matiz de
aspereza.
En la fila que está situada inmediatamente encima del pentagrama se indica la fre-
cuencia de cada nota en la escala temperada estándar (la4 = 440 Hz), redondeada
a décimas de hercio. En la siguiente fila, se muestra la frecuencia del componente
armónico —al que podemos llamar la nota natural—, la cual es el resultado de
multiplicar la frecuencia de la nota do2 (130,8 Hz) por el número del armónico,
redondeada también a décimas de hercio. En la tercera fila se indica, cuando la hay,
la diferencia en hercios entre la frecuencia del componente armónico y la frecuen-
cia de la nota temperada, redondeada a décimas de hercio. Y en la fila superior,
destacada en color azul, se presenta, expresado en cents, el intervalo que hay entre
la nota natural —es decir, el componente armónico— y la nota temperada más
próxima. Puesto que este intervalo es el mismo que la diferencia que hay entre
124
el intervalo natural que forma el componente armónico con el fundamental y el
intervalo temperado más próximo, podemos ver que estos valores coinciden con los
de la cuarta columna de la tabla 7.1.
Por ejemplo, vemos que el quinto componente armónico se corresponde, aproxi-
madamente, con la nota mi4 temperada, cuya frecuencia es 659,3 Hz. Como la
frecuencia del quinto armónico es 654,1 Hz, comprobamos que es 5,2 Hz menos
que la de la nota mi4 temperada. El intervalo que hay entre la nota natural, es
decir, la correspondiente al componente armónico, y la nota temperada es de -14
cents (27,86 - 28 = -14). Podemos verificarlo también calculando el intervalo que
hay entre la frecuencia de la nota natural y la frecuencia de la nota temperada,
tomando el logaritmo en base 2 de la razón entre sus frecuencias (654,1/659,3) y
multiplicando el resultado por 12, con lo que obtendremos el mismo resultado de
-14 cents. Ası́ pues, el número -14 que está sobre la nota mi4 indica que la nota
correspondiente al quinto armónico de la serie está 14 cents por debajo del mi4 de
nuestra escala temperada.
125
estos intervalos exactos han constituido el fundamento sobre el que se ha
desarrollado nuestro lenguaje musical, a partir del desarrollo de la moderna
tonalidad las quintas y las cuartas han sido ligeramente matizadas para es-
tablecer el sistema temperado: la quinta temperada está aproximadamente 2
cents más baja que el intervalo de quinta natural y la cuarta temperada está
unos 2 cents más alta que la cuarta natural. Esto último lo podemos deducir
fácilmente, pues si la quinta natural es 2 cents mayor que la quinta temperada,
la cuarta natural ha de ser necesariamente 2 cents menor para que la octava
tenga los cents justos que le corresponden (1200 cents por definición, 12 semi-
tonos). Hay que tener presente que, al ser la octava el intervalo de referencia,
carece de sentido la distinción entre octava natural y octava temperada.
b) Entre el quinto y el cuarto armónico (5/4) hay una tercera mayor
natural que es sensiblemente más corta que la tercera temperada,
en concreto, 14 cents menos. En la serie armónica que estamos utilizando
como ejemplo corresponde al intervalo que se establece entre mi4 —do4 , ambos
naturales.
c) Entre el sexto y el quinto armónico (6/5) hay una tercera me-
nor natural que excede en 16 cents a la tercera menor temperada.
En nuestra serie armónica corresponde al intervalo que se establece entre
sol4 —mi4 , ambos naturales. En efecto, puesto que el quinto armónico (mi4
natural) es 14 cents más bajo que la nota temperada correspondiente (mi4
temperado) y el sexto armónico (sol4 natural), es 2 cents más alto que el sol4
temperado, la diferencia entre el intervalo que forman las notas naturales (la
tercera menor natural) y la que forman las correspondientes notas temperadas
(la tercera menor temperada) es de 16 cents.
d) Los intervalos entre los armónicos cuarto, quinto y sexto (5/4,
6/5) constituyen un acorde perfecto mayor. Si incluimos el séptimo
armónico forman un acorde de séptima de dominante, aunque su correspon-
diente séptima temperada está ya muy lejos de la séptima natural, en concreto
la séptima natural es 31 cents inferior a la séptima temperada. En la figura
7.6 corresponden a las notas do4 , mi4 , sol4 , sib4 , todas ellas naturales.
e) Entre el noveno y el octavo armónico se establece el tono de
9/8, también llamado tono pitagórico, que resulta de la composición
de dos quintas naturales a la que posteriormente se sustrae una octava. En
nuestra serie armónica corresponde al intervalo que se establece entre re5 —do5 ,
ambos naturales. Podemos construir este tono de 9/8 si añadimos a la quinta
natural que hay entre el cuarto y el sexto armónico (do4 —sol4 naturales), la
quinta natural que hay entre el sexto armónico y el noveno armónico (sol4 —re5
126
naturales), con lo que obtenemos un intervalo de octava más un tono diatónico.
Luego, al ascender una octava el sonido más grave del intervalo ası́ formado (el
do4 pasa a ser do5 ), dejamos solamente el tono diatónico. Como cada quinta
natural excede en 2 cents a la quinta temperada, este tono pitagórico será 4
cents mayor que el tono temperado.
f) Entre el décimo y el noveno armónico se forma un intervalo de
tono de 10/9, el llamado tono menor. En nuestra serie armónica corres-
ponde al intervalo que se establece entre mi5 —re5 naturales. Este intervalo
es 18 cents menor que el tono temperado. En efecto, puesto que el noveno
armónico (re5 natural) es 4 cents más alto que la correspondiente nota tem-
perada (re5 temperado) y el décimo armónico (mi5 natural) es 14 cents más
bajo que su correspondiente nota temperada (mi5 temperado), la diferencia
respecto al tono temperado es de 18 cents.
g) Entre el decimosexto y el decimoquinto armónico se produce un
intervalo de semitono de 16/15, el llamado semitono mayor que se
usaba en algunas escalas musicales antiguas. En nuestra serie armónica co-
rresponde al intervalo que se establece entre do6 —si5 naturales. Este intervalo
excede en 12 cents al semitono temperado, pues el si5 natural es 12 cents más
bajo que el si5 temperado.
h) El resto de los intervalos que se forman entre los sucesivos armóni-
cos quedan lejos de los intervalos usados en nuestras escalas musi-
cales.
127
Como hemos visto en los apartados anteriores, los componentes de la serie armónica
están separados unos de otros por la misma distancia frecuencial. Esta distancia
es el máximo común divisor de las frecuencias de todos ellos y coincide con la
frecuencia del primer componente de la serie. Cuando oı́mos un sonido, nuestro
sistema de reconocimiento auditivo intenta organizar sus componentes, intenta
buscar una distancia frecuencial que se repita, es decir, intenta reconocer una es-
tructura armónica. Si lo consigue, está ante un sonido armónico, de modo que
puede asignarle la altura tonal del componente fundamental de la serie armónica a
la que pertenece, incluso cuando ese componente fundamental no está presente en
la estructura armónica de ese sonido concreto. Ello es ası́ porque, como veremos
en el capı́tulo 13, nuestro cerebro unifica los componentes frecuenciales para re-
construir la unidad del objeto sonoro, con lo que puede identificar la nota musical
correspondiente en la escala. En definitiva, si somos capaces de oı́r notas musicales
es porque reconocemos el patrón armónico de un sonido concreto, aunque para
ello sea necesario rellenar los huecos de los componentes frecuenciales que faltan
en su estructura armónica, de modo que sea posible reconstruir la serie armónica
a la que pertenece.
A continuación vamos a comprobar experimentalmente que la altura tonal de
un sonido musical viene determinada por la frecuencia del componente
fundamental de su estructura armónica, con independencia de que ese
componente esté o no presente en ese sonido concreto. Veremos también
que el reconocimiento del patrón armónico se produce incluso cuando la estructura
armónica presenta un número importante de huecos, como hemos podido observar
en el caso de la señal rectangular formada únicamente por componentes impares
que aparece en el vı́deo de la figura 7.5.
Para apreciar cómo se produce el reconocimiento de la estructura armónica he
confeccionado un vı́deo en el que se presentan tres notas musicales cuyas alturas
tonales distan entre sı́ una octava. En lo tres casos la frecuencia del componente
más grave presente en la señal es 220 Hz; sin embargo, en el primero oı́mos un la3
a 220 Hz, en el segundo un la2 a 110 Hz, y en el tercero un la1 a 55 Hz.
128
Figura 7.7: Vı́deo que muestra que la percepción de la altura tonal del sonido armónico
no se ve afectada por la ausencia del componente fundamental o incluso de los primeros
componentes.
Como era de esperar, la primera nota que oı́mos es un la3 , pues esa es la frecuencia
del componente fundamental, tal como aparece indicado en la leyenda. Si aten-
demos a la gráfica de abajo y nos fijamos en su estructura armónica, vemos que
todos los componentes son múltiplos de 220 Hz y que están presentes los ocho
primeros armónicos de su serie. En la ventana del osciloscopio podemos ver que
la forma de la vibración es totalmente periódica. En efecto, si detenemos el vı́deo
en cualquier momento, y hacemos un cálculo aproximado, podremos ver que su
periodo ocupa un poco menos de la anchura de un rectángulo de la retı́cula, es
decir, un poco menos de 5 milésimas de segundo, lo cual es coherente con el perio-
do correspondiente a la frecuencia de 220 Hz, es decir, 4,5 milésimas de segundo
(1/220 = 0,0045).
La segunda nota que oı́mos es un la2 . La estructura armónica de esta nota está
formada también por ocho componentes consecutivos, pero ahora el primer com-
ponente de esa serie armónica está ausente. En efecto, vemos que las frecuencias
de todos los componentes son múltiplos de 110, y no de 220. O lo que es lo mismo,
el máximo común divisor de las frecuencias de todos los componentes de esta es-
tructura armónica es 110. Ası́ pues, deducimos que la frecuencia del componente
fundamental de la serie armónica a la que pertenece esta nota es 110 Hz y que
en este caso está ausente. En efecto, los componentes presentes en esta estructura
armónica comienzan con el segundo armónico, el de 220 Hz, y consecutivamen-
te llegan hasta el noveno, el de 990 Hz. En el osciloscopio vemos que la señal es
también claramente periódica, pero que el periodo es el doble del periodo del ca-
so anterior, aproximadamente, 9 milésimas de segundo, como corresponde a una
frecuencia de 110 Hz (1/110 = 0,009, redondeando a milésimas).
129
La tercera nota que oı́mos es el la1 . En este caso el máximo común divisor de
todos los componentes que forman la estructura armónica de ese sonido es 55, de
modo que la frecuencia del componente fundamental de la serie armónica a la que
pertenece es 55 Hz. Pero este componente no está. Podemos también observar que
el componente más grave que está presente en la estructura armónica de esta nota
musical es el cuarto armónico. A partir de él están los sucesivos componentes hasta
el undécimo, el de 605 Hz. Ası́ pues, en este caso, no sólo falta el fundamental,
sino que también faltan los tres primeros componentes. Pero nosotros oı́mos con
total claridad una nota que es una octava más grave que la anterior, es decir, un
la1 . Si nos fijamos en la periodicidad, vemos que también se corresponde con la
frecuencia del fundamental ausente. En el osciloscopio podemos observar que el
periodo de esta señal es el doble del de la anterior, aproximadamente 18 milésimas
de segundo (1/55 = 0,018, redondeando a milésimas).
Mediante este ejemplo hemos podido experimentar que la altura tonal que percibi-
mos en un sonido armónico es independiente de la existencia o no del componente
fundamental o incluso de los componentes más graves. Ello explica que seamos
capaces de oı́r notas graves con cualquier sistema de reproducción de sonido, por
muy deficiente que sea: aunque la calidad sonora saldrá perjudicada, la percepción
de la nota de la que se trata no se ve modificada. Por poner un ejemplo, la mayor
parte de los reproductores de sonido económicos son incapaces de dar frecuencias
inferiores a 100 Hz; sin embargo, en esos reproductores nosotros no oı́mos las notas
graves cambiadas de octava, sino que, incluso en el peor equipo de música, reco-
nocemos, pongamos por caso, el la1 del piano, cuya frecuencia fundamental está
en 55 Hz y no lo confundimos con el la2 , cuya frecuencia es 110 Hz. Ahora bien,
la cualidad, el color del sonido, no será el mismo si están o no están presentes los
componentes más graves.
130
Como acabamos de ver, la altura tonal de un sonido musical queda definida por la
distancia frecuencial entre los componentes que constituyen su estructura armóni-
ca, al margen de los posibles huecos que pueda haber en ella. Ahora bien, en la
realidad, los sonidos de algunos instrumentos deforman esa estructura, incremen-
tando la distancia entre sus componentes. Y, además, lo hacen de una forma no
lineal: conforme mayor es el ordinal del armónico, mayor es el intervalo musical en
el que se alejan.
Por poner un ejemplo, en el caso del piano la deformación ocasionada por la rigidez
de sus cuerdas metálicas puede dar lugar en una nota grave a que la frecuencia
del armónico decimoquinto, pongamos por caso, sea 16 veces la frecuencia del
fundamental, es decir, la frecuencia que deberı́a tener el armónico decimosexto.
Ahora bien, la deformación de la estructura armónica, cuando se mantiene dentro
de unos lı́mites, no impide el reconocimiento de una nota musical, si bien es cierto
que la altura tonal que se percibe es ligeramente más aguda que la correspondiente
a la frecuencia del componente fundamental. Además esta inarmonicidad modifica
la cualidad sonora: cuando es muy ligera aporta un cierto grosor y hace que el
sonido sea más cálido; cuando el estiramiento es ya más pronunciado, el sonido
adquiere un color metálico y empieza a recordar al sonido de una campana.
He fabricado un vı́deo que nos va a permitir experimentar lo que sucede cuando la
estructura armónica se deforma dentro de ciertos márgenes. En los tres casos que
se presentan suena la nota la3 constituida por los ocho primeros armónicos. Pero
mientras que en el primer caso los componentes son equidistantes, lo que da lugar a
una estructura armónica perfecta, en los dos casos siguientes la estructura creada
por los ocho componentes se va deformando: en el segundo caso las distancias
entre ellos están ligeramente estiradas, lo que provoca una pequeña inarmonicidad,
mientras que en el tercero el estiramiento se acerca ya al lı́mite de lo que podemos
considerar una estructura armónica y, por lo tanto, también al lı́mite de nuestra
capacidad para percibir una altura tonal definida. La amplitud de cada uno de los
componentes es la misma en los tres casos.
131
Figura 7.8: Vı́deo que muestra que la introducción de una ligera inarmonicidad en un
sonido armónico no impide la percepción de una altura tonal.
132
menta su ordinal. Pero nos damos cuenta de que incluso en el último componente,
que es donde se produce la desviación máxima, el intervalo que se desvı́a respecto
al valor que le corresponderı́a al octavo armónico exacto es solo de 16 cents. Vemos,
ası́ pues, que en este sonido la estructura armónica se ha deformado ligeramente.
En efecto, cuando he generado este sonido, he elegido a propósito los valores de
deformación de cada componente para que simulara aproximadamente el estira-
miento que se suele producir en una cuerda media del piano. Para ello he usado
una variante de la fórmula habitualmente utilizada para calcular la frecuencia de
cada uno de los componentes de una nota de piano a partir de un coeficiente dado
de inarmonicidad.
En el tercer caso, si atendemos a nuestra percepción auditiva, comprobamos que
resulta todavı́a posible asignar al sonido una altura tonal, aunque ya de una forma
más confusa que en los dos casos anteriores. Observamos que esta altura tonal es
más elevada. Al poner un poco más de atención apreciamos que la cualidad cálida
del caso anterior ha pasado ahora a adquirir cierta aspereza y a transformarse en
un sonido metálico. En efecto, la cualidad sonora nos recuerda bastante al sonido
de una campana (aunque no esté presente la atenuación progresiva caracterı́stica
de la campana). Estamos en el lı́mite de la posibilidad de distinguir una altura
tonal estable y de reconocer que se trata de una nota musical.
Si prestamos atención a la ventana del osciloscopio, vemos que la periodicidad
resulta ya difı́cil de reconocer, incluso cuando detenemos el vı́deo. Podemos aven-
turar un cierto valor temporal que parece marcar la evolución de la vibración y
que, más o menos, coincidirı́a con el periodo de los dos casos anteriores, pero de
una manera bastante imprecisa.
En la leyenda podemos comprobar ahora que las desviaciones de los armónicos
son ya bastante importantes, tanto en hercios como en cents. También ahora la
desviación va creciendo conforme mayor es el ordinal, hasta el punto de que la
frecuencia del octavo componente está ya muy lejos de la que le corresponderı́a al
octavo armónico. En efecto, su desviación en cents es de 152, es decir, un semitono
y medio. Podemos ver que la frecuencia de este octavo componente (1921,5 Hz)
se aproxima a la frecuencia que le corresponderı́a al noveno armónico: teniendo en
cuenta que la frecuencia fundamental es 220 Hz, el noveno armónica tendrı́a una
frecuencia de 1980 Hz (220 x 9 = 1980). Ahora la estructura armónica ha sido
deformada, estirándose los componentes hasta casi romper la estructura armónica.
Un poco más allá de estas fronteras dejarı́amos ya de percibir una altura tonal
y el sonido dejarı́a de ser armónico. En efecto, para generar este tercer sonido
he utilizado la misma fórmula que en el caso anterior, pero con un coeficiente de
inarmonicidad diez veces mayor.
133
Para entender a qué se debe el cambio de cualidad sonora provocada por una ligera
inarmonicidad vamos a fijarnos en el segundo caso. Vemos en la ventana del oscilos-
copio que la forma de la vibración cambia constantemente, mientras se mantiene la
periodicidad. Este fenómeno es una generalización a múltiples componentes de lo
que observamos en el caso de los batidos de segundo orden (poner enlace) respecto
a la mezcla de dos componentes. La explicación del fenómeno es, pues, similar.
Las pequeñas diferencias de frecuencia provocan desfases, los cuales dan lugar a
modificaciones constantes de la forma de la vibración, que son las que dotan al
sonido de esa cualidad cálida. La forma de la vibración, no obstante, mantiene
su periodicidad y eso hace que tenga una frecuencia propia y, en consecuencia,
que tenga sentido atribuirle una altura tonal. La diferencia respecto a los batidos
de segundo orden reside en que la complejidad de los desfases, debida al elevado
número de componentes, evita una rotación repetida de la forma de la vibración,
por lo que no percibimos batidos, sino solamente un sonido más cálido.
Conforme la inarmonicidad aumenta la periodicidad tiende a desaparecer y se
complica la percepción de una altura tonal, pues nuestro sistema auditivo tiene
dificultades para organizar los componentes en un patrón armónico. En el último
ejemplo de este vı́deo, la deformación de la estructura es tan importante que el
patrón armónico es percibido ya de una manera difusa, totalmente alejada de la
percepción nı́tida con la que se percibe en el primer caso.
7.8. Conclusión
A lo largo de este capı́tulo hemos podido comprobar que la Armonı́a está presente
incluso en la constitución misma del sonido musical. Hemos visto que los soni-
dos armónicos o musicales son el resultado de la buena mezcla, mientras que los
inarmónicos son aquellos cuyos componentes no se mezclan bien, no amalgaman
unos con otros.
Hemos podido observar cómo al combinarse varias vibraciones que guardan entre
sı́ determinadas razones y proporciones se produce una nueva entidad, una nota
musical clara y diferenciada. Lo que hace musical a la vibración que resulta de esta
mezcla es la estructura armónica que posee, una estructura que en sı́ misma no
es otra cosa que unas determinadas relaciones de conmensurabilidad. Por eso los
componentes del sonido armónico no desaparecen, sino que pueden ser de nuevo
descompuestos, tal como hace nuestro sistema auditivo y como podemos realizar
mediante las herramientas matemáticas propias del análisis frecuencial. Es por
ello por lo que la rama de las matemáticas que se ocupa de la descomposición de
funciones en componentes sinusoidales se denomina Análisis Armónico.
134
Puesto que la estructura armónica, que es lo propio del sonido musical, se crea
por la conmensurabilidad de las frecuencias de todos los componentes respecto al
fundamental, y puesto que esa conmensurabilidad permite que amalgamen bien
unos componentes con otros, podemos considerar que el sonido armónico viene a
ser la generalización a un número indeterminado de componentes de la “buena
mezcla” que se produce entre dos sonidos simples consonantes. En ambos casos
la conmensurabilidad da lugar a la sincronización de las fases de los distintos
componentes, y esa sincronización posibilita su buena mezcla. En este capı́tulo
hemos visto que los intervalos que hay entre los primeros componentes de una
serie armónica son precisamente los principales intervalos consonantes (2/1, 3/1,
4/1, 3/2, 4/3), de modo que la estructura sonora que se crea mediante la mezcla
de cualquier número de componentes pertenecientes a la misma serie armónica da
como resultado un sonido en el que se ha producido la ”buena mezcla”, un sonido
musical.
Mediante los ejemplos que se presentan en los vı́deos de este capı́tulo hemos podido
experimentar que la vibración del sonido armónico o musical mantiene siempre
una periodicidad y que, por lo tanto, posee una frecuencia concreta, con lo que
se le puede atribuir una altura tonal. Dado que nosotros no somos capaces de
seguir al detalle el desarrollo temporal del movimiento vibratorio para captar su
periodicidad, sino que nuestro sistema auditivo extrae su estructura frecuencial,
podemos considerar que la estructura armónica sirve de puente entre la naturaleza
periódica del sonido y nuestra percepción de la altura tonal.
Nuestra especial facultad para reconstruir intuitivamente la serie armónica explica
la abundante presencia en las acciones de los hombres del sonido armónico: silbar,
gritar, cantar, vocalizar, todas estas acciones producen una vibración armónica a
la que dotamos de sentido y de significación. Esta facultad también pudiera tener
que ver con la invariabilidad de la frecuencia a lo largo de todo el recorrido de
la vibración sonora, desde la emisión hasta su recepción. El sonido puede perder
amplitud con la distancia, puede perder componentes frecuenciales por el camino,
pero en condiciones normales nunca modifica su periodo de vibración, o sea, su
frecuencia.
Las coincidencias que hemos podido observar entre los armónicos y las notas e
intervalos de nuestro lenguaje musical contribuyen a explicar que el mismo sis-
tema cognitivo que posibilita la percepción unitaria de un sonido compuesto por
varios componentes armónicos esté presente en la constitución de nuestro lenguaje
musical, tanto en la determinación de los elementos estructurales de las escalas,
como en la construcción de los acordes.
135
Capı́tulo 8
8.1. Introducción
El material de la música, el sonido armónico, es un fenómeno tan frecuente que
forma parte de nuestra experiencia cotidiana en el reconocimiento del entorno. En
efecto, el sonido armónico está por todas partes: si ponemos un poco de atención,
podemos oı́r notas musicales en medio del ruido del tráfico, en el silbido del aire
cuando se filtra por los tubos de una chimenea o por las grietas de las rocas, en
el canto de los pájaros o incluso en el aullido de algunas fieras. Por otra parte, es
sencillo generar sonidos armónicos: basta soplar ligeramente en el cuello de una
botella vacı́a, frotar con suavidad el borde de una copa de cristal o pellizcar una
cuerda lo suficientemente tensa para que se produzcan sonidos musicales.
La pregunta es: ¿por qué es tan habitual la existencia de vibraciones cuyos compo-
nentes tienen frecuencias que son múltiplos enteros de una frecuencia fundamental?
La respuesta nos lleva a la geometrı́a: si el sonido armónico abunda tanto en la
naturaleza y en los utensilios de todo tipo que hemos fabricado los humanos es
porque es muy común la existencia de estructuras geométricas adecuadas para
la generación de ondas estacionarias armónicas y para su amplificación mediante
resonancias.
En cierto modo podemos decir que todo sonido armónico se produce median-
te un proceso de resonancia, un proceso por el cual la onda excitadora
se acopla con sus sucesivos reflejos, dando lugar a la aparición de ondas
estacionarias. A lo largo de este capı́tulo vamos a examinar por qué se produce
136
el sonido armónico. Para ello estudiaremos el mecanismo fı́sico mediante el cual
surgen las ondas estacionarias y el fenómeno de la resonancia. Comprenderemos
que determinadas propiedades fı́sicas y geométricas de los cuerpos que vibran po-
sibilitan la aparición de ondas estacionarias con unos modos de resonancia que son
armónicos entre sı́ y que cuando estos modos naturales de vibración son excitados
por algún agente surgen sonidos armónicos.
Mediante vı́deos ilustrativos que he elaborado con Matlab y que simulan el com-
portamiento de una cuerda tensada y fija en sus extremos, podremos experimentar
qué son las ondas estacionarias y en qué consiste el fenómeno de la resonancia. Los
vı́deos nos van a permitir observar cómo las ondas estacionarias surgen de la inter-
ferencia reiterada de una onda sinusoidal con su reflejo. Veremos también que la
cuerda tensada, como todo sistema vibratorio unidimensional, posee por naturale-
za unos modos de vibración que son armónicos. Observaremos que la resonancia se
produce cuando un sistema vibratorio es excitado por cualquier perturbación, por
pequeña que sea, que coincida con una de sus frecuencias naturales de vibración.
Y comprenderemos por qué, al ponerse a vibrar en las frecuencias de estos modos
naturales de vibración, la cuerda produce un sonido periódico y musical.
Finalmente, antes de entrar en materia, me gustarı́a señalar que el fenómeno de
la resonancia no sólo es importante para la acústica musical, sino que atañe a
toda la acústica e incluso a la fı́sica en su conjunto y, de una u otra manera, a
la ciencia en general. La noción de resonancia ha salido del campo estrictamente
acústico y ha servido para explicar multitud de fenómenos en todas las áreas
de las ciencias, desde fenómenos electromagnéticos hasta los que conciernen a la
fı́sica de partı́culas, a la astronomı́a, e incluso a la biologı́a molecular. Allı́ donde
está presente la vibración o la oscilación está también presente el fenómeno de la
resonancia.
137
En todo movimiento ondulatorio hay que distinguir entre el movimiento de propa-
gación de la onda y el movimiento oscilatorio que realiza cada una de las partı́culas
que se ven afectadas por el paso de la onda. Cuando la dirección de ambos movi-
mientos es la misma, decimos que las ondas son longitudinales, como vimos que
ocurre con las condensaciones y rarefacciones en el aire al transmitir un sonido.
Cuando la dirección del movimiento oscilatorio es perpendicular a la del movi-
miento propagatorio, decimos que las ondas son transversales.
Por otra parte, la propagación de las ondas puede producirse en las tres dimen-
siones del espacio, en dos dimensiones o solamente en una: las condensaciones y
rarefacciones que se producen al propagarse un sonido por el aire en un espacio
abierto son de carácter tridimensional, pues se extienden de forma radial por todo
el espacio circundante; la ondulación que se propaga por las aguas de un estanque
o por la membrana de un tambor es bidimensional, pues viaja a lo largo y ancho
de una superficie; y las perturbaciones que se propagan a través de una cuerda
tensada o en el aire contenido en el tubo de una flauta son unidimensionales, pues
viajan en una sola dirección del espacio.
Al margen de que sean transversales o longitudinales, los sistemas vibratorios uni-
dimensionales tienden a producir ondas estacionarias con modos normales de vi-
bración armónicos. Por eso los sonidos musicales son generados por sistemas vi-
bratorios unidimensionales, tales como los instrumentos de cuerda y los de viento.
Habitualmente las cuerdas de los instrumentos al excitarse dan lugar a ondas trans-
versales: el macillo en un piano golpea la cuerda y la desplaza transversalmente;
lo mismo sucede al ser frotada la cuerda de un violı́n con un arco o al ser pulsada
la cuerda de una guitarra con el dedo. En el caso de los instrumentos de viento,
sin embargo, las ondas que se producen son longitudinales, pues la oscilación de
las partı́culas de aire se produce en la misma dirección en la que se propagan las
variaciones de la presión, es decir, a lo largo de la propia longitud de la masa de
aire que está contenida en el tubo.
Para estudiar cómo se genera el sonido armónico me ha parecido oportuno to-
mar como ejemplo un sistema constituido por una cuerda tensada que está fija
en ambos extremos, como puede ser la cuerda de un piano, de una guitarra o de
cualquier otro instrumento similar. Se trata de un sistema vibratorio unidimen-
sional y transversal. Dado que en las ondas transversales las partı́culas oscilan de
forma perpendicular a la dirección de propagación, son más fáciles de observar que
las ondas longitudinales, donde la oscilación de las partı́culas tiende a camuflarse
con el movimiento de la onda que propaga la perturbación. Aunque al estudiar el
comportamiento de la cuerda tensada nos centraremos en las ondas transversales,
las ideas que vamos a examinar pueden ser generalizadas al caso de las ondas lon-
138
gitudinales unidimensionales, como las que se producen en el interior de los tubos
de los instrumentos de viento.
Ası́ pues, con el propósito de permitir entender con facilidad cómo se producen las
ondas estacionarias y en qué consiste el fenómeno de la resonancia, he fabricado
varios vı́deos en los que se simula a cámara lenta el movimiento de una cuerda
cuando se provocan en ella diversas perturbaciones transversales. Supondremos
que se trata de una cuerda de piano sin encorchar de un metro de longitud —como
podrı́a ser cualquiera de las cuerdas que dan una nota en la octava que va de do3
a do4 — y que ha sido extraı́da del instrumento y sujetada por sus extremos a
unos soportes que la mantienen tensada. Supondremos también que estos soportes
pueden ser desplazados arriba y abajo mediante algún artilugio mecánico para
inducir en la cuerda diversos tipos de perturbaciones. La perturbación se provocará
mediante el desplazamiento vertical del soporte izquierdo al que está unida la
cuerda o, en alguna ocasión, de los dos soportes. Una vez que la perturbación
haya sido introducida, los soportes volverán a quedar fijos. A fin de modelizar la
inercia y la elasticidad, podemos considerar que la cuerda está constituida por un
conjunto de bolitas unidas por pequeñas gomas o muellecillos que se estiran y se
encogen.
En el eje vertical de la gráfica que aparecen en los vı́deos se representa el despla-
zamiento vertical de las partı́culas que suponemos forman la cuerda. Como nos
interesa observar el detalle de la perturbación y de sus reflejos e interferencias, las
unidades del eje vertical están en milı́metros. En el eje horizontal se representan
las sucesivas posiciones de la cuerda a lo largo de su longitud. Las unidades en
este caso, sin embargo, están en metros. Esta diferencia en las unidades hace que
en los vı́deos resulten muy exageradas las deformaciones de la cuerda provocadas
por su vibración (tengamos en cuenta que la cuerda real mide un metro y que la
deformación máxima que va a sufrir es de dos milı́metros), pero nos va a permitir
ver con mucha más facilidad los fenómenos ondulatorios que se producen.
Por otra parte, como queremos observar con detenimiento el movimiento que se
genera en la cuerda, nos interesa que en nuestra simulación la velocidad de propa-
gación de las perturbaciones sea suficientemente lenta. La velocidad con la que se
transmite cualquier perturbación transversal en una cuerda real está determinada
por la tensión a la que está sometida y por la masa por unidad de longitud que
posee. En el caso de una cuerda de piano que emite una nota media (como puede
ser el la3 ) la velocidad de propagación de una perturbación transversal puede estar
en torno a los 400 m/s. En nuestra simulación, sin embargo, la velocidad con la
que se propaga la perturbación a lo largo de la cuerda es de 1 metro por segundo,
es decir, 400 veces más lenta que en la cuerda real. El movimiento vertical del so-
139
porte mediante el que se generan las perturbaciones está ralentizado en esa misma
proporción.
Hay que tener en cuenta también que la cuerda de nuestro modelo se comporta de
forma ideal. En las simulaciones de los vı́deos se ha prescindido del rozamiento con
el aire o con los soportes que la sujetan, por lo que no se produce ninguna amor-
tiguación en el movimiento de la cuerda. Ası́ mismo, supondremos que la cuerda
vibra siempre en el mismo plano —en concreto, en el plano vertical arriba/abajo—,
aunque las cuerdas de los instrumentos reales no se comportan siempre ası́ (por
ejemplo, en un piano de cola, como consecuencia de la acción del macillo que la
golpea desde abajo, la cuerda comienza a oscilar en la dirección arriba/abajo, pero
durante su vibración tiende a rotar su plano de oscilación y a oscilar también de
izquierda a derecha, en la dirección paralela al teclado).
Comenzaremos examinando cómo se propaga por la cuerda una perturbación trans-
versal y cómo esa perturbación se refleja cuando llega a los extremos fijos. Luego
analizaremos lo que ocurre cuando interfieren dos perturbaciones que viajan en
sentidos opuestos. Después comprobaremos que las ondas estacionarias surgen de
la interferencia de una onda sinusoidal con su reflejo, cuando, en el tiempo que
tarda una oscilación en completarse, la onda recorre exactamente una parte entera
del camino de ida y vuelta a lo largo de la cuerda. A continuación veremos que la
cuerda tensada, en función de la velocidad de propagación ondulatoria, posee unos
modos normales de vibración propios, cuyas frecuencias siguen la serie armónica.
Después podremos observar que, cuando una cuerda es excitada en cualquiera de
esos modos de resonancia naturales, basta una mı́nima perturbación para produ-
cir una gran ondulación. Y finalmente, podremos ver el movimiento de una cuerda
cuando resuena simultáneamente en varios de sus modos naturales de vibración,
como sucede habitualmente en las cuerdas de los instrumentos musicales.
140
original. Dado que la simulación está ralentizada 400 veces, la duración del impulso
en el vı́deo de nuestra simulación es de 0,6 segundos. Los 20 segundos que dura el
vı́deo corresponden a las primeras 50 milésimas de segundo del movimiento de la
supuesta cuerda real.
Para que se apreciara claramente en el vı́deo que la perturbación se invierte cuando
se refleja en los soportes fijos de los extremos, interesaba que el impulso inicial
fuera sólo hacia arriba, sin que al descender sobrepasara la posición de equilibrio
de la cuerda, de manera que antes de reflejarse por primera vez la perturbación
viajara sólo por la parte superior. Para ver cómo es el impulso que ha generado
la perturbación, es decir, el movimiento vertical que ha realizado el soporte de la
cuerda, presento una gráfica que muestra el desplazamiento del soporte en función
del tiempo.
Podemos apreciar que el desplazamiento del soporte es simétrico y que tiene forma
de campana de Gauss. Las unidades del eje horizontal corresponden al tiempo de
la simulación en el vı́deo.
Veamos ahora el vı́deo que simula el comportamiento de la cuerda.
141
Figura 8.2: Vı́deo que simula la propagación de una perturbación en una cuerda tensada
y su reflejo cuando alcanza un extremo fijo.
142
perturbación llega al extremo derecho de la cuerda no puede desplazar el soporte.
Puesto que, según la Tercera Ley de Newton, la fuerza ejercida hacia arriba por
la cuerda sobre el soporte es la misma que la que el soporte ejerce hacia abajo
sobre la cuerda, el resultado es que el soporte, al no poder moverse, hace que la
cuerda rebote hacia abajo, con lo que la perturbación se invierte y retorna por
la parte inferior. La misma situación se repite cuando la cuerda llega de nuevo
al soporte izquierdo, el cual, una vez introducido el impulso inicial, ha quedado
también fijo. De nuevo la perturbación rebota y sigue su recorrido, ahora por la
franja superior.
Podemos también interpretar el fenómeno de la reflexión como el resultado de la
superposición de dos perturbaciones simétricas que viajaran en sentido opuesto a
lo largo de dos cuerdas virtuales. Esta forma de entenderlo es más intuitiva y nos
sirve para explicar los desplazamientos que sufre la cuerda en los momentos en los
que se solapa la perturbación incidente y la reflejada, lo cual nos va a facilitar el
estudio de las ondas estacionarias.
Estas dos cuerdas virtuales, que no estarı́an sujetas a ningún soporte, se prolon-
garı́an por un espacio imaginario que existirı́a más allá del obstáculo fijo en el que
se refleja la perturbación real. La prolongación serı́a igual a lo que mide la cuerda
real, por lo que las cuerdas imaginarias medirı́an el doble de ésta. Por una de estas
cuerdas imaginarias viajarı́a la perturbación incidente, que se prolongarı́a por el
espacio imaginario sin ser influida por la existencia del obstáculo; por la otra via-
jarı́a en sentido opuesto la perturbación reflejada, una perturbación idéntica a la
real, pero invertida, que se habrı́a originado simultánea y simétricamente en esta
segunda cuerda imaginaria. En todo momento el desplazamiento de cada punto
de la cuerda real serı́a el resultado de la superposición lineal de ambas cuerdas
virtuales.
Entenderemos mejor esta idea si imaginamos que en el punto del espacio en el que
se halla el obstáculo que la perturbación no puede mover —en nuestro caso, el
soporte derecho al que está fijada la cuerda— existiera una suerte de espejo que
separara el espacio real del espacio virtual. Veamos un vı́deo de carácter didáctico
en el que se ilustra lo que ocurre cuando la misma perturbación del vı́deo anterior
se refleja en el soporte derecho. Para poder apreciar los detalles, la velocidad del
vı́deo ha sido ralentizada 5 veces respecto al anterior.
143
Figura 8.3: Vı́deo que ilustra el reflejo especular de una perturbación que viaja por
una cuerda cuando alcanza un extremo fijo.
En el vı́deo podemos ver dos planos claramente diferenciados y separados por una
lı́nea blanca vertical que representa el espejo. A la izquierda aparece el plano de
la realidad, cuyo fondo está en color azul oscuro, el mismo color que el del resto
de los vı́deos que simulan el comportamiento de la cuerda, y a la derecha está el
plano virtual, el del otro lado del espejo, en color gris.
La cuerda está representada en el mundo de la realidad por las mismas bolitas y
gomillas que en el vı́deo anterior. Las dimensiones coinciden: la longitud es de 1
metro y la anchura de la perturbación es de 0,6 metros. Junto a la cuerda, por
encima y por debajo, vemos unas lı́neas de puntos que representan las cuerdas
imaginarias por donde viajan las perturbaciones virtuales. Ambas lı́neas deberı́an
coincidir exactamente con la cuerda, pero, para que resultara más fácil distinguir-
las, las he dibujado ligeramente por encima y por debajo de la cuerda real. Por
la lı́nea de arriba, en color amarillo, va la perturbación incidente, la que va de la
realidad al espejo, la cual continúa su camino cuando se encuentra con el soporte
fijo, como si no hubiera obstáculo alguno. Por la lı́nea de abajo, en color turquesa,
viaja la perturbación reflejada, la originada al otro lado del espejo y que se dirige
al plano de la realidad.
Observamos que, a la vez que se introduce una perturbación que afecta a la cuerda
real de nuestra simulación y a la lı́nea de puntos amarilla, al otro lado del espejo
se inicia la misma perturbación, pero invertida, una perturbación que viaja por
la lı́nea de puntos de color turquesa con la misma velocidad que la perturbación
original. Vemos que ambas perturbaciones siguen por su lı́nea de puntos como si
no hubiera ningún obstáculo, atravesando en el mismo instante la separación entre
la realidad y el mundo del espejo.
144
Vemos que la cuerda real, la que está formada por las bolitas, se comporta como
si fuera el resultado de sumar los desplazamientos de ambas perturbaciones vir-
tuales, la que va por la lı́nea de puntos amarilla y la que va por la lı́nea de puntos
turquesa. Esto es de especial interés para explicar lo que sucede en el tiempo en
el que la perturbación incidente y la reflejada se solapan. Podemos apreciar que
ambas perturbaciones, la incidente y la reflejada, alcanzan a la vez el soporte fijo
de la cuerda, es decir, la frontera entre el mundo imaginario y el real, y a partir
de ese momento empiezan a solaparse hasta que cada una termina de pasar total-
mente al otro lado. Esto ocurre porque ambas perturbaciones han sido producidas
simultáneamente a la misma distancia del punto del reflejo y viajan a la misma
velocidad. Ası́ mismo, puesto que una es la inversa de la otra, el valor de su super-
posición en el punto en el que se produce el reflejo (es decir, el valor de la suma de
sus desplazamientos individuales en el extremos fijo de la cuerda real) como era
de esperar, es siempre cero.
145
Empezaremos observando cómo se producen las interferencias constructivas.
Figura 8.4: Vı́deo que simula la interferencia constructiva de dos impulsos que viajan
a lo largo de una cuerda.
En este vı́deo podemos ver que las perturbaciones provocadas en la cuerda por
el desplazamiento hacia arriba de ambos soportes viajan por la parte superior
en sentidos opuestos, se superponen cuando se cruzan, continúan su camino sin
alterarse y se reflejan al llegar a los extremos fijos, viajando entonces ambas por
la parte de abajo. Para apreciar con detalle lo que sucede es necesario reconocer
primero cada una de las dos perturbaciones por separado. Puede servirnos de ayuda
ralentizar la velocidad del reproductor, tal como ocurre en el vı́deo de la figura
8.5, que es una repetición a cámara lenta de los momentos iniciales del vı́deo de la
figura 8.4.
Figura 8.5: Momentos iniciales del vı́deo de la figura 8.4 ralentizado cinco veces.
146
Este vı́deo auxiliar está ralentizado cinco veces respecto al anterior, lo que signi-
fica que la perturbación que vemos viaja 2.000 veces más despacio que la de la
cuerda real. Ahora podemos observar con más facilidad que cada una de las dos
perturbaciones, cuando no se solapa con la otra, mantiene la amplitud con la que
ha sido generada: la que procede de la izquierda es siempre de 1 mm y la que pro-
cede de la derecha es siempre de 0,7 mm. Vemos también que la perturbación más
amplia, la que procede de la izquierda, circula de izquierda a derecha cuando va
por la franja superior y de derecha a izquierda cuando va por la inferior, mientras
que la perturbación más pequeña, la que procede de la derecha, circula de derecha
a izquierda cuando viaja por la franja inferior y de izquierda a derecha cuando
lo hace por la franja superior. Dicho de otra forma, la perturbación mayor sigue
siempre el sentido de las agujas del reloj y la menor el sentido contrario al de las
agujas del reloj.
Una vez que hemos identificado ambas perturbaciones, podemos observar que
cuando se cruzan el desplazamiento que sufre cada punto de la cuerda
es la suma de los desplazamientos que hubiera provocado en ella cada
una de las perturbaciones por separado, es decir, las dos perturbaciones
se superponen linealmente. Como ambas perturbaciones viajan siempre por la
misma franja del espacio, las dos por arriba o las dos por abajo, interfieren entre sı́
de manera constructiva. Y puesto que las dos perturbaciones han comenzado a la
vez y se propagan a la misma velocidad, necesariamente se cruzan en la mitad de
su camino, en el punto que está a 0,5 m, y es en ese punto donde la perturbación
resultante alcanza su desplazamiento máximo. Dado que la amplitud de la pertur-
bación iniciada en el soporte izquierdo es de 1 mm y la provocada por el soporte
derecho es de 0,7 mm, la amplitud máxima de la perturbación resultante es de 1,7
mm, que corresponde a un desplazamiento ascendente de la cuerda cuando las per-
turbaciones se encuentran en la franja superior o a un desplazamiento descendente
cuando se encuentran en la franja inferior. Una vez superado su solapamiento cada
una de las perturbaciones sigue su camino conservando su individualidad. Hemos
podido observar que, como consecuencia de la elasticidad, la perturbación se sigue
transmitiendo a través de las fuerzas que ejercen unas bolitas sobre las siguientes,
por lo que, cuando cesa la coincidencia de ambas perturbaciones, cada una sigue
su camino.
Veamos ahora el vı́deo en el que podemos observar cómo se producen las interfe-
rencias destructivas.
147
Figura 8.6: Vı́deo que simula la interferencia destructiva de dos impulsos que viajan a
lo largo de una cuerda.
Este vı́deo solo se diferencia del de la figura 8.4 en que ahora los dos impulsos se
dan en sentidos verticales opuestos: mientras que el impulso del soporte izquierdo
desplaza la cuerda hacia arriba de su posición de equilibrio, el del soporte dere-
cho la desplaza hacia abajo. Esto hace que las perturbaciones no solo viajen en
sentidos opuestos a lo largo de la cuerda, sino que los desplazamientos verticales
provocados por las perturbaciones siempre sean opuestos. Podemos observar que
ambas perturbaciones se desplazan ahora en el sentido de las agujas del reloj, pero
que cuando una se propaga por la franja superior, la otra lo hace por la inferior,
y viceversa. Por eso, cuando ambas se cruzan en el punto central de la cuerda, el
desplazamiento que sufre ésta es la diferencia de las amplitudes de ambas pertur-
baciones. Podemos apreciar que cuando la superposición de las dos perturbaciones
coincide plenamente, el desplazamiento del punto central de la cuerda es de 0,3
mm (1 – 0,7 = 0,3), hacia arriba o hacia abajo en función de la franja por la que
circulen las perturbaciones. También ahora vemos que, una vez que ha concluido
el cruce, cada perturbación sigue su camino sin haber sufrido ninguna alteración,
hasta reflejarse en el extremo correspondiente.
148
rias, entender cómo se producen estas ondas nos permitirá conocer verdaderamente
qué es el sonido musical.
Un movimiento ondulatorio transmite una perturbación de un lugar a otro del
espacio, es decir, por naturaleza es viajero. Ahora bien, cuando una onda sinusoidal
queda atrapada en algún cuerpo o en alguna región del espacio —como puede ser
la cuerda de una guitarra o la columna de aire de una flauta—, las sucesivas
interferencias de la onda con su reflejo pueden hacer que su carácter viajero quede
disimulado y parezca que la onda se hubiera detenido. En ese momento, el cuerpo o
el volumen de aire de la región del espacio en el que la onda ha quedado encerrada
comienza a oscilar y la onda viajera se transforma en onda estacionaria.
A continuación vamos examinar, mediante varios vı́deos que he fabricado para
ello, cómo surgen las ondas estacionarias en la cuerda que nos está sirviendo de
modelo. Dado que las ondas estacionarias son el resultado de la superposición de
las sucesivas reflexiones de una onda sinusoidal, vamos a introducir en la cuerda
oscilaciones sinusoidales, en lugar del impulso gaussiano que hemos utilizado en
los vı́deos anteriores. Para ello, supondremos que mediante un artilugio mecánico
obligamos al soporte que sujeta el extremo izquierdo de la cuerda a realizar un
Movimiento Armónico Simple (MAS).
Nuestro objetivo va a ser comprobar que, cuando se introduce una oscilación
sinusoidal en una cuerda concreta —definida por su longitud y por la velo-
cidad con la que se propagan en ella las perturbaciones transversales—, sólo se
producirán ondas estacionarias si la longitud de la onda creada coincide
con el doble de la longitud de la cuerda o si es una parte entera de esta
medida. O dicho de otra manera, se generarán ondas estacionarias cuando dentro
de la longitud de la cuerda quepan exactamente un número entero de semiondas
sinusoidales. En los vı́deos de este apartado podremos observar que esto solamente
sucede cuando en el tiempo que tarda en completarse una oscilación sinusoidal,
la onda recorre exactamente el camino de ida y vuelta a lo largo de la cuerda o
una parte entera de este camino. Veremos, ası́ mismo, que las frecuencias de las
ondas estacionarias que se pueden producir en una cuerda dada siguen
la serie armónica, pues todas ellas son múltiplos de la frecuencia funda-
mental, que es la frecuencia de la onda estacionaria cuya longitud es el
doble de la longitud de la cuerda.
Recordemos que la cuerda ideal sobre la que estamos haciendo la simulación mide
un metro de longitud y que la velocidad con la que se propaga por ella cualquier
perturbación transversal es de 400 m/s. Por ello, en los vı́deos ralentizados 400
veces, la velocidad de la propagación de la onda que observaremos será de 1 m/s, y
la duración de 20 segundos corresponderá a las primeras 50 milésimas de segundo
149
de la vibración real. En los vı́deos ralentizados 2.000 veces, la velocidad de propa-
gación será de 0,2 m/s y la duración de 30 segundos representará las primeras 15
milésimas de segundo del movimiento real de la cuerda. En todos ellos la amplitud
de las oscilaciones sinusoidales introducidas es de 1 mm.
Pero antes de estudiar las ondas estacionarias vamos a examinar cómo se produce la
reflexión de una onda sinusoidal en un extremo fijo de la cuerda cuando la longitud
de la onda introducida no es una parte entera del doble de la longitud de la cuerda.
Como lo que nos interesa ahora es ver lo que sucede al solaparse la onda incidente
con la reflejada, elegiremos una onda cuya longitud sea menor que la longitud de
la cuerda. De esta manera, podremos apreciar por separado los momentos en los
que se produce el solapamiento de las dos ondas (la incidente y la reflejada) y
los momentos en los que solo está presente una de ellas. Por ello, he elegido una
onda cuya longitud es de 0,6 metros, la misma que la del impulso gaussiano de
los apartados anteriores. El periodo de la oscilación introducida tendrá que ser,
por lo tanto, de 1,5 ms. En efecto, dado que la velocidad de propagación de las
perturbaciones transversales en nuestra cuerda es de 400 m/s, cuando la oscilación
del soporte termine, la onda habrá recorrido 0,6 m (0,0015 x 440 = 0,6). Aunque
no sea relevante en este caso, este periodo corresponde, redondeando a décimas de
hercio, a una frecuencia de 666,7 Hz.
Ası́ pues, he confeccionado un vı́deo en el que se simula el comportamiento de
nuestra cuerda ideal cuando introducimos en ella esta única oscilación sinusoidal
de 1,5 ms de periodo. Puesto que este vı́deo está ralentizado 400 veces, la duración
de la oscilación inicial que observaremos en él será de 0,6 segundos.
150
Figura 8.7: Vı́deo que simula ralentizada 400 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es inferior a la longitud de
la cuerda y no es una parte entera del doble de esta longitud.
En el vı́deo vemos que una perturbación en forma de onda sinusoidal que ha sido
generada por el desplazamiento vertical del soporte izquierdo recorre ininterrum-
pidamente la longitud de la cuerda, reflejándose de forma invertida cada vez que
alcanza uno de los extremos fijos. A diferencia de los vı́deos anteriores, ahora nos
sorprende el carácter artificial del movimiento que realiza la cuerda. Ello se debe
a la introducción repentina de una única oscilación sinusoidal y a su cese ins-
tantáneo, sin transición alguna, ni al comienzo ni al final. Aunque he procurado
dotar de la mayor verosimilitud posible al movimiento de la cuerda, no podemos
olvidar que estamos ante una simulación de carácter didáctico, en la que es nece-
sario aislar el fenómeno que nos interesa estudiar, aun a consta de una apariencia
artificiosa.
Distinguimos en el vı́deo dos situaciones claramente diferenciadas: los momentos
en los que la onda va y viene por el medio de la cuerda y los momentos en los
que esa onda se deforma, dando lugar a una fugaz semionda, cuando se refleja
en los soportes de los extremos. Respecto a los primeros, no hay nada que no
hayamos visto antes. Observamos cómo la oscilación provocada por el movimiento
armónico simple que ha realizado el soporte, se dibuja en la cuerda en forma de
onda sinusoidal. Si pensamos en los tiempos en los que suceden los acontecimientos
en el vı́deo, podemos verificar también que la longitud de la onda introducida es de
0,6 metros. Puesto que la velocidad con la que se propagan las perturbaciones en
la cuerda del vı́deo es de 1 m/s, en los 0,6 segundos que ha tardado la oscilación en
completarse, la onda introducida habrá recorrido 0,6 m. En efecto, si detenemos
el vı́deo en cualquier instante en el que la onda se encuentre en una posición
intermedia, podremos comprobar que su longitud es de 0,6 metros.
151
Como lo que nos interesa ahora en particular es estudiar lo que sucede en los
momentos en los que se produce la reflexión de la onda en cada uno de los soportes
fijos en los que termina la cuerda, he fabricado un vı́deo auxiliar con el movimiento
de la cuerda ralentizado 5 veces más que en el vı́deo anterior. En él se representan
también las dos cuerdas imaginarias que hemos visto en el vı́deo de la figura 8.3,
pues nos sirven para interpretar la reflexión como la superposición de dos ondas
virtuales, la incidente y la reflejada, que viajarı́an por ellas.
Figura 8.8: Vı́deo que simula ralentizada 2.000 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es inferior a la longitud
de la cuerda y no es una parte entera del doble de esta longitud, con el añadido de dos
cuerdas virtuales que ilustran lo que sucede en la reflexión.
Igual que en el vı́deo anterior, vemos que sobre la cuerda real —representada por
las bolitas unidas por muellecillos— se desplaza una onda sinusoidal que se refleja
cada vez que alcanza uno de los extremos fijos. Vemos también dos cuerdas vir-
tuales que no están sujetas a ningún soporte y que, como en el vı́deo de la figura
8.3, debemos imaginar prolongándose por ambos lados a través de un espacio ima-
ginario que no está representado en este vı́deo. Por la cuerda amarilla viaja, de
izquierda a derecha, la perturbación original en los primeros segundos del vı́deo,
y luego los sucesivos reflejos que se producen en el soporte izquierdo (esto es, las
ondas sinusoidales provenientes del otro lado del hipotético espejo situado a la
izquierda de la cuerda). Por la cuerda turquesa viajan, de derecha a izquierda, las
ondulaciones reflejadas en el soporte derecho (es decir, las ondas que llegan desde
el espacio imaginario de la derecha), las cuales son del mismo periodo, amplitud
y longitud de onda que las de la cuerda amarilla, pero invertidas. Ya he expli-
cado, a propósito del vı́deo de la figura 8.3, la razón por la que la suma de los
152
desplazamientos de las cuerdas auxiliares en los puntos extremos fijos es siempre
cero.
Ahora vamos a prestar atención a lo que sucede cuando se produce la superposición
entre la onda incidente y la reflejada en los extremos fijos de la cuerda. Si nos
fijamos en el soporte de la derecha, vemos que en el momento en el que la onda
que viaja por la cuerda amarilla comienza a atravesar el soporte, también lo hace
la onda turquesa que, invertida, proviene del otro lado del supuesto espejo. Como
una onda es la inversa de la otra y ambas viajan a la misma velocidad en sentidos
opuestos, en el momento en el que ambas están a la mitad del cruce, las dos,
que en ese momento tienen la forma de una semionda sinusoidal inferior, coinciden
exactamente. Lo mismo sucede en el soporte derecho, con la única diferencia de que,
en ese caso, las semiondas que coinciden son las superiores. En ambos momentos,
vemos que la cuerda adquiere su desplazamiento máximo, hacia abajo o hacia
arriba, respectivamente.
Veamos una instantánea de este último vı́deo que representa un momento in-
mediatamente anterior a producirse la coincidencia exacta de las dos ondas vir-
tuales cuando se cruzan en el soporte derecho (si fuera en el momento exacto
no podrı́amos distinguir las dos cuerdas virtuales, pues coincidirı́an exactamen-
te).
Figura 8.9: Instantánea del vı́deo de la figura 8.8 en el momento anterior a producirse
la coincidencia entre la semionda incidente y la reflejada.
153
En la figura podemos observar que en el momento de la coincidencia, tanto la onda
incidente como la reflejada tienen la forma de una semionda sinusoidal inferior.
Teniendo en cuenta que la suma de dos ondas sinusoidales de la misma fase es
también una onda sinusoidal de la misma fase cuya amplitud es la suma de las
amplitudes de las dos ondas componentes, la cuerda real adquiere también la forma
de una semionda sinusoidal de la misma fase, cuya amplitud es el doble de la de
las ondas virtuales. En la gráfica vemos que la semionda formada en la cuerda real,
la de las bolitas, tiene una amplitud de 2 mm, el doble de la que tiene la onda
cuando no está solapada.
Resumiendo, mediante los vı́deos de las figuras 8.7 y 8.8 hemos podido observar
que las semiondas creadas en la cuerda real en cada reflexión duran
solamente un instante, pues a continuación esa semionda fugaz se diluye
y se dibuja de nuevo en la cuerda la forma de la onda completa. Ası́
pues, la onda sigue siendo viajera, pues en esta cuerda la oscilación
introducida no ha generado una onda estacionaria.
154
Como en los casos anteriores, he fabricado un vı́deo que reproduce, ralentizado 400
veces, el movimiento de la cuerda en estas condiciones. El periodo de la oscilación
inicial que observaremos en el vı́deo será, por lo tanto, de 2 segundos y su frecuencia
de 0,5 Hz. La velocidad de propagación que veremos será de 1 m/s.
Figura 8.10: Vı́deo que simula ralentizada 400 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es el doble de la longitud
de la cuerda.
155
La pregunta que tenemos que responder ahora es: ¿Por qué se ha producido esto?
Para entender con más detalle lo que ocurre vamos a ver un vı́deo que describe,
cinco veces más despacio que el vı́deo anterior, los momentos iniciales en los que
se crea la onda estacionaria. En él aparecen las cuerdas virtuales que hemos visto
antes y que nos van a ayudar a entender cómo las constantes interferencias entre
las ondas reflejadas en ambos extremos fijos dan lugar a la onda estacionaria.
Figura 8.11: Vı́deo que simula ralentizada 2.000 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es el doble de la longitud
de la cuerda, con el añadido de dos cuerdas virtuales que ilustran lo que sucede en la
reflexión.
Con ayuda de las cuerdas virtuales auxiliares, en el vı́deo podemos ver que lo que
está sucediendo por debajo de esa apariencia de estabilidad es que los sucesivos
reflejos de la onda viajera están interfiriendo entre sı́, dando lugar a la formación de
esa onda que parece haberse detenido. En el vı́deo vemos que, como consecuencia
de los sucesivos reflejos, la onda sinusoidal amarilla viaja ininterrumpidamente de
izquierda a derecha, y la turquesa de derecha a izquierda.
En los momentos iniciales del vı́deo, podemos apreciar que cuando la onda inci-
dente, la de color amarillo, alcanza el soporte derecho, comienza a surgir invertida
la onda reflejada, la de color turquesa. Como he explicado a propósito del vı́deo de
la figura 8.8, cuando ambas ondas imaginarias completan la mitad de su recorrido,
coinciden plenamente y la cuerda real, la de las bolitas, adquiere la forma de una
semionda sinusoidal inferior. Dado que, en este caso, la longitud de la onda es de
2 metros, la semionda abarca la longitud entera de la cuerda y, por lo tanto, se
termina de formar en el instante exacto en el que el soporte izquierdo ha com-
156
pletado su oscilación. Esta coincidencia —que se produce como consecuencia de
que el periodo de la oscilación introducida y la velocidad de propagación de la
cuerda dan lugar a una onda de longitud doble que la de la cuerda— es la causa
de que la cuerda comience a oscilar de forma unitaria y se cree una onda estacio-
naria en el primer modo de vibración. Veamos en la figura de abajo el momento
inmediatamente anterior a la formación de esta semionda sinusoidal.
Figura 8.12: Instantánea del vı́deo de la figura 8.11 en el momento anterior a producirse
la coincidencia entre la semionda incidente y la reflejada.
Vemos que la cuerda entera está a punto de adquirir la forma de una semionda
sinusoidal y que, al coincidir las dos ondas virtuales, su amplitud alcanza el valor
máximo, 2 mm.
Tenemos que entender ahora por qué esta forma que adquiere la cuerda no se
diluye, como en el caso del vı́deo de la figura 8.8, sino que la ondulación de la
cuerda va modificando su amplitud y alternando su forma entre una semionda
inferior y una semionda superior.
Para ello, tenemos que tener presente que la suma de dos ondas sinusoidales de la
misma longitud de onda es otra onda sinusoidal de esa misma longitud, cuya ampli-
tud depende de la diferencia de fase entre las dos ondas componentes. Al viajar las
dos ondas en dirección opuesta, el desplazamiento hacia la derecha de la onda que
va por la cuerda amarilla es compensado por el desplazamiento hacia la izquierda
de la onda turquesa, por lo que la cuerda real, la de las bolitas, siempre conserva
157
la misma fase, manteniendo, por lo tanto, la forma de una semionda sinusoidal.
Puesto que las dos ondas auxiliares viajan a la misma velocidad en direcciones
opuestas, siempre se cruzan en el medio, pasando de coincidir plenamente, cuando
ambas cuerdas virtuales forman una semionda inferior o superior, a oponerse por
completo, dando lugar a que la cuerda adquiera, en el instante en el que pasa por
la posición de equilibrio, la forma rectilı́nea.
Dicho de otra manera, las cuerdas auxiliares pasan continuamente de estar en fase
a estar en oposición de fase. Pero siempre los adelantos de una se compensan con
los retrasos de la otra, por lo que la resultante, la de la cuerda real, es siempre una
semionda inferior o una semionda superior, según sea la zona en la que coincidan
las ondas virtuales. Los desfases entre las ondas virtuales se traducen en diferencias
de amplitud de la onda resultante: cuando ambas están en fase —es decir, cuando
coinciden— la amplitud es máxima, como hemos visto en la figura 8.12; conforme
se desfasan, yendo una hacia la derecha y la otra hacia la izquierda, la amplitud de
la cuerda real disminuye; y cuando llegan a estar en oposición de fase, la amplitud
se anula y en ese instante la cuerda recobra su forma rectilı́nea, como se puede ver
en la figura de abajo.
Figura 8.13: Instantánea del vı́deo de la figura 8.11 en el momento anterior a producirse
la oposición entre la semionda incidente y la reflejada.
Por otra parte, dado que el desplazamiento de cualquier punto de la cuerda real es
la suma de los desplazamientos de los puntos correspondientes de la onda incidente
158
y la reflejada, en toda onda estacionaria hay puntos cuyo desplazamiento es siempre
nulo y otros cuyo desplazamiento alcanza el valor máximo. Los puntos que son
fijos se denominan nodos, y en este modo fundamental de vibración son sólo los
puntos extremos de la cuerda. Los puntos que oscilan con una amplitud máxima se
denominan vientres o antinodos, y en este modo, sólo lo es el punto medio, aquél
en el que siempre se cruzan las dos ondas virtuales. La amplitud con la que oscila
este punto es el doble de la amplitud de la oscilación introducida, en este caso
podemos ver que es de 2 mm.
Ası́ pues, el modo primero de vibración se caracteriza porque la cuerda
entera oscila de forma unitaria. En consecuencia, tiene un solo vientre
en el punto central de la cuerda y dos nodos que están situados en los
puntos extremos. La frecuencia de este primer modo de vibración es
la que corresponde a una longitud de onda doble de la longitud de la
cuerda. En nuestra cuerda ideal, sobre la que estamos realizando la simulación,
la frecuencia de este primer modo de vibración es de 200 Hz.
159
Por ello, el periodo con el que deberá oscilar el soporte izquierdo para introducir
la perturbación tendrá que ser de 2,5 ms. En efecto, dado que la velocidad de la
cuerda es de 400 m/s, en 2,5 ms la onda habrá recorrido 1 metro (400 x 0,0025
= 1). La frecuencia de la oscilación inicial será, por lo tanto, de 400 Hz. Tenemos
que tener en cuenta también que, para que se produzca el solapamiento de la onda
incidente con la reflejada en el segundo modo de vibración, deberemos introducir
en la cuerda dos oscilaciones completas.
He fabricado un vı́deo que simula el comportamiento de nuestra cuerda ideal cuan-
do se introducen en ella dos oscilaciones sinusoidales de ese periodo de 2,5 ms.
También ahora el movimiento de la cuerda está ralentizado 400 veces, con lo cual
el periodo de la oscilación que observaremos será de 1 segundo y su frecuencia, por
lo tanto, de 1 Hz.
Figura 8.14: Vı́deo que simula ralentizada 400 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es la misma que la longitud
de la cuerda.
160
Ahora hay un nuevo punto fijo, un nodo, que está en el medio de la cuerda (con
lo que en total hay tres nodos), y dos puntos de desplazamiento máximo, dos
antinodos o vientres, que están en la mitad de cada semionda, uno a 0,25 m y el
otro a 0,75 m.
La frecuencia con la que vemos oscilar la cuerda en este vı́deo es el doble de la que
tenı́a en el anterior: ahora es de 1 Hz, que corresponde, en la cuerda de la realidad,
a 400 Hz. Esta frecuencia es la misma que la de las oscilaciones iniciales que han
generado la onda estacionaria.
Dado que en el modo segundo de vibración la cuerda adquiere la forma de una on-
da sinusoidal completa, podremos apreciar más claramente cómo surge una onda
estacionaria. Para verlo con más detalle he fabricado un vı́deo con los momentos
iniciales del movimiento de la cuerda, ralentizados 5 veces respecto al vı́deo ante-
rior o, lo que es lo mismo, 2.000 veces respecto al movimiento de la cuerda real.
Este vı́deo corresponde a las primeras 15 milésimas de segundo del movimiento
de la cuerda real. También ahora la cuerda real, representada por las bolitas, va
acompañada de las cuerdas virtuales auxiliares, la amarilla y la azul turquesa.
Figura 8.15: Vı́deo que simula ralentizada 2.000 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es la misma que la longitud
de la cuerda, con el añadido de dos cuerdas virtuales que ilustran lo que sucede en la
reflexión.
161
surgir en la cuerda la segunda ondulación sinusoidal desde el soporte izquierdo, esa
primera perturbación se refleja en el soporte derecho y regresa invertida, de derecha
a izquierda, por la cuerda virtual turquesa. Podemos ver después que, en el instante
en el que la primera onda ha terminado de recorrer el camino de ida y vuelta a
lo largo de la cuerda y ha alcanzado de nuevo el soporte izquierdo, la segunda
onda ha llegado al soporte derecho. En ese mismo instante, la onda incidente y la
reflejada coinciden plenamente y la cuerda real dibuja la forma entera de una onda
o, lo que es lo mismo, la de dos semiondas opuestas consecutivas. En la figura de
abajo se muestra el instante previo a esta coincidencia.
Figura 8.16: Instantánea del vı́deo de la figura 8.15 en el momento anterior a producirse
la coincidencia entre la onda incidente y la reflejada.
En la figura podemos apreciar que en ese instante las cuerdas virtuales práctica-
mente coinciden, con lo que, al sumarse los desplazamientos de ambas, el despla-
zamiento vertical de cada uno de los puntos de la cuerda real alcanza su valor
máximo, dando como resultado una onda sinusoidal cuya amplitud es el doble de
la amplitud de la oscilación introducida, es decir, 2 mm.
Si volvemos al vı́deo de la figura 8.15, podemos fijarnos en que, a partir del momen-
to en el que la cuerda adquiere la forma de una onda completa, el desplazamiento
hacia la derecha de la onda virtual incidente —la que viaja por la cuerda amari-
lla— es compensado por el desplazamiento hacia la izquierda de la onda virtual
reflejada —la que viaja por la cuerda turquesa—, de modo que desde ese momento
162
la cuerda, que parece estar dividida en dos partes, oscila de forma estable, como
si ya no se propagara ninguna perturbación por ella.
Atendamos ahora a lo que ocurre cuando la cuerda oscila. Nos damos cuenta de
que pasa por dos situaciones extremas. Una es el momento en el que las cuerdas
auxiliares coinciden completamente, con lo que la ondulación de la cuerda real
alcanza su máxima amplitud, como hemos visto en la figura 8.16; otra es el mo-
mento en el que las cuerdas virtuales están en oposición de fase, con lo que los
desplazamientos de todos los puntos de la cuerda se anulan y ésta pasa por su
posición de equilibrio, como podemos ver en la figura de abajo.
Figura 8.17: Instantánea del vı́deo de la figura 8.15 en el momento anterior a producirse
la oposición entre la onda incidente y la reflejada.
163
vientres de la onda real que hemos visto en el vı́deo, y se oponen en 0 m, 0,5 m y
1 m, que corresponden a los nodos de la onda real.
Podemos generalizar las ideas que hemos visto respecto al primero y segundo
modo de vibración a cualquier caso en el que la frecuencia de las oscilaciones
iniciales sea múltiplo de la frecuencia del modo fundamental. En cualquiera de esos
modos de resonancia armónicos, la longitud de la onda generada por la oscilación
inicial será necesariamente una parte entera del doble de la longitud de la cuerda
(que, recordemos, coincide con la longitud de la onda en el modo de resonancia
fundamental), de forma que la cuerda entera oscilará dividida en tantas partes
como semiondas se puedan formar en ella.
En el vı́deo de abajo se simula la generación de una onda estacionaria en el tercer
modo de vibración. El periodo de las oscilaciones introducidas tendrá que ser, en
este caso, la tercera parte del periodo necesario para producir la onda estacionaria
en el modo fundamental, es decir, 5/3 ms. Por ello, la frecuencia correspondiente
será el triple de la frecuencia fundamental, esto es, 600 Hz, si bien, al estar el
vı́deo ralentizado 400 veces, la frecuencia que observaremos en él será de 1,5 Hz.
La longitud de la onda será también la tercera parte del doble de la longitud de
la cuerda, esto es, 2/3 m, es decir, redondeando a milı́metros, 0,667 m. Para que
se solapen completamente la onda introducida con su reflejo necesitaremos ahora
tres oscilaciones iniciales.
Figura 8.18: Vı́deo que simula ralentizada 400 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es la tercera parte del doble
de la longitud de la cuerda.
164
Podemos observar que, al terminar de completarse las tres oscilaciones iniciales del
soporte, la cuerda comienza a vibrar sin que parezca que se propague ya ninguna
perturbación por ella. En este caso la cuerda adquiere la forma de tres semiondas
sinusoidales, consecutivas y opuestas, que oscilan al ritmo de la frecuencia intro-
ducida. Vemos que en este modo estacionario de vibración se forman 4 nodos —en
los puntos 0, 0,3333, 0,6666 y 1—, que dividen la cuerda en tres partes, y tres
vientres entre los nodos. Puesto que la frecuencia que resulta es el triple de la
del modo primero de vibración, cuando es excitado este modo, producirá el tercer
armónico.
Algo parecido podrı́amos hacer para generar el cuarto modo de vibración, con la
diferencia de que deberı́amos introducir cuatro oscilaciones. En ese caso el periodo
de la oscilación introducida deberá ser la cuarta parte del periodo fundamental y
su frecuencia, cuádruple, es decir, deberá tener un periodo de 1,25 ms y, por lo
tanto, una frecuencia de 800 Hz. Ello dará lugar a una longitud de onda de 0,5 m.
Veámoslo en un nuevo vı́deo.
Figura 8.19: Vı́deo que simula ralentizada 400 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es la mitad de la longitud
de la cuerda.
165
Y algo similar podrı́amos observar en los restantes modos de vibración. Su número,
en principio, serı́a infinito. En la realidad, sin embargo, la pérdida de elasticidad
de la cuerda para longitudes de onda pequeñas hace que el número de modos
armónicos de vibración sea limitado.
De los vı́deos que hemos visto en este apartado dedicado a la formación de ondas
estacionarias podemos sacar la conclusión de que la cuerda fija en sus extremos
tiene la propiedad de crear ondas estacionarias a frecuencias que son
múltiplos enteros de una frecuencia fundamental determinada, es decir,
en modos de vibración armónicos. La frecuencia fundamental depende tanto
de la velocidad de propagación de la perturbación a lo largo de esa cuerda, como
de la longitud de ésta. El periodo de la oscilación que da lugar a la frecuencia
fundamental coincide con el tiempo que tarda la perturbación en realizar el camino
de ida y vuelta a lo largo de la cuerda. Y también se crean ondas estacionarias
cuando se introducen 2, 3, 4 o cualquier número entero de oscilaciones en ese
tiempo que tarda la perturbación en ir y volver. Eso quiere decir que la cuerda
tiene unos modos naturales de vibración, los cuales son también llamados modos de
resonancia. A continuación veremos por qué se llaman ası́ y lo que sucede cuando
son excitados.
8.6. La resonancia
Cualquier músico ha sufrido alguna vez la desagradable experiencia de que algún
objeto de su entorno empezaba a emitir un sonido cuando daba una determinada
nota con su instrumento, sin que le resultara nada sencillo determinar su proce-
dencia. Al cabo, se ha encontrado con un cenicero metálico, una lámpara de cristal
o un objeto cualquiera que estaba vibrando. Ocurrı́a simplemente que el objeto
en cuestión resonaba con la nota musical que estaba emitiendo el instrumento: la
vibración producida por esa nota tenı́a un componente frecuencial que coincidı́a
con alguna de las frecuencias naturales de vibración del objeto, de modo que éste
se ponı́a a resonar.
La resonancia se produce porque un cuerpo que vibra excita a otro que es capaz de
vibrar. Un cuerpo entra en resonancia cuando alguna de las frecuencias
del sistema excitador coincide con alguna de las frecuencias naturales
de vibración que ese cuerpo posee, de modo que la perturbación no se
limita a pasar a través de él, sino que se retroalimenta positivamente,
dando lugar a una onda estacionaria cuya amplitud se va incrementando
con el paso del tiempo. La resonancia despierta los modos de vibración que por
166
naturaleza posee cada objeto y por eso a estos modos normales o naturales de
vibración se les llama también modos de resonancia.
Un ejemplo tomado de la vida cotidiana que nos puede servir para comprender
el fenómeno de la resonancia es el de un columpio. Pensemos que tenemos a un
niño columpiándose y queremos que cada vez gane más altura y que el columpio
se balancee más y más. El columpio, al igual que cualquier péndulo, tiene una
frecuencia natural de oscilación, la cual depende de su longitud. Si empujamos el
columpio de forma periódica, haciendo que nuestros impulsos se produzcan siempre
en el mismo estado de la oscilación, el columpio irá ganando en altura; si, por el
contrario, impulsamos el columpio cuando se nos ocurra, con total independencia
del estado de oscilación, no incrementaremos la amplitud de sus oscilaciones, sino
que probablemente lo frenaremos. En definitiva, si impulsamos el columpio siempre
con la misma frecuencia y ésta coincide con la frecuencia natural de oscilación de
ese columpio concreto (por ejemplo, si lo impulsamos siempre cuando pasa lo más
próximo al suelo), el columpio irá acumulando esa energı́a y progresivamente la
amplitud de sus oscilaciones aumentará.
Examinemos ahora cómo se produce la resonancia en la cuerda que estamos utili-
zando para nuestras simulaciones. Recordemos que mide 1 m de longitud, que está
fija en sus extremos y que tiene, por razón de su masa y de la tensión a la que
está sometida, una velocidad de propagación de las perturbaciones transversales
de 400 m/s. Como consecuencia de ello, tal como hemos visto en el apartado ante-
rior, en nuestra cuerda se puedan crear ondas estacionarias en frecuencias que sean
múltiplos enteros de 200 Hz. Y esto quiere decir que cuando la cuerda entre en
contacto con una vibración en alguna de estas frecuencias, se pondrá en resonancia
con ella y empezará a vibrar por simpatı́a: con una frecuencia de 200 Hz dará el
primer modo de resonancia o fundamental; con una de 400 Hz, el segundo modo
de resonancia; con 600 Hz, el tercero, y ası́ sucesivamente. Ası́ pues, si en nuestra
simulación hacemos que la frecuencia con la que oscila el soporte que introduce la
perturbación coincida con una de esas frecuencias naturales de vibración, la cuerda
se pondrá a vibrar en resonancia.
A diferencia de los casos anteriores, ahora vamos a introducir en la cuerda oscila-
ciones de modo continuo, unas oscilaciones de amplitud muy pequeña, de 0,1 mm,
pero que se mantienen durante cierto periodo de tiempo, exactamente durante 50
ms. Lo que nos interesa es comprobar cómo la amplitud de la oscilación que se
genera en la cuerda va creciendo rápidamente a medida que pasa el tiempo.
Empezaremos viendo lo que ocurre cuando el soporte oscila durante 50 ms a una
frecuencia de 200 Hz, es decir, la frecuencia del modo fundamental o primero de
resonancia de nuestra cuerda. En el vı́deo de abajo, que está ralentizado 400 veces,
167
la frecuencia será de 0,5 Hz, con lo que podremos observar una oscilación completa
cada 2 segundos.
Figura 8.20: Vı́deo que simula la creación por resonancia de una onda estacionaria en
el primer modo de vibración.
Vemos que enseguida se crea una onda estacionaria en el primer modo de resonan-
cia, por lo que la cuerda entera oscila de manera unitaria. Pero vemos también, y
esto es lo más importante, que la amplitud de la oscilación crece de manera muy
rápida, de tal forma que cuando el soporte se detiene al concluir los primeros 50 ms
de la realidad (o los primeros 20 segundos del vı́deo), la amplitud de la oscilación
de la cuerda ha alcanzado ya 2 mm. Es decir, han bastado 50 ms de oscilación del
soporte para multiplicar la amplitud de esa oscilación inicial por 20 veces. Sucede
que el movimiento del soporte se acopla con las sucesivas reflexiones de la cuerda,
de tal modo que la energı́a se acumula y eso hace crecer la oscilación de la cuerda,
de modo semejante a lo que ocurre en el columpio.
Ahora examinaremos lo que sucede cuando el soporte oscila con otra de las fre-
cuencias de resonancia naturales de nuestra cuerda, en este caso 400 Hz, que co-
rresponde al segundo modo de resonancia. En el vı́deo, ralentizado 400 veces, la
frecuencia será de 1 Hz.
168
Figura 8.21: Vı́deo que simula la creación por resonancia de una onda estacionaria en
el segundo modo de vibración.
Vemos que en este caso se crea también una onda estacionaria, ahora en el modo
segundo. En efecto, la cuerda oscila dividida por la mitad en dos partes. Cuando
el soporte deja de moverse el punto medio permanece ya estable y se crea en él
un nodo. También ahora podemos apreciar que la mı́nima amplitud con la que
oscila el soporte es capaz de provocar una gran respuesta en la oscilación de la
cuerda. Comprobamos, pues, que la cuerda resuena también a la frecuencia de 400
Hz.
Para experimentar que la resonancia se produce solo cuando la oscilación que intro-
ducimos tiene una frecuencia que coincide con alguno de los modos de resonancia
naturales de nuestra cuerda, vamos a ver lo que sucede cuando forzamos a la cuer-
da a vibrar a una frecuencia alejada de cualquiera de esos modos. En concreto,
vamos a forzar a la cuerda mediante una oscilación constante del soporte izquierdo
a 285 Hz de frecuencia. En el vı́deo, al estar ralentizado 400 veces, la frecuencia
del soporte será aproximadamente de 0,7 Hz.
169
Figura 8.22: Vı́deo que muestra que no hay resonancia si la frecuencia de la oscilación
introducida no coincide con ningún modo natural de vibración de la cuerda.
170
la facilidad con la que la energı́a del sistema impulsor se transmite al sistema
pasivo hace que la amplitud de las vibraciones de este sistema pasivo crezca de
forma extraordinaria.
Como conclusión podemos decir, que, en lı́neas generales, cuando coincide la
frecuencia de la fuerza excitante y la frecuencia natural del sistema
pasivo, se produce un cambio cualitativo importante. La resonancia nos
muestra como una fuerza en sı́ misma pequeña puede crear un efecto
grande. Este efecto será más evidente conforme las fuerzas de fricción o cualquier
otra que se oponga al movimiento sean menores. En el caso de nuestra cuerda ideal
en la que hemos descartado cualquier fuerza de amortiguación este crecimiento es
máximo.
171
Figura 8.23: Vı́deo que simula la vibración de una cuerda en los dos primeros modos
de resonancia.
En el vı́deo, que está ralentizado 400 veces respecto al movimiento real de nuestra
cuerda, podemos observar cómo se superponen los dos primeros modos de vibra-
ción. Al entrar en resonancia por la acción del soporte, el movimiento de la cuerda
va incrementando rápidamente su amplitud. Cuando el soporte se detiene, lo cual
ocurre en el segundo 20 del vı́deo o en el 50 ms de la realidad, y dado que no
hemos tenido en cuenta ninguna fuerza de amortiguación, la amplitud de la onda
permanece estable durante el resto del vı́deo.
Vemos que el conjunto de la cuerda oscila arriba y abajo una vez cada 2 segundos,
como corresponde a la frecuencia fundamental. Esto lo podemos ver mejor si nos
fijamos en el punto central de la cuerda, el que está en 0,5 m: podemos apreciar en
el vı́deo que este punto oscila arriba y abajo haciendo un Movimiento Armónico
Simple (MAS) con la frecuencia del primer modo de resonancia de nuestra cuer-
da, que coincide con la frecuencia fundamental de la oscilación del soporte que
está introduciendo la perturbación, es decir, 0,5 Hz en el vı́deo o 200 Hz en la
realidad.
Pero, a la vez, observamos que la cuerda se divide por el medio en dos partes
iguales y que cada una de estas partes oscila, de forma complementaria una de la
otra, a una frecuencia doble de la que tiene el conjunto de la cuerda, es decir, a 400
Hz en la realidad o a 1 Hz en el vı́deo. Este movimiento es similar al que tendrı́a
la cuerda si solo se hubiera introducido en ella el segundo modo de resonancia
y pivotara en torno al punto central (como podemos ver en la figura 8.21). Pero
este punto central en el modo segundo serı́a un nodo y, por lo tanto, permanecerı́a
inmóvil. La diferencia reside en que ahora este punto central oscila también arriba
172
y abajo, en cuanto que es el punto de máxima amplitud, el vientre, del primer
modo de resonancia.
En este caso sencillo en el que se combinan solamente los dos primeros modos
de resonancia, nos resulta fácil apreciar que el movimiento total de la cuerda es
el resultado de la composición de estos dos movimientos, pero a medida que el
número de los componentes que vibran aumenta, la vibración de la cuerda se hace
más y más compleja, hasta un punto en el que ya no es posible discernirlos ni
siquiera en un vı́deo ralentizado.
Por otra parte, hay que tener en cuenta que en nuestra simulación solamente
hemos contemplado el caso de que la excitación que genera la onda sobre la cuerda
se realice a través de uno de los extremos fijos de la cuerda. Pero la cuerda de
un instrumento musical real puede ser excitada de múltiples maneras, bien por un
golpe —tal como el que realiza el macillo en el piano—, bien al ser pulsada —como
en el caso de la guitarra o del clavecı́n— o bien al ser frotada —como ocurre en
el violı́n—. El lugar en el que se produce la excitación de la cuerda también es
relevante para la sonoridad que se obtiene, pues, dependiendo de la posiciones en
las que se produce el estı́mulo y de las intensidades de éste, se potenciarán o se
atenuarán unos u otros modos de resonancia de la cuerda, con lo que se despertarán
en mayor o menor medida unos u otros armónicos.
Veamos ahora un vı́deo que simula de una forma más completa el movimiento de
una cuerda real cuando produce un sonido armónico. En él se observa la vibración
de nuestra cuerda cuando es excitada por una perturbación constituida por un
conjunto numeroso de componentes, alguno de los cuales coinciden con sus modos
de resonancia, mientras que otros están alejados. La cuerda amplifica solamente
aquellas frecuencias que coinciden o están muy próximas a sus modos de resonancia
y deja pasar sin amplificar aquellas otras que están alejadas. De esta manera, como
las frecuencias naturales de la cuerda son armónicas, la vibración resultante será
también armónica, dando lugar a una nota musical. La frecuencia de esta nota
es de 200 Hz, la frecuencia fundamental que por naturaleza tiene la cuerda de
nuestra simulación. A fin de facilitar la observación en el vı́deo, he diseñado el
movimiento del soporte para que la cuerda responda de forma significativa a los
ocho primeros modos de resonancia y, además, para que los componentes de más
frecuencia disminuyan progresivamente su amplitud.
173
Figura 8.24: Vı́deo que simula la vibración de una cuerda en múltiples modos de
resonancia.
Al principio del vı́deo observamos una vibración de poca amplitud y más bien de
carácter aleatorio, pero rápidamente va adquiriendo periodicidad y ganando en
amplitud. Sucede simplemente que aquellos componentes que están presentes en
la oscilación del soporte, pero que no corresponden a ningún modo de vibración
natural de nuestra cuerda, no son amplificados, permaneciendo siempre en su ba-
jo nivel inicial, mientras que los componentes que corresponden a las frecuencias
naturales de la cuerda resuenan y son amplificados. El resultado es que la cuerda
vibra de una manera compleja, como consecuencia de la combinación de sus mo-
dos naturales de vibración, pero de una forma periódica, con lo que produce una
vibración armónica.
En efecto, el movimiento que observamos en el vı́deo se aproxima bastante al que
podrı́a ser el movimiento de una cuerda real. Al ser el movimiento de la cuerda
el resultado de múltiples modos de vibración, la apariencia que observamos es un
movimiento complejo en el que es casi imposible reconocer individualmente cada
uno de los modos de vibración. Aun con todo, podemos apreciar que se trata de una
vibración armónica, como podemos reconocer si nos fijamos en la clara periodicidad
que se manifiesta cuando el soporte queda ya inmóvil. Podemos fijarnos en que
cada dos segundos se repite el mismo movimiento, lo que supone una frecuencia
de 0,5 Hz, que multiplicado por las 400 veces que está ralentizado el vı́deo, nos da
los 200 Hz de frecuencia que hemos atribuido a nuestra cuerda.
Ası́ pues, mediante este vı́deo hemos podido hacernos una idea intuitiva de que
una cuerda tensada selecciona de modo natural aquellas perturbaciones
que coinciden con sus modos naturales de vibración, actuando como si
se tratara de un filtro, de modo que, ante una perturbación compleja,
174
reacciona positivamente y se acopla bien sólo en aquellas frecuencias
que coinciden con sus modos naturales de vibración.
8.8. Conclusión
A lo largo de este capı́tulo hemos estudiado que el sonido armónico o musical
se produce cuando un cuerpo cuyos modos naturales de vibración son múltiplos
enteros de una frecuencia fundamental es excitado por una fuerza vibratoria que
contiene algunas de esas frecuencias o todas ellas, con las que entra en resonancia
y se generan ondas estacionarias.
175
Capı́tulo 9
9.1. Introducción
En el capı́tulo dedicado al sonido armónico hacı́amos abstracción de los cambios
a lo largo del tiempo que se pueden producir en la amplitud y en la frecuencia
de cada uno de los componentes armónicos, estudiando el sonido musical como si
se tratara de un fenómeno totalmente estable. Pero la realidad es que los sonidos
musicales no suelen permanecer estables, sino que van evolucionando durante su
duración.
La evolución de los parámetros de amplitud y de frecuencia de los componentes
simples que constituyen los sonidos musicales da lugar a ciertos rasgos acústicos que
caracterizan la sonoridad de las notas musicales que escuchamos. Esos rasgos nos
proporcionan información sobre la fuente sonora —es decir, sobre el instrumento
del que se trata— y también sobre las acciones que realiza el intérprete con el
instrumento. Debido a esto último, los rasgos tı́mbricos que se van creando por
la modificación de la amplitud y de la frecuencia de la nota a lo largo de su
duración encierran una parte muy importante de la fuerza emotiva que es capaz
de transmitir el cantante o el instrumentista con su interpretación.
Las formas que adquieren la evolución de la amplitud y de la frecuencia
a lo largo del tiempo de duración de una nota reciben respectivamente
el nombre de envolvente de amplitud y envolvente de frecuencia. Junto
a la cualidad sonora derivada del diferente peso de cada uno de los componentes
que constituyen el sonido armónico y también de las marcas acústicas que resultan
de la transición entre una nota y la siguiente, las envolventes de frecuencia y de
amplitud definen el timbre de las notas musicales que escuchamos.
176
En el caso de la amplitud, no solo interviene la envolvente general —es decir, la
forma que describe la evolución temporal de la amplitud del sonido armónico en su
conjunto—, sino también las envolventes de cada uno de sus componentes simples.
Efectivamente, la evolución de la amplitud de cada uno de los componentes que
constituyen un sonido armónico puede tener su ritmo propio, de modo que unos
pueden estar adelantados o retrasados respecto a otros, o incluso unos pueden
crecer mientras otros decrecen. Estas diferencias van a dar lugar a marcas tı́mbricas
distintas.
En el caso de la frecuencia, sin embargo, más allá de sutilezas que escapan al
objetivo de este curso, todos los componentes armónicos de una nota evolucionan
de la misma manera, con lo que la forma de la envolvente de frecuencia general
coincide con la de cada uno de ellos.
Aunque voy a dedicar un capitulo a estudiar el timbre de los sonidos producidos
por los instrumentos musicales y por la voz humana, es de interés experimentar
primero, mediante ejemplos sonoros de laboratorio, cómo son los rasgos acústi-
cos elementales derivados de la evolución de la frecuencia y de la amplitud de los
diferentes componentes armónicos, lo que nos va a permitir apreciar la importan-
cia que tienen las envolventes de amplitud y de frecuencia en la caracterización
tı́mbrica de los sonidos musicales.
Pare ello he confeccionado varios vı́deos con sonidos de laboratorio creados con
Matlab especialmente diseñados para experimentar cómo afecta a nuestra percep-
ción sonora la envolvente de amplitud y la envolvente de frecuencia. En la parte
superior de cada uno de estos vı́deos se representa, como un osciloscopio virtual, la
forma de la vibración en tiempo real, mientras que en la parte inferior se muestra
una gráfica con la envolvente de amplitud o la envolvente de frecuencia. En la
parte inferior, la barra azul que se va deslizando señala el punto de la envolvente
del sonido que estamos oyendo en ese instante.
En los ejemplos de este capı́tulo he pretendido dejar aislado el rasgo sonoro que
nos interesa experimentar en cada caso. Por eso en cada vı́deo los sonidos han
sido generados a propósito para que sólo se diferencien en el rasgo especı́fico que
debemos observar.
177
puedan producir en la evolución de la amplitud de cada uno de sus componentes
parciales.
La envolvente de amplitud general es la gráfica que describe cómo la
amplitud total de un sonido cambia a lo largo del tiempo, desde el
momento de su emisión hasta que desaparece completamente. Por eso,
la envolvente de amplitud global describe, entre otras cosas, si el ataque es rápido
o lento, si el sonido se mantiene durante un tiempo o si comienza enseguida su
extinción, y si esta extinción es abrupta o el sonido se va amortiguando poco a
poco.
Puesto que el caso más sencillo de un sonido armónico es un sonido simple, donde
la envolvente de amplitud global necesariamente coincide con la del único com-
ponente que lo constituye, en primer lugar vamos a observar cómo influye en la
caracterización tı́mbrica de un sonido simple la forma que adquiere la evolución
de su amplitud, es decir, su envolvente de amplitud general.
He fabricado un vı́deo en el que suena dos veces la misma nota generada en el
laboratorio, un la3 a 220 Hz constituido por un solo componente. La diferencia
entre ambos sonidos simples reside solamente en la forma en la que evoluciona la
amplitud a lo largo de su duración: la envolvente del primer sonido es similar a la
que posee una nota musical real producida mediante una cuerda pulsada con la
mano o con una púa; la envolvente del segundo sonido, sin embargo, se asemeja a
la de una nota de flauta mantenida durante unos pocos segundos. He procurado
que el pico de amplitud sea el mismo en ambos casos para que la única diferencia
entre ellos resida en la envolvente de amplitud.
En la parte superior del vı́deo aparece la forma de la vibración a medida que va
sonando. En la parte inferior se representa en color verde la señal de audio completa
de los dos sonidos y en color amarillo su envolvente de amplitud. La señal de audio
tiene el aspecto de una mancha continua debido a que el número de muestras que
se representan en este reducido espacio es superior a 300.000. La barra azul señala
en cada instante el punto de la envolvente que corresponde a la señal de audio que
está sonando y que se ve representada en la parte superior.
178
Figura 9.1: Vı́deo que muestra las diferencias tı́mbricas a las que dan lugar dos envol-
ventes de amplitud distintas sobre el mismo sonido simple.
179
ta su extinción, sin que haya habido más contribuciones de energı́a por parte del
instrumentista. En este caso la información que ha aportado el intérprete se ha
concentrado en el ataque, mientras que el resto de la envolvente sólo nos ilustra
sobre las caracterı́sticas propias del instrumento.
En el segundo ejemplo podemos distinguir con claridad las cuatro etapas que
convencionalmente se diferencian en la envolvente de amplitud: ataque,
declive, mantenimiento y extinción (si bien esta clasificación en etapas no deja
de ser una simplificación de tipo práctico utilizada en los antiguos sintetizadores
de sonido).
Podemos apreciar en este caso que el ataque es muy lento, pues dura medio segundo
(aproximadamente desde 3,6 s hasta 4,1 s) y que tiene la forma de una especie de
“ese” inclinada hacia la derecha. En efecto, el ataque comienza muy lentamente,
luego se apresura y finalmente se ralentiza de nuevo hasta alcanzar el punto de
máxima amplitud.
Una vez terminado el ataque, la amplitud comienza a decaer un poco hasta esta-
bilizarse en torno al segundo 5. Esta etapa de declive recibe también el nombre de
caı́da o primera caı́da y es el resultado de que a veces tras el ataque de la nota se
produce una cierta relajación que conduce a la etapa de mantenimiento.
La etapa de mantenimiento, que también se llama “etapa de sostenimiento”, co-
mienza en el segundo 5. Ahora el sonido se mantiene en una amplitud aproximada
de 0,2. En este ejemplo el sonido mantiene la amplitud estable, pero también podrı́a
haberse producido un trémolo, es decir, una oscilación de la amplitud en torno al
valor medio del mantenimiento.
Por último, se inicia la etapa de extinción del sonido, que en este caso se prolonga
durante bastante tiempo, desde aproximadamente 6,6 s hasta 7,4 s. La duración
de esta última etapa puede depender no sólo del instrumento o de la voluntad del
ejecutante —quien puede prolongar la duración de la nota amortiguándola poco a
poco si el instrumento lo permite—, sino también del entorno sonoro en el que se
emite la nota. Por ejemplo, si la nota se emite en una sala cerrada grande, cuyas
paredes reflejan una parte importante del sonido que reciben, se producirá una
reverberación que prolongará considerablemente esta etapa de extinción.
El sonido de este segundo ejemplo nos recuerda al de una nota de flauta, una nota
que el intérprete ha atacado con delicadeza y que luego se ha esforzado en mantener
estable durante toda su duración. La prolongación de la etapa de extinción nos
hace imaginar una sala grande y vacı́a con mucha reverberación.
Con estos dos ejemplos hemos podido ver que los rasgos acústicos derivados de la
evolución de la amplitud global de un sonido armónico contribuyen a caracterizar
180
la cualidad sonora que escuchamos. Si reconocemos un determinado rasgo tı́mbrico
y lo asociamos a un instrumento o a una acción del intérprete es porque nuestro
sistema auditivo está entrenado para detectar en los sonidos del entorno toda la
información útil que podamos extraer y que nos permita identificarlos. Por eso,
cuando la evolución de la amplitud sigue la ley natural de extinción exponencial,
como en el primer sonido del vı́deo, reconocemos, sin ser conscientes de ello, que
la fuente sonora no ha sido modificada durante su emisión, y esa información
es percibida como una caracterı́stica diferencial de ese sonido. Cuando, por el
contrario, el sonido mantiene un cierto nivel de amplitud durante buena parte de
su duración, como es el caso del segundo ejemplo, interpretamos que la fuente
sonora está siendo alimentada constantemente con energı́a. Y en función de las
variaciones de la fase de mantenimiento nos hemos acostumbrado a distinguir si
es el resultado de la intervención del ejecutante o si viene dado por la dinámica
propia del instrumento. Ası́ mismo, la forma de la extinción y su duración nos
aporta información sobre la acción del intérprete y sobre el entorno espacial en el
que ese sonido se encuentra.
Cualquier forma de la envolvente que no responda a la dinámica propia del com-
portamiento fı́sico esperable nos habla de una intervención por parte del intérprete.
Por poner un ejemplo, nuestro sistema perceptivo distingue entre el sonido produ-
cido por un órgano de iglesia y el producido por una flauta, con independencia del
color —es decir, del número y peso de los armónicos—, simplemente por las va-
riaciones que, por mı́nimas que sean, acompañarán siempre al sonido de la flauta.
Ası́, en el segundo ejemplo, la suavidad del ataque con esa forma de ese y la ligera
primera caı́da son suficientes para atribuir a ese sonido una voluntad humana, y
por eso lo relacionamos con el sonido de una flauta en la que el intérprete ha podi-
do modificar la evolución de la amplitud. Aunque se trata de un sonido generado
artificialmente, nunca lo confundirı́amos con otro que simulara el producido por el
tubo de un órgano de iglesia. En realidad, si en lugar de haber sido la envolvente
de amplitud tan esquemática, sus etapas de declive y de mantenimiento hubieran
presentado algunas inflexiones, nos hubiera recordado más al sonido producido por
una flauta real.
181
cómo afectan al timbre los desfases en la envolvente de amplitud entre los distintos
componentes. Comprobaremos también que los cambios en la forma de las envol-
ventes de amplitud de los distintos componentes de un sonido musical pueden ser
consecuencia tanto de la propia constitución acústica del instrumento, como de las
acciones del intérprete mediante las cuales consigue su especial expresividad.
La propia constitución acústica de algunos instrumentos hace que los componentes
armónicos se amortigüen de manera desfasada. En general, los armónicos superio-
res tienden a extinguirse antes que los inferiores. En algunos instrumentos, sin
embargo, el desfase afecta al ataque, como es el caso de los instrumentos de metal,
donde los armónicos superiores tienden a retrasarse. Estos desfases constituyen
una marca tı́mbrica que caracteriza los sonidos y contribuye a la identificación de
la fuente sonora, es decir, ayudan a reconocer el instrumento.
Ası́ mismo, en la voz y en otros instrumentos, el intérprete puede modificar durante
la emisión del sonido la importancia relativa de sus componentes armónicos y,
con ello, su cualidad sonora. Por ejemplo, en el caso del violı́n puede cambiar la
posición del arco, su velocidad o la presión que ejerce sobre la cuerda, alterando la
cualidad sonora de la nota que está emitiendo. Por todo ello las envolventes
de amplitud de los componentes parciales no siguen necesariamente el
mismo patrón, sino que se puede dar la circunstancia de que el aumento
de amplitud de un armónico superior pueda coincidir con el decremento
de un armónico inferior, o viceversa.
Para experimentar cómo afecta al timbre las relaciones entre las envolventes de
amplitud de los diferentes componentes de un sonido musical, he fabricado tres
vı́deos en los que se ejemplariza tres situaciones caracterı́sticas. El ejemplo del pri-
mer vı́deo muestra lo que ocurre cuando se desfasa la extinción de los componentes;
el del segundo, lo que sucede cuando hay un retraso progresivo en el ataque; y el
tercero, cómo se modifica la cualidad sonora a lo largo de la emisión de un sonido
a consecuencia del cambio en el peso relativo entre los componentes. La nota es en
todos los casos un la3 a 220 Hz, constituido por los cuatro primeros componentes
armónicos.
El primer vı́deo presenta el caso en el que la extinción de los componentes no se
produce de manera homogénea, sino que se apaga antes conforme más agudo es el
componente.
182
Figura 9.2: Vı́deo que muestra la influencia en el timbre del desfase en la extinción de
los componentes de un sonido.
En este vı́deo observamos dos repeticiones de la nota la3 a 220 Hz, pero si prestamos
atención advertimos que su sonoridad es claramente diferente. En ambos casos el
número de armónicos y su amplitud máxima es la misma: el primer armónico, el de
220 Hz, tiene una amplitud máxima de 0,24; el segundo, el de 440 Hz, de 0,21; el
tercero, el de 660 Hz, de 0,18; y el cuarto, el de 880 Hz, de 0,15. La única diferencia
entre ambos sonidos es que en el primero la velocidad con la que se amortiguan
los cuatro componentes es similar, mientras que en el segundo la extinción de
cada armónico sigue un ritmo diferente, de modo que los armónicos superiores se
extinguen más rápidamente que los inferiores.
En la primera emisión de la nota apreciamos que durante toda su duración la
cualidad del sonido es la misma. En la parte inferior podemos observar que el peso
relativo de los diferentes armónicos no varı́a sustancialmente. Podemos apreciar
también en el osciloscopio que la forma de la vibración no cambia a lo largo de
todo el sonido, aunque su amplitud vaya disminuyendo progresivamente.
En la segunda emisión de la nota, por el contrario, si realizamos una escucha atenta
nos damos cuenta de que la cualidad sonora va cambiando a lo largo de la duración.
Comienza con una sonoridad plena, resultado de que los cuatro componentes que
forman la nota tienen un peso similar, pero luego va perdiendo cuerpo hasta que la
nota se transforma en un sonido simple. Esta evolución de la cualidad es percibida
por nuestro oı́do como un rasgo caracterı́stico del timbre de esa nota, algo que la
hace diferente de la anterior. En el osciloscopio se puede observar también que la
forma de la vibración cambia a largo de su duración. En efecto, al principio de
la nota la forma de la vibración es compleja, pero luego, conforme la amplitud se
va atenuando, su forma se va simplificando progresivamente, hasta llegar a una
sinusoide pura.
183
El segundo vı́deo muestra un caso en el que se produce un retraso de los compo-
nentes superiores en el momento del ataque:
Figura 9.3: Vı́deo que muestra la influencia en el timbre del desfase en el ataque de los
componentes de un sonido.
Ahora también se repite dos veces la misma nota, el la3 a 220 Hz constituido por los
cuatro primeros componentes. La amplitud máxima en ambos casos es la misma:
0,24 en el primer armónico, el de 220 Hz; 0,18 en el segundo, el de 440 Hz; 0,12 en
el tercero, el de 660 Hz; y 0,08 en el cuarto, el de 880 Hz.
Como podemos apreciar en las gráficas de las envolventes que aparecen en la parte
inferior del vı́deo, la única diferencia ente los dos sonidos reside en que en la segunda
repetición de la nota los armónicos se retrasan progresivamente en el momento del
ataque, de modo que los armónicos superiores alcanzan su máximo más tarde que
los inferiores. Este retraso provoca un cambio en la cualidad del sonido debido al
diferente peso relativo que adquieren los componentes a lo largo del breve intervalo
de tiempo que dura el ataque.
Si nos fijamos en el área del osciloscopio, podremos observar que durante la emisión
del primer sonido no cambia la forma de la vibración, mientras que el ataque
del segundo se inicia con una vibración puramente sinusoidal que rápidamente se
transforma en una forma más compleja, similar a la del primer sonido.
Aunque reconocemos que se trata de la misma nota, si escuchamos con atención
percibiremos una diferencia apreciable en el timbre de ambos sonidos. Nuestro
sistema perceptivo ha reconocido en el segundo sonido un cambio rápido en la
cualidad sonora que nos recuerda el efecto “wah” de una trompeta al destapar la
sordina o el de un pedal “wah wah” de guitarra eléctrica. Ası́ pues, percibimos el
184
retraso en el ataque de los armónicos superiores como un rasgo tı́mbrico peculiar
que diferencia ambos sonidos, que son por lo demás idénticos.
El tercer vı́deo muestra el caso de un sonido en el que la amplitud de los armónicos
superiores durante la etapa de mantenimiento sigue una evolución opuesta a la del
fundamental. Aunque en los sonidos reales de los instrumentos y de las voces estos
cambios acostumbran a ir unidos a modificaciones en la intensidad sonora, para
aislar el rasgo tı́mbrico que se deriva de la diferente evolución de los componentes
parciales he procurado mantener constante la amplitud global durante la etapa de
mantenimiento.
En este vı́deo escuchamos una sola nota, la misma que en los vı́deos anteriores, un
la3 a 220 Hz constituido por los cuatro primeros armónicos. En la parte inferior
del vı́deo podemos observar que las envolventes de amplitud de los tres armónicos
superiores tienen una forma opuesta a la del componente fundamental. Vemos que
durante la etapa de mantenimiento el componente fundamental decae progresi-
vamente desde su valor máximo, alcanzado tras el ataque, hasta llegar a su valor
mı́nimo, lo que sucede en torno a la mitad de la duración del sonido, para desde allı́
volver a crecer y alcanzar de nuevo su valor máximo antes de iniciar la extinción.
Sin embargo, las envolventes de amplitud de los restantes armónicos realizan el ca-
mino inverso: crecen hasta llegar a un máximo hacia la mitad del sonido y a partir
de allı́ decrecen. En este recorrido vemos que el segundo y el tercer armónico llegan
a superar al primero, e incluso que el tercer armónico supera al segundo.
Estos cambios hacen que el peso relativo de cada componente en el conjunto se
modifique a lo largo de la emisión de la nota, con la correspondiente modificación
185
en su cualidad sonora. En efecto, percibimos que estos cambios durante la etapa
de mantenimiento dan lugar a una modificación gradual y constante de la cualidad
sonora: en la parte inicial y final de esta etapa el peso del sonido recae mayoritaria-
mente en el componente fundamental, lo que proporciona al sonido una cualidad
sólida; progresivamente los armónicos superiores van adquiriendo mayor impor-
tancia en detrimento del fundamental, lo que proporciona al sonido una cualidad
cada vez más hueca e incluso nasal, cuando predomina el tercer armónico, cosa
que sucede hacia la mitad de la duración del sonido.
Los casos que hemos examinado en estos tres vı́deos son solamente una muestra
de laboratorio de los rasgos acústicos que se derivan de las diferencias entre las en-
volventes de amplitud parciales. Estas diferencias provocan que la cualidad sonora
de una nota cambie a lo largo de su duración y estos cambios son habitualmente
percibidos como un rasgo tı́mbrico.
186
los instrumentos de afinación libre constituye un elemento expresivo de
primer orden a disposición del intérprete.
Para experimentar los rasgos acústicos que se derivan de los cambios en la fre-
cuencia de una nota a lo largo de su duración he fabricado dos vı́deos. De manera
semejante a los vı́deos anteriores, en cada uno de ellos en la parte de arriba se
presenta la forma de la vibración, a modo de osciloscopio, y en la parte inferior
las correspondientes envolventes de frecuencia. En ambos vı́deos la nota que escu-
chamos sigue siendo un la3 con una frecuencia de 220 Hz. En el primer vı́deo se
presenta el caso de un sonido simple y en el segundo el de una nota formada por
los tres primeros armónicos.
Con la finalidad de aislar los rasgos tı́mbricos especı́ficos que se originan por la
evolución de la frecuencia, empezaremos examinando una nota musical constituida
por un solo componente. En el vı́deo que presento a continuación podemos escuchar
tres sonidos simples que dan la misma nota, donde la única diferencia que hay entre
ellos reside en la envolvente de frecuencia.
187
por segundo. También podemos observar la profundidad del vibrato, es decir, lo
que se aleja en su oscilación de la frecuencia media de la nota. En este caso, como
es habitual en la realidad, la profundidad del vibrato varı́a a lo largo de la duración
de la nota. La profundidad máxima de este vibrato es aproximadamente de 8 Hz,
lo cual, para una frecuencia media de 220 Hz, corresponde a un intervalo de unos
60 cents.
En el tercer sonido escuchamos una inflexión importante de la nota, similar a la
que podemos oı́r en una guitarra eléctrica cuando se sobretensa momentáneamente
una cuerda, bien con el dedo o con ayuda de una palanca destinada a tal fin, para
lograr mayor expresividad.
Ası́ pues, hemos podido apreciar mediante este vı́deo que las variaciones en la
frecuencia de una nota a lo largo de su emisión producen efectos acústicos que
contribuyen a caracterizar el timbre de un instrumento y que proporcionan al
sonido una particular carga emotiva.
Para ver cómo se comporta la envolvente de frecuencia de cada uno de los compo-
nentes de un sonido armónico compuesto he confeccionado un vı́deo que presenta
el vibrato de una nota formada por los tres primeros armónicos. El objetivo de
este vı́deo es mostrar que la evolución de la frecuencia en los distintos componentes
presenta la misma forma, si bien sus valores están escalados.
188
las envolventes de frecuencia de los tres componentes, solamente se dibujan tres
lı́neas horizontales igualmente espaciadas.
El segundo sonido tiene un vibrato similar al del primer vı́deo. Vemos que, como en
el anterior sonido, la frecuencia del segundo armónico es doble que la del primero
y la del tercero, triple. Dado que en las notas musicales los componentes, salvo
ligeras matizaciones, son armónicos, sus envolventes de frecuencia mantienen la
misma forma y sólo se diferencian en el escalado correspondiente a su número
armónico. Ası́, en este caso, como la profundidad del vibrato del primer armónico
es de 8 Hz, la del segundo armónico es de 16 Hz y la del tercero de 24 Hz.
9.5. Conclusión
A lo largo de este capı́tulo hemos podido comprobar la influencia de la envolven-
te de frecuencia y de la envolvente de amplitud, tanto la general como la de cada
componente, en la cualidad tı́mbrica de las notas musicales. Estas envolventes cons-
tituyen una parte importante de la caracterización de los instrumentos musicales
y sirven también como vehı́culo expresivo de las intenciones del intérprete.
189
Capı́tulo 10
10.1. Introducción
En los capı́tulos anteriores hemos visto mediante el osciloscopio virtual distintos
ejemplos de señales de audio, es decir, de la forma que adquiere la vibración sonora
a lo largo del tiempo. Estas señales nos han ayudado a distinguir los rasgos carac-
terı́sticos de los sonidos musicales y la manera en la que nosotros los percibimos.
Hemos podido comprobar que, en lı́neas generales, nuestra sensación auditiva no
es capaz de seguir el rápido movimiento de la vibración sonora, sino que atiende
principalmente a los parámetros de frecuencia y amplitud de los componentes que
forman el sonido musical.
En efecto, como veremos más adelante, nuestra percepción descompone el movi-
miento vibratorio que llega a nuestro oı́do, de modo que obtiene la frecuencia y
la amplitud de sus componentes sinusoidales. Por eso, para estudiar la realidad
musical de una forma completa necesitamos una herramienta de análisis que nos
permita descomponer los sonidos en sus componentes sinusoidales y extraer sus
parámetros de frecuencia y amplitud (salvo circunstancias excepcionales, podemos
ignorar la fase inicial). Nos interesa pasar de una representación de la vibración en
su desarrollo temporal a una representación de la vibración en función de la ampli-
tud de los componentes que la constituyen o, dicho en términos más técnicos, pasar
de la representación en el dominio del tiempo a la representación en el dominio
de la frecuencia. Esta tarea se realiza mediante las técnicas de análisis espectral,
llamado también análisis frecuencial. En este capı́tulo me propongo explicar qué es
el análisis espectral del sonido, en particular, en el caso del sonido musical.
190
Hoy en dı́a disponemos de algoritmos numéricos muy potentes que nos permiten
realizar el análisis de los sonidos y extraer la frecuencia y la amplitud de cada
componente simple, los cuales pueden ser realizados con facilidad en un ordenador.
La Fast Fourier Transform (FFT) es capaz de descomponer un fragmento de señal
en sus componentes sinusoidales con gran eficacia. Pero me ha parecido que explicar
en qué consiste la Transformada de Fourier se alejaba del propósito de este curso.
En su lugar, creo que es más intuitivo, y no menos correcto, explicar el análisis
frecuencial utilizando el fenómeno de la resonancia. De hecho, hasta el desarrollo
de las técnicas digitales los analizadores de espectro tradicionales consistı́an en
una baterı́a de circuitos resonadores que medı́an la amplitud de cada componente
presente en la señal.
Por otra parte, explicar el procedimiento del análisis frecuencial a partir del fenómeno
de la resonancia tiene la ventaja, a mi juicio, de que es más fácil de asimilar para
un lector sin conocimientos fı́sicos ni matemáticos. Además, puesto que nuestro
sistema auditivo procede de una manera similar, este punto de vista nos va a
permitir entender mejor la forma en la que percibimos las frecuencias de los com-
ponentes que constituyen los sonidos, la cual se produce por la localización de sus
resonancias en los diferentes puntos de la membrana basilar situada en nuestro
oı́do interno.
El análisis espectral se utiliza habitualmente para sonidos o fragmentos musicales
que constan de múltiples componentes, por lo que es necesario conocer hasta qué
punto va a ser capaz de distinguirlos y localizarlos con precisión en el caso de que
esos componentes tengan frecuencias próximas. Veremos a lo largo de este capı́tulo
que la capacidad de resolución del análisis espectral está indisolublemente ligada a
la duración del fragmento analizado, de modo que si queremos un análisis preciso y
exacto deberemos elegir una duración larga. El problema surge porque, en general,
a menos que lo que se pretenda sea obtener una especie de valor promediado útil
en algunas circunstancias, es necesario que los parámetros de los componentes
permanezcan estables durante el tiempo en el que se efectúa el análisis. Pero en el
caso de los sonidos musicales reales, aunque son mucho más estables que los del
habla, generalmente la estabilidad no se mantiene más allá de unos 50 milisegundos,
por lo que, salvo circunstancias excepcionales, la longitud del fragmento no debe
ser mucho mayor que esa cantidad, de forma que podamos considerar, aunque sólo
sea de forma aproximada, que los parámetros han permanecido constantes durante
el intervalo de tiempo analizado.
En este capı́tulo veremos, en primer lugar, en qué consiste el análisis espectral y
cómo se puede realizar mediante el fenómeno de la resonancia. Después estudiare-
mos la cuestión esencial de los lı́mites de su capacidad de resolución. A continuación
veremos cómo mediante el espectrograma es posible obtener una representación de
191
la evolución de los distintos componentes simples a lo largo del tiempo. Por último,
para ejemplarizar las ideas expuestas y para preparar la utilización de esta nueva
herramienta en el estudio de los sonidos reales, presentaré los espectrogramas de
varios sonidos caracterı́sticos.
192
en el apartado siguiente, la duración del fragmento sonoro puede condicionar en
determinadas circunstancias la fiabilidad del análisis. La duración temporal que se
elige recibe habitualmente el nombre de “ventana de observación” o “ventana de
análisis”.
Ahora nos interesa comprobar cómo responde este analizador de espectro ideal
al sonido propuesto y averiguar si localiza bien la frecuencia. La gráfica de abajo
representa las amplitudes de las cuerdas que quedarán resonando en el piano ideal.
He limitado la gráfica a la representación de los primeros 1.000 Hz.
193
Figura 10.2: Detalle de la gráfica del análisis frecuencial de un sonido simple de 1
segundo.
Ahora distinguimos con claridad la representación de cada una de las cuerdas del
piano que han quedado resonando. Apreciamos que la cuerda que resuena con más
fuerza es la de 220 Hz. Pero, como podemos observar en la gráfica, al estar las
cuerdas de este piano separadas de hercio en hercio, en realidad solo podemos
saber que la frecuencia del componente del sonido analizado habrá sido mayor que
219,5 Hz y menor que 220,5. En efecto, el margen de precisión de nuestro piano
analizador de espectro es de un hercio, aunque nada nos habrı́a impedido añadir
en medio muchas más cuerdas a este piano imaginario y obtener la precisión que
deseáramos.
Ası́ pues, de este análisis se desprende que el componente presente en el so-
nido que estamos analizando se corresponde con el pico destacado en la
gráfica de las amplitudes de las cuerdas resonantes. Pero eso no es todo.
También observamos que, en menor medida, algunas de las cuerdas laterales han
obtenido cierta amplitud. Esto parece intuitivamente coherente, pues el efecto de
la resonancia también hace vibrar las cuerdas cuya frecuencia es muy próxima a
la del componente del sonido que estamos analizando.
Cada una de las cuerdas de este hipotético piano resonará cuando en el sonido
que queramos analizar esté presente un componente sinusoidal muy próximo a su
frecuencia natural de vibración. En este caso la cuerda que resonará con más fuerza
será aquella que tenga una frecuencia natural lo más cercana a 220 Hz; pero las
cuerdas próximas, como es fácil de intuir, también resonarán, aunque sea en menor
medida. Estas cuerdas vibrarán también a la frecuencia de ese componente, en este
caso, a 220 Hz, con independencia de la frecuencia exacta a la que cada una de
194
ellas esté afinada. La amplitud con la que vibren las cuerdas irá incrementándose
conforme su frecuencia natural sea más cercana a la del componente. Por eso en
las gráficas nos encontramos con que no aparece sólo un palito en la frecuencia
de los 220 Hz, sino que a ambos lados hay otras cuerdas/frecuencias que van
decrementando su amplitud a medida que su frecuencia natural de vibración se
aleja de la que está sonando. No obstante, en principio, esto no parece alterar la
fiabilidad del resultado.
195
Ahora observaremos un detalle de la zona entre 160 Hz y 280 Hz.
196
Figura 10.5: Gráfica del análisis frecuencial de dos sonidos simples muy próximos de
50 milisegundos.
Comprobamos que el análisis efectuado con este tamaño de ventana ha sido incapaz
de distinguir los dos componentes, el de 220 Hz y el de 233 Hz, que sabemos que
existen en la señal a analizar, y que, en su lugar, ha salido un solo componente
cuya frecuencia es la media aritmética de los otros dos, 226,5 Hz. Ciertamente, si
hubiéramos podido analizar un segundo entero de duración no habrı́amos tenido
ningún problema para distinguir nı́tidamente los dos componentes. En la siguiente
gráfica podemos ver el resultado de realizar el mismo análisis durante un segundo
de duración.
Figura 10.6: Gráfica del análisis frecuencial de dos sonidos simples muy próximos de 1
segundo.
197
En efecto, aquı́ los dos componentes han sido resueltos y además con toda la
precisión que habı́a requerido al análisis.
Veamos ahora otro ejemplo de dos componentes un poco más separados. Vamos a
analizar una señal constituida por un componente de 220 Hz (la3 ) y otro de 262
(do4 ). La duración del análisis va a ser también de 50 ms.
Figura 10.7: Gráfica del análisis frecuencial de dos sonidos simples de 50 milisegundos.
En este caso el análisis sı́ que ha sido capaz de distinguir los dos componentes.
Ahora bien, si nos fijamos en la localización de los picos máximos vemos que el
componente de 220 Hz ha sido desplazado a 232 Hz y el de 262 Hz a 250 Hz. Es
decir, observamos que la presencia de un componente próximo altera de manera
notable la fiabilidad del resultado obtenido.
Resumiendo, nos encontramos con que al reducir el tamaño de la ventana de
análisis disminuye su capacidad para discernir componentes distintos
y la precisión con la que puede determinar su frecuencia. Este proble-
ma plantea una cuestión esencial: si queremos obtener una buena resolución en
frecuencia necesitamos una duración temporal larga. Pero la realidad es que el so-
nido musical va evolucionando con el tiempo y los parámetros de sus componentes
solamente permanecen relativamente estables durante un tiempo pequeño, unas
cincuenta milésimas de segundo.
Ası́ pues, a la hora de efectuar un análisis frecuencial de un fragmento musical siem-
pre hemos de buscar una opción de compromiso. Podremos utilizar una ventana de
198
mayor duración, pero en ese caso tendremos que asumir que lo que obtendremos en
el análisis será una especie de promediado de la evolución de los acontecimientos
sonoros que se hayan producido en ese tiempo. Podremos elegir una ventana de
corta duración para garantizar que el fragmento analizado sea suficientemente es-
table, pero en ese caso deberemos asumir que si coinciden componentes próximos
puede que el análisis no sea capaz de distinguirlos o al menos que pierda precisión
en su localización.
10.4. El espectrograma
Como he dicho ya, los parámetros de los componentes sonoros en los sonidos reales
no suelen permanecer estables, sino que evolucionan a lo largo de su duración. Por
ello, para analizar un fragmento sonoro nos interesará muchas veces obtener una
representación que muestre la evolución de los valores de amplitud y de
frecuencia de cada componente durante el tiempo que dura el sonido.
Habitualmente esta representación recibe el nombre de espectrogra-
ma.
Un espectrograma no es otra cosa que una forma de representar gráficamente
los sucesivos y solapados análisis frecuenciales que se pueden hacer a lo largo de
un sonido o de un fragmento de una interpretación. Esta forma de representación
guarda mayor afinidad con la manera en la que nosotros oı́mos que la representación
de la señal de audio que hemos visto en el osciloscopio.
En los vı́deos en los que se simulaba un osciloscopio y en las gráficas en las que se
mostraba el desplazamiento de la vibración en relación al tiempo hemos tenido una
representación puramente temporal del hecho fı́sico de la vibración. Acabamos de
ver también en qué consiste una representación puramente frecuencial, donde no
importa cuándo se han producido los componentes sonoros, sino sólo su frecuencia
y su amplitud relativa. Ahora bien, ninguna de estas dos formas coincide con la
manera en la que oı́mos. Oı́mos frecuencias, pero oı́mos frecuencias que cambian
en el tiempo, bien porque unas dejan de sonar y surgen otras, bien porque las que
estaban sonando evolucionan en amplitud, o bien porque desparecen y surgen otras
frecuencias. No obstante, en lo que concierne al sonido musical, hay cierto margen
de tiempo en el que las cosas, salvo momentos especiales de transición, parecen
cambiar poco, es decir, hay momentos en el que se puede considerar que la vibración
es casi estable, pues los componentes y sus parámetros no han sufrido grandes
cambios. Como he dicho al principio de este capı́tulo, el tamaño que se suele
considerar adecuado para este intervalo temporal viene a ser de unas 50 milésimas
de segundo. Si cada 50 ms se va haciendo un análisis que va progresivamente
199
desplazándose en el tiempo y solapándose, la evolución de los parámetros será más
fiable y responderá más a la realidad que si se hace un análisis en intervalos más
grandes o más pequeños.
Mediante el vı́deo que pongo a continuación voy a explicar más detenidamente
cómo podemos obtener un espectrograma. Voy a utilizar para este ejemplo los
primeros compases del adagio de la Sonata para violı́n solo de J. S. Bach (BWV
1001). Para facilitar la presentación, he limitado la banda de los componentes a
los primeros 2.000 Hz. Veamos primero el vı́deo.
200
Figura 10.9: Instantánea del vı́deo de la figura 10.8.
201
segundo y el tercero tienen también una amplitud considerable y su color es un ro-
jo brillante, siendo ligeramente mayor el tercero que el segundo. Los componentes
cuarto, quinto y sexto van progresivamente perdiendo amplitud y sus colores van
siendo cada vez más oscuros. A lo largo del vı́deo podemos ver como esta gráfica
va evolucionando siguiendo los cambios en el sonido. Dicho de otra manera, con-
forme el sonido va pasando por el panel izquierdo, la representación frecuencial de
la derecha se va actualizando.
En el panel de abajo vemos cómo se va construyendo el espectrograma del frag-
mento. Si nuestro reproductor de vı́deo nos permite avanzar de cuadro en cuadro
veremos que en cada cuadro tenemos un desplazamiento de la señal hacia la iz-
quierda en la ventana temporal del panel de la izquierda, una actualización de
su representación frecuencial en el panel de la derecha y, por último, una nueva
columna de pı́xeles en el panel inferior. Esa nueva columna de pı́xeles presenta los
valores frecuenciales correspondientes al análisis frecuencial del cuadro que esta-
mos analizando, utilizando simplemente los mismos colores que hemos obtenido
en la representación frecuencial, de tal forma que aquı́ prescindimos de la longitud
del componente y la representamos únicamente por el color. Ası́ por ejemplo, si
en el visor de imágenes con el que estamos examinando esta gráfica hacemos un
zoom considerable, hasta el extremo de poder ver pı́xeles aislados, y nos fijamos
únicamente en la última columna de pı́xeles del espectrograma que estamos cons-
truyendo y que hemos detenido, veremos que los picos que hemos visto en el panel
de las frecuencias se corresponden, con sus mismos colores, con los pı́xeles que
vemos destacados en esta último columna de la imagen. Tal vez el componente
más agudo nos aparezca un poco desvaı́do, pero aun con todo nos resultará fácil
ver cómo esta columna de pı́xeles se corresponde y representa la amplitud de cada
componente frecuencial analizado en el panel de la derecha.
Esta forma de representación nos permite dejar un rastro de lo que hemos visto
que ha ido sucediendo a lo largo del tiempo en el panel de las frecuencias. De este
modo tenemos una representación frecuencial actualizada con el paso del tiempo.
Y esto es ya similar a la manera en la que nosotros oı́mos y a la que en la realidad se
producen la mayor parte de los acontecimientos sonoros. Ası́ pues, el espectrograma
es la forma de representación más idónea del sonido de un fragmento musical.
202
que nos proporciona el espectrograma con la que obtenı́amos en el osciloscopio.
He confeccionado mediante Matlab varios vı́deos para facilitar el seguimiento del
sonido en el espectrograma. La imagen del vı́deo muestra el espectrograma del
fragmento completo, mientras la lı́nea verde vertical se va desplazando marcando
el instante que está sonando. Todos los espectrogramas presentan sólo los primeros
4.000 Hz.
203
primer armónico o fundamental presenta la mayor amplitud, pues su color es casi
blanco, que el color con el que está representado el segundo armónico es amarillo
dorado y que los siguientes son rojos cada vez más oscuros.
Podemos ver también en el espectrograma con total claridad la estructura armóni-
ca que forman el conjunto de los componentes de la nota, pues todos ellos están
separados entre sı́ por la misma distancia, una distancia que coincide con la fre-
cuencia del primer componente.
Figura 10.11: Vı́deo con el espectrograma de tres sonidos armónicos formados por
componentes cuya amplitud evoluciona de diferentes formas.
204
A diferencia de la representación de la señal en el tiempo que veı́amos en el oscilos-
copio, donde no podı́amos distinguir los componentes individuales, este espectro-
grama nos muestra de forma clara la evolución de la amplitud de cada componente
que forma el sonido. En primer lugar podemos observar que en todos los casos es-
tamos ante un sonido armónico, pues las distancias entre los componentes son
iguales. Por otro lado, los cambios en el color de cada componente a lo largo de su
duración nos indican que ha variado su amplitud. En el espectrograma se puede
distinguir también el carácter más o menos abrupto del ataque y de la extinción
de las notas.
Si pasamos a analizar caso por caso, nos encontramos con que en el primer sonido
la amplitud de los componentes superiores es progresivamente menor, pues vemos
que el componente primero es el que presenta mayor luminosidad, mientras que el
último es el más oscuro. Se aprecia también claramente en el momento del ataque
un retraso de los sucesivos componentes, siendo el fundamental el primero que en-
tra. Por el contrario, vemos que en la extinción del sonido todos los componentes
se apagan simultáneamente (si bien los componentes de mayor amplitud parecen
prolongarse un poco más, esto se debe solamente a que los colores más oscuros se
funden antes con el negro). Vemos también que las lı́neas que representan los com-
ponentes cambian de color durante la parte inicial del sonido, aproximadamente
en la primera décima de segundo, desde un rojo muy oscuro que se funde casi con
el negro del fondo, hasta llegar al color que mantendrán durante la mayor parte de
la emisión. Esto es indicativo de que el ataque de la nota ha sido más bien suave,
tal como apreciamos al oı́rla. Ası́ mismo, en la etapa final de la nota vemos que
los componentes van perdiendo luminosidad, lo que hace que parezca que se vayan
adelgazando. Esto corresponde a la extinción suave que oı́mos.
En el segundo sonido los ataques de los componentes son simultáneos y menos
suaves que en el primero, como podemos observar en el hecho de que se alcanza
más rápidamente el color que mantendrá cada componente durante la emisión. Ası́
mismo, vemos que la forma en la que se extinguen es similar a la del sonido primero.
Los cambios de color que observamos durante su etapa intermedia nos indican que
la amplitud de los componentes superiores, en especial el segundo y el tercero, se va
haciendo progresivamente mayor, hasta superar, aproximadamente a la mitad de la
duración del sonido, a la del fundamental; luego vemos que se invierte la tendencia
y se recupera la situación inicial. Esto coincide con el cambio de cualidad sonora
que apreciamos: el sonido comienza con un carácter más bien suave, va ganando
cuerpo y un poco de aspereza, y finalmente retorna a la suavidad.
En el tercer caso, como en el primero, la representación de los componentes es
progresivamente más oscura, lo que nos indica que su amplitud es menor confor-
me mayor es su frecuencia. Cada uno de los componentes tiene mayor intensidad
205
lumı́nica al inicio de la emisión de la nota y luego se oscurece hasta casi desapare-
cer. Podemos ver en el espectrograma que los cuatro componentes han surgido a la
vez. Por el contrario, la extinción se ha realizado de forma claramente desfasada,
de tal modo que al final sólo queda sonando el componente fundamental, como
podemos ver por la desaparición de las lı́neas que representan cada componente en
el espectrograma. Si nos fijamos un poco más, vemos que el ataque abrupto que
oı́mos se traduce en una lı́nea vertical en el espectrograma, que se extiende por
arriba y por abajo de la posición del respectivo componente y que luego, en forma
de una especie de embudo, va a desembocar en la lı́nea que le corresponde por su
frecuencia. Esto se debe a que el ataque abrupto es similar al ruido, es decir, contie-
ne una banda muy amplia de frecuencias. Podemos ver que la inestabilidad inicial
es ruidosa y pasa cierto tiempo hasta que el sonido alcanza la estabilidad. Cuando
veamos sonidos reales, los ataques abruptos vendrán caracterizados por esa forma
de embudo que desemboca en la zona más luminosa del componente.
Figura 10.12: Vı́deo con el espectrograma de varios sonidos cuya frecuencia evoluciona
de diferentes formas.
206
Al igual que en los ejemplos anteriores y a diferencia de la representación de la
señal en el tiempo, el espectrograma nos permite apreciar la evolución de cada
componente por separado.
En el primer caso observamos un componente aislado que mantiene constante su
frecuencia, como podemos ver por su horizontalidad. En el segundo, vemos unas os-
cilaciones que reflejan perfectamente el vibrato que oı́mos. En él podemos apreciar
que la profundidad del vibrato aumenta y luego disminuye, pues las ondulaciones
se hacen más pronunciadas y luego menos, aunque vemos también que el ritmo de
las oscilaciones —es decir, la frecuencia del vibrato— permanece constante. En el
tercer sonido apreciamos un incremento significativo de la frecuencia tras el ata-
que, que luego baja de nuevo hasta alcanzar el nivel correspondiente en el que ya se
mantiene horizontal. En el cuarto caso tenemos un sonido formado por tres compo-
nentes armónicos que mantienen su frecuencia constante, como podemos apreciar
en su horizontalidad. Y en el quinto, vemos los mismo tres componentes anteriores,
pero ahora con un vibrato similar al del segundo sonido. En él podemos apreciar
que las ondulaciones del segundo componente son el doble de profundas que las
del primero y que las del tercero son el triple que las del primero, como era lógico
de esperar, pues los sonidos siguen siendo armónicos durante el vibrato.
207
Figura 10.13: Vı́deo con un espectrograma de ruido blanco y de un sonido simple.
208
Figura 10.14: Vı́deo con un espectrograma de ruido de tráfico y de una locutora de
radio.
En la primera parte vemos con claridad el ruido blanco producido por la lluvia,
que cubre todo el espectro de frecuencias de una manera homogénea. En la par-
te de abajo del espectro vemos una forma granulada, correspondiente también a
ruido, pero que se sitúa en una zona de más bajas frecuencias. Es el ruido propio
del tráfico. Vemos también como el motor de un coche, al acelerar, se refleja en
la aparición de unos componentes que suben rápidamente su frecuencia. Y oı́mos
en medio de ese ruido un sonido armónico, la bocina de un coche, como se puede
apreciar con claridad por la distribución vertical de componentes igualmente es-
paciados que se observan en torno al segundo nueve y con menos claridad un poco
antes del segundo 4.
En la segunda parte del espectrograma, cuando oı́mos hablar a la locutora, vemos
una alternancia entre breves fragmentos de sonidos armónicos y un granulado
organizado en barras verticales. Es la alternancia entre ruido y sonido armónico
caracterı́stica del habla, simplificando un poco, la alternancia entre consonantes
y vocales. Vemos también que las vocales cambian de frecuencia siguiendo unos
esquemas ascendentes y descendentes dentro de unos pequeños márgenes. Estos
esquemas son los que constituyen la entonación del habla.
10.6. Conclusión
En este capı́tulo hemos estudiado cómo se puede descomponer una vibración cual-
quiera en la suma de los componentes sinusoidales que la constituyen, cada uno con
su propia frecuencia y amplitud. Al hacer esto hemos obtenido una representación
209
frecuencial del sonido analizado. Ası́ mismo, dado que habitualmente los paráme-
tros de los componentes armónicos que constituyen el sonido musical cambian a
lo largo del tiempo, hemos visto que el espectrograma es una forma adecuada
de representar esta evolución, pues muestra para cada instante la frecuencia y la
amplitud de los componentes que forman el sonido.
210
Capı́tulo 11
El timbre
11.1. Introducción
El sonido de los instrumentos musicales, entre los que hay que incluir el de la voz
humana en el canto, es una realidad acústica mucho más compleja que el sonido
generado artificialmente que hemos utilizado en la mayor parte de los ejemplos
de los capı́tulos anteriores. El sonido habitual que oı́mos en las notas que forman
una pieza musical interpretada por instrumentos acústicos posee unas cualidades
que le proporcionan, por ası́ decir, un grosor y una textura que lo hacen rico y
variado, tiene “algo” que percibimos como vivo y de lo que suelen carecer los so-
nidos artificiales. Estas cualidades son las que dotan a cada sonido musical de una
individualidad, una individualidad que va a conservar incluso cuando se mezcle
con otros sonidos, como ocurre, por ejemplo, en los acordes dados en el mismo
instrumento o cuando la misma nota es emitida simultáneamente por dos instru-
mentos distintos. Este conjunto de cualidades sonoras constituyen lo que llamamos
el timbre del sonido.
La palabra “timbre” se suele usar en sentido estricto para designar los rasgos es-
pecı́ficos que caracterizan los sonidos propios de uno u otro instrumento. Ası́, se
habla del timbre del violı́n, del clarinete, del piano, etc. Sin embargo, el término
“timbre” también puede ser utilizado para nombrar el conjunto de marcas dife-
renciadoras que individualizan el sonido de cada nota musical concreta, al margen
de su altura tonal o de su volumen sonoro. Estas marcas tı́mbricas no sólo dife-
rencian un sonido de otro dentro del mismo instrumento, sino que hacen que una
misma nota dada en el mismo instrumento posea una cualidad sonora particular
dependiendo del “toque” del intérprete, el cual puede hacer incluso que suene de
diferente modo en los distintos momentos de su interpretación.
211
La palabra “timbre” significa precisamente esto: sello. Podemos considerar, ası́
pues, que el timbre es el sello propio que posee cada sonido, bien sea por
su pertenencia a un tipo de instrumentos o a un instrumento concreto, o
bien incluso por la acción intencionada del instrumentista. En este último
sentido decimos que el instrumentista “timbra” de una u otra manera cada uno de
los sonidos que ejecuta, dotándolos de unas marcas especı́ficas que forman parte
del sello de su interpretación.
En lı́neas generales, podemos decir que los sonidos producidos por la práctica to-
talidad de los instrumentos musicales son el resultado de la interacción de dos
sistemas: uno, la fuente de excitación sonora, aquellos mecanismos mediante los
cuales se provoca y se mantiene la vibración, como son, por ejemplo, las cuerdas en
el piano; otro, las estructuras que actúan de resonadores y que modifican la compo-
sición del sonido emitido por la fuente, como es, por ejemplo, la caja de resonancia.
Las posibilidades de acción sobre cada uno de estos sistemas que ofrece cada ins-
trumento al intérprete completan su caracterización tı́mbrica, como ocurre, por
ejemplo, con el vibrato en los instrumentos de afinación libre. Estas posibilidades
son los recursos expresivos con los que cuenta el intérprete para transmitir su idea
musical.
Pero no todos los instrumentos permiten al intérprete las mismas posibilidades.
En unos casos puede modificar los parámetros acústicos a lo largo de la emisión
de un sonido, como ocurre en la voz humana, el más versátil de los instrumentos,
donde el cantante puede controlar la amplitud y la frecuencia de la fuente sonora
(sus cuerdas vocales), pero también, y especialmente, puede modificar la forma de
los resonadores (su órgano bucal). Esto último le permite incrementar o disminuir
la amplitud de unos u otros componentes frecuenciales, modificando a su voluntad
y de forma constante la cualidad tı́mbrica del sonido que está emitiendo. El caso
opuesto es el del clavecinista, por ejemplo, quien dispone casi exclusivamente de la
posibilidad de disparar el mecanismo de producción del sonido mediante su acción
sobre la tecla, pero, a partir de ahı́, todo lo que sucede en el sonido viene ya
determinado por la propia constitución del instrumento, careciendo el intérprete
de cualquier medio de modificación.
Aunque el estudio del timbre no se presta con facilidad a un análisis sistemático,
un conocimiento de las causas que dan lugar a las diferentes marcas y matices
tı́mbricos que conforman el sonido de los instrumentos es esencial para entender
verdaderamente en qué consiste el sonido musical, el “material” con el que se
construye la música. Por otra parte, analizar sonidos reales nos va a ayudar a
entender cómo nuestro sistema perceptivo es capaz de organizar el conjunto sonoro
que llega a nuestros oı́dos y extraer de él las diferentes voces. Y esto es algo que
está detrás de todo nuestro sistema musical.
212
Para realizar un análisis sistemático del timbre del sonido musical tendrı́amos que
estudiar su “color”, es decir, el número de armónicos y su jerarquı́a; las envolven-
tes de amplitud y de frecuencia de cada componente; los formantes, es decir, las
resonancias propias de cada instrumento; los transitorios, es decir, los breves mi-
lisegundos que transcurren hasta que el sonido se estabiliza; la presencia de ruido
y sus caracterı́sticas; la posible existencia de algún componente no armónico; etc.
Pero el estudio sistemático de todos estos factores excederı́a el propósito de este
capı́tulo, por lo que me voy a limitar a ofrecer unos cuantos ejemplos ilustrati-
vos que muestran cómo el sonido conserva la “marca” del instrumento que lo ha
producido y la “gestualidad sonora” que ha realizado el intérprete. A través de
estos ejemplos observaremos también que nuestra percepción es capaz de detec-
tar esas marcas tı́mbricas y con ello de seguir y reconocer, hasta cierto punto, la
individualidad de cada sonido en medio de otros.
Ası́ pues, en este capı́tulo vamos a adentrarnos en el complejo mundo de la “vida
real” de los sonidos musicales. Comprobaremos que en la mayorı́a de los sonidos
musicales es habitual que cierto componente de ruido acompañe a la parte armónica
del sonido. Veremos, por ejemplo, que cuando un instrumento emite una nota,
lo más común es que los parámetros de cada uno de los componentes simples
que la constituyen evolucionen de diferente modo a lo largo del tiempo de su
emisión y que eso interviene en el timbre del sonido que escuchamos. Además,
podremos experimentar que los componentes sinusoidales de los sonidos de algunos
instrumentos, como es el caso del piano, no son estrictamente armónicos, es decir,
las frecuencias de sus componentes no son múltiplos exactos del fundamental.
En primer lugar me ocuparé del conjunto de rasgos que pertenecen a lo que ha-
bitualmente se denomina el contenido espectral de un sonido y que determinan
sus cualidades sonoras, su color. Puesto que el espectrograma nos ofrece una ima-
gen bastante completa de la “vida” del sonido musical, utilizaré varios vı́deos con
espectrogramas que nos permitirán observar los rasgos tı́mbricos que están vincu-
lados a la estructura y a la evolución individual de los componentes frecuenciales,
ası́ como la posible presencia de ruidos caracterı́sticos que acompañan a la emisión.
En segundo lugar mostraré la importancia que para la caracterización del timbre
tiene la evolución temporal de los parámetros del sonido en su conjunto, es decir,
la envolvente de amplitud y la envolvente de frecuencia.
213
les. Se trata de sonidos de piano, de violı́n y de clarinete. He procurado elegir
ejemplos en los que sea fácilmente apreciable la relación entre lo que vemos en el
espectrograma y lo que oı́mos.
El primer ejemplo consiste en dos frases breves formadas por notas salteadas del
registro medio-grave del piano. La segunda frase se repite al final con un toque
más suave. Las notas son: sib2 , mib3 , solb3 ,dob3 ; mib3 , lab3 , dob4 , re3 ; mib3 , lab3 ,
dob4 , re3 .
El segundo ejemplo pertenece al registro medio-agudo del piano y consiste en una
frase formada principalmente por notas consecutivas: la4 , si4 , do5 , re5 , mi5 , do5 ,
si4 , la4 , fa5 .
Esta frase se repite dos veces, la primera con un toque intermedio y la segunda
con un toque más duro. Tanto en este ejemplo como en el anterior las notas de
cada frase están ligadas y no he utilizado ningún pedal.
El tercer ejemplo consta de una frase de violı́n y otra de clarinete. La frase de
violı́n está formada por tres notas: la primera es sol3 , la nota más grave del violı́n
que se obtiene con la cuarta cuerda al aire; la segunda y la tercera son fa#5 y sol5 ,
esta última ejecutada con vibrato. La frase de clarinete está formada por dos pares
de notas ligadas, de las cuales las segundas son el resultado de abrir el portavoz
sin modificar la posición. La primera pareja la forman el re3 , la nota más grave del
clarinete en sib con todos los orificios tapados, y el la4 , la misma posición con el
portavoz abierto. La segunda pareja está compuesta por el mib3 y el sib4 .
Para cada uno de los tres ejemplos presentaré dos vı́deos con sus correspondien-
tes espectrogramas, a fin de mostrar, mediante la modificación de la escala de
color, diferentes aspectos de su contenido espectral. En todos los espectrogramas
la duración de la ventana de análisis ha sido de 50 milésimas de segundo, lo que,
como vimos, da como resultado un compromiso aceptable entre la resolución en
tiempo y en frecuencia. De esta forma podremos distinguir con suficiente clari-
dad los componentes que constituyen cada sonido y a la vez seguir su evolución
temporal.
En el primero de los dos espectrogramas de cada ejemplo la escala de colores refleja
linealmente las amplitudes de cada componente, desde el negro, que corresponde
al 0, hasta el blanco, que corresponde al 1, con todas las gradaciones intermedias,
como indiqué en el capı́tulo dedicado al análisis espectral. Dado que, en general, la
amplitud relativa de los componentes muy agudos es muy pequeña, con esta escala
de colores no se observa prácticamente ningún componente más allá de los 5.000
Hz, por lo que he limitado el rango de estos espectrogramas a esta frecuencia.
214
El segundo espectrograma de cada ejemplo nos va a permitir observar con claridad
los componentes que están en la banda alta de frecuencias. Aunque la amplitud
de estos componentes muy agudos es, en general, muy pequeña, nuestro oı́do es
muy sensible a su presencia y, si bien su importancia para el reconocimiento de la
altura tonal es escasa, influyen mucho en el color del sonido. Si los componentes
que se encuentran en esas zonas superiores del espectro no fueran importantes para
nuestra percepción acústica, no tendrı́a sentido que los reproductores de música
de calidad se distinguieran, entre otras cosas, por su capacidad para reproducir
con fidelidad los componentes más agudos. Para hacer visibles estos componentes
muy agudos he modificado la escala de colores, de tal forma que el color blanco
representa ahora cualquier amplitud superior a una centésima, dentro de la escala
normalizada del 0 al 1. Al hacerlo ası́, surgen del fondo oscuro del espectrograma
nuevos componentes que antes estaban fundidos con el color negro. Ahora bien,
desaparecen las diferencias entre las amplitudes que se pueden apreciar con la
escala de color sin alterar de los primeros espectrogramas, ya que cualquier valor
superior a una centésima queda representado ahora por el color blanco. Esto explica
el engrosamiento que se observa en los componentes más graves. Esta escala de
color nos permitirá también apreciar mejor la presencia de ruido y su influencia
en la caracterización de los sonidos musicales. No obstante, he limitado el rango
de estos segundos espectrogramas a los 10.000 Hz, pues, aunque desde el punto de
vista de la calidad de la reproducción sonora son muy importantes los componentes
que están por encima de esta frecuencia, para nuestro estudio sobre las marcas
tı́mbricas este lı́mite es suficiente.
Veamos, pues, uno detrás de otro los vı́deos con los tres ejemplos sonoros y sus
correspondientes espectrogramas. Recomiendo ver y escuchar con detenimiento
cada uno de los vı́deos para adquirir familiaridad a la hora de relacionar lo que se
ve con lo que se oye.
215
Figura 11.1: Vı́deo con el espectrograma de una melodı́a de piano en el registro medio-
grave.
216
Figura 11.3: Vı́deo con el espectrograma de una melodı́a de piano en el registro medio-
agudo.
217
Figura 11.5: Vı́deo con el espectrograma de unas notas de violı́n y clarinete.
Figura 11.6: Vı́deo con el espectrograma de banda alta de las notas de violı́n y clarinete
de la figura 11.5.
Lo primero que podemos observar es que todos estos espectrogramas son de so-
nidos naturales, es decir, de sonidos producidos por instrumentos acústicos, pues
podemos apreciar imperfecciones, ruidos y variaciones que lo hacen rico y “vivo”.
Ası́, en el espectrograma de banda alta del primer ejemplo, el de la figura 11.2,
observamos que aproximadamente en el segundo 12,5 aparece una pequeña franja
218
vertical. Si el volumen del altavoz de nuestro reproductor es lo suficientemente
alto, reconoceremos en ese momento el ruido que se ha producido al levantar la
tecla que ha dado el re3 . Un poco más adelante (en la penúltima nota, en torno al
segundo 16,7, casi al final de la duración del dob4 ) oı́mos un pequeño ruido sordo
que enmascara momentáneamente el sonido de la nota y que se corresponde con
una pequeña franja vertical en el espectrograma. Y al finalizar el pasaje, en la
última nota (un poco antes del segundo 18) oı́mos y vemos en el espectrograma
un pequeño chasquido ambiental. Por otra parte, el granulado que está por debajo
de los componentes más graves en todo el espectrograma coincide con el ruido
ambiente de la grabación doméstica.
Ciertamente, en medio del sonido emitido por los instrumentos musicales hay mu-
chas formas de ruido, todas ellas caracterizadas por una acumulación de compo-
nentes en una determinada zona del espectro. En el caso del piano, por ejemplo,
como veremos enseguida, determinados tipos de ruido forman parte de su propia
caracterización tı́mbrica.
Con la ayuda de estos ejemplos vamos a examinar a continuación los rasgos tı́mbri-
cos a mi juicio más relevantes que se aprecian en el contenido espectral del sonido
de los instrumentos musicales. Estos rasgos son, en parte, resultado de la constitu-
ción de cada instrumento y, en parte, resultado de las acciones del intérprete.
En primer lugar nos ocuparemos de las peculiaridades espectrales que comparten
los sonidos del mismo instrumento, es decir, aquellas caracterı́sticas que poseen
los sonidos del piano por ser de piano, los del violı́n por ser de violı́n o los del
clarinete por ser de clarinete. Para no alargar en exceso este capı́tulo, me centraré
en las marcas especı́ficas del sonido del piano. En segundo lugar estudiaremos
las diferencias en contenido espectral que presentan cada sonido individual del
mismo instrumento. Veremos cómo la cualidad sonora de una nota del piano es
diferente de la de otras notas del mismo piano, igual que cada nota del violı́n es
diferente de otras del mismo violı́n, y lo mismo en el caso del clarinete. Y en tercer
lugar analizaremos las diferencias en el contenido espectral que son resultado de
las acciones intencionadas que realiza el intérprete al emitir cada nota según sus
propósitos expresivos en cada momento de la interpretación.
Puesto que, como acabo de decir, un estudio detenido válido para cualquier ins-
trumento excederı́a el objetivo de este curso, me ha parecido oportuno elegir como
ejemplo el caso del piano para estudiar sus peculiaridades tı́mbricas. Empezaremos
analizando cómo quedan reflejadas en los espectrogramas que acabamos de ver las
219
marcas tı́mbricas propias de este instrumento, es decir, los rasgos sonoros que nos
permiten reconocer que un determinado sonido ha sido emitido por un piano, y no
por un violı́n, por un clarinete o por cualquier otro instrumento.
Si comparamos los espectrogramas de los tres instrumentos podemos distinguir las
siguientes caracterı́sticas propias de los sonidos del piano:
220
intérprete y que queda reflejado en ese punto inicial de fuerte luminosidad que
poseen muchos componentes. A diferencia de los sonidos del piano, los com-
ponentes de las notas del violı́n y del clarinete, como podemos observar en el
espectrograma de la figura 11.5, pueden disminuir, mantener o incrementar su
brillo a lo largo de su emisión, pues en estos instrumentos la energı́a sonora
se modifica a voluntad del intérprete, quien ha de aportar energı́a constante-
mente para que el sonido siga produciéndose.
d) En ocasiones los componentes del piano se desvanecen y vuelven a
aparecer, como podemos apreciar en los armónicos segundo, tercero y cuarto
de la nota dob4 del espectrograma de la figura 11.1, en torno al segundo
9,5, o con más claridad en muchos componentes de las notas de las figuras
11.2, 11.3 y 11.4. Nada parecido observamos en los espectrogramas del violı́n
o del clarinete. Podemos comprobar que el espectrograma refleja lo que el
oı́do percibe como pequeñas pulsaciones. Estas pulsaciones son el resultado
de las interferencias que se producen por las pequeñı́simas desigualdades de
frecuencia que habitualmente hay entre las dos o tres cuerdas unı́sonas que
suenan al pulsar cada tecla del piano.
e) Los componentes frecuenciales del sonido del piano no son es-
trictamente armónicos. Si bien un sonido musical se caracteriza por ser
armónico, ocurre que en la propia naturaleza de los sonidos de algunos ins-
trumentos como el piano hay una pequeña inarmonicidad, la cual le otorga
precisamente una cualidad sonora caracterı́stica. La inarmonicidad es una
marca tı́mbrica del sonido del piano. Aunque no es fácil apreciarla a
simple vista en los espectrogramas, el oı́do sı́ la reconoce enseguida. La inar-
monicidad se produce porque las frecuencias de los sucesivos componentes del
piano se apartan cada vez más de la que les deberı́a corresponder si siguie-
ran estrictamente la serie armónica. Los armónicos de una nota del piano no
son exactamente múltiplos de la frecuencia fundamental, sino que progresiva-
mente se van abriendo: la frecuencia del segundo armónico, en lugar de ser el
doble de la fundamental, puede ser, por ejemplo, de 2,002 veces esa frecuen-
cia; la del tercero, en lugar de ser exactamente tres veces la del fundamental,
puede ser de 3,005 veces; y ası́ sucesivamente, de modo que la frecuencia del
noveno armónico ya será una 9,14 veces la del fundamental, pues la apertura
va aumentando conforme mayor es el número del armónico.
221
de análisis muy larga, lo que nos va a permitir obtener una resolución en frecuencia
muy elevada, pues, lo que nos interesa ahora es atender a las frecuencias de los
componentes, aunque perdamos resolución temporal. He modificado el mapa de
color para poder apreciar los componentes más débiles. Sólo vamos a estudiar lo
que ocurre en los primeros nueve armónicos.
Figura 11.7: Vı́deo con el espectrograma de ventana muy larga de la nota sol3 dada
primero por un piano y luego por un violı́n.
222
Piano serie Piano Violı́n serie Violı́n
armónica (Hz) medido (Hz) armónica (Hz) medido (Hz)
11.2.2. Diferencias del contenido espectral entre las distintas notas del
mismo instrumento
Las notas de un clarinete suenen todas a clarinete y las de un piano suenen todas
a piano, pero cada instrumento e incluso cada nota del mismo instrumen-
to posee un color propio, unos matices que le otorgan una sonoridad
peculiar.
223
Como se explica en el capı́tulo dedicado al sonido armónico, la mayor o menor
importancia que posee cada componente dentro del conjunto —es decir, su jerar-
quı́a— determina la cualidad sonora que percibimos, su color. En efecto, el conte-
nido espectral de todas las notas del mismo instrumento no es idéntico.
De un instrumento a otro y de una nota a otra cambia la importancia
relativa que cada componente posee respecto al conjunto. Para observar
que esto es ası́ volveremos a los tres ejemplos sonoros que he presentado al princi-
pio y a sus respectivos espectrogramas (figuras 11.1 a 11.6). Comprobaremos que
el hecho de que varı́e el contenido espectral de una nota a otra dentro del mismo
instrumento hace que cambie su cualidad sonora.
Primero vamos a examinar las diferencias de sonoridad que se producen entre
notas cuya tesitura está alejada y luego las que existen entre notas muy cercanas.
Por último, comentaré brevemente las causas de estas diferencias entre sonidos del
mismo instrumento.
Para explicar la influencia del registro tonal en la cualidad tı́mbrica de las notas
emitidas por el mismo instrumento voy mostrar los que ocurre en el piano y en el
violı́n mediante los ejemplos sonoros de los vı́deos que he presentado antes.
Empezaremos estudiando al caso del piano. En los vı́deos con los dos ejemplos de
piano (los espectrogramas de las figuras 11.1 a 11.4) podemos apreciar la diferencia
de sonoridad que hay entre las notas del registro medio-grave y las notas del registro
medio-agudo.
Atendamos a los espectrogramas de los dos ejemplos de piano en los que la escala
de color no está alterada (los de las figuras 11.1 y 11.3). Podemos apreciar que la
mayor parte de las notas que pertenecen al registro medio-grave (las del primer
caso) presentan abundantes armónicos visibles, diez o incluso más, mientras que
en las notas que pertenecen al registro medio-agudo (las del segundo caso) el
número de armónicos que se pueden distinguir con claridad está en torno a tres o
cuatro.
Examinemos ahora los espectrogramas que nos permiten apreciar mejor la banda
alta del espectro de esos dos ejemplos de piano (el de las figuras 11.2 y 11.4).
Puesto que la escala de color ahora representa como blanco todo valor de ampli-
tud superior a una centésima, vemos que aparecen los componentes de la banda
alta, cuya amplitud es generalmente muy reducida y que no se veı́an en los es-
pectrogramas anteriores. Podemos comprobar también ahora que el número de
224
componentes visibles es notablemente mayor en las notas del registro medio-grave
(las del espectrograma de la figura 11.2) que en las del registro medio-agudo (las
del espectrograma de la figura 11.4).
En estos dos ejemplos podemos observar que lo que vemos en los espectrogramas
coincide plenamente con lo que oı́mos en los respectivos vı́deos: mientras que las
notas del primer ejemplo suenan más llenas, más redondas, las del segundo tienen
una sonoridad más clara, más perlada. En resumen, podemos concluir que el color
de las notas del piano es muy diferente en el registro medio-grave y en el
registro medio-agudo, a pesar de la proximidad que hay entre ambos registros.
Las diferencias hubieran sido mucho más exageradas si hubiéramos comparado
notas del piano de los registros extremos, el más grave y el más agudo, pero me
ha parecido oportuno situar los ejemplos dentro del rango habitual de la música
de piano.
Por otra parte, en estos últimos espectrogramas podemos apreciar que el ruido,
que acompaña el ataque de la nota en todos los sonidos de piano y
que es un elemento caracterı́stico del timbre de este instrumento, no
tiene la misma importancia en las notas agudas que en las graves. Si
nos fijamos en el espectrograma de la figura 11.4 (el del registro medio-agudo
del piano) observamos que el inicio de cada nota va acompañado de una serie
de emborronamientos y sombreados de tendencia vertical que se diluyen al cabo
de muy poco tiempo y que señalan la presencia de ruido. Ahora bien, aunque
este ruido de ataque se puede observar también en el espectrograma de banda
alta que corresponden al primer ejemplo del piano (el de la figura 11.2), donde
se dan notas del registro medio-grave, podemos comprobar que su incidencia es
claramente menor. Esa diferente presencia del ruido de ataque en ambos registros
es también una marca tı́mbrica que distingue nuestro oı́do.
Veamos ahora en el caso del violı́n cómo se aprecian las diferencias tı́mbricas entre
notas de distintos registros tonales, pero del mismo instrumento. Volvamos a las
notas que suenan en la primera parte del tercer ejemplo que he presentado antes (el
que corresponde a los espectrogramas de las figuras 11.5 y 11.6). Hay una distancia
de casi dos octavas entre la primera y la segunda nota: primero suena la nota más
grave de este instrumento, el sol3 , dado con la cuarta cuerda al aire, y luego el
fa#5 seguido del sol5 , dadas ambas con la primera cuerda presionada con los dedos
para acortar su longitud.
Si analizamos el contenido espectral de la nota sol3 del violı́n del espectrograma
de la figura 11.5, encontramos que el primer armónico es inapreciable y que el
componente más destacado es el segundo; el tercero, cuarto y quinto armónico
tienen una escasa presencia, mientras que el sexto aparece con claridad; el séptimo,
225
octavo y noveno armónico casi pasan desapercibidos, pero el décimo y el undécimo
se observan con bastante nitidez. Ahora bien, el contenido armónico de las notas
agudas del violı́n, el fa#5 y el sol5 , es totalmente distinto: en ambos casos los
cuatro primeros armónicos tienen una presencia destacada, mientras que el quinto
y el sexto están más atenuados.
Comprobamos que la sonoridad de los dos grupos de notas es también muy distinta:
el fa#5 y el sol5 tienen una cualidad sonora brillante, casi hiriente, mientras que
el sonido del sol3 es más cálido y envolvente. Entenderemos mejor la razón de
la sonoridad agresiva de esas notas del registro agudo si nos fijamos en el otro
espectrograma del mismo ejemplo (el de la figura 11.6). Vemos que en esas notas
hay una presencia destacada de armónicos en toda la banda superior, lo que explica
esa sonoridad casi hiriente.
Ası́ pues, hemos podido experimentar en el caso del piano y del violı́n que las
diferencias en el contenido espectral de notas de diferentes registros
dan lugar a unas marcas tı́mbricas especı́ficas.
Una vez que hemos examinado la diferente cualidad sonora de notas del mismo
instrumento que pertenecen a regiones de la voz alejadas, vamos a ver que también
existen diferencias entre notas que son casi consecutivas. Estas diferencias son más
difı́ciles de apreciar por el oı́do y requieren una audición más atenta, capaz de hacer
abstracción de la diferente altura tonal para prestar atención exclusivamente a la
cualidad sonora.
Comenzaré con la frase de clarinete que aparece en la segunda parte del tercer
ejemplo (figuras 11.5 y 11.6). Las notas forman una doble pareja que distan entre
sı́ un semitono. La primera pareja, el re3 y el la4 , han sido producidas con toda la
longitud del tubo, en el caso del re3 con todos los agujeros tapados y en el caso
del la4 continuando con todos los orificios tapados excepto el portavoz (el orificio
cuya apertura provoca en el clarinete la emisión del tercer armónico, la nota que
está a una distancia de octava y quinta). La otra pareja, el mib3 y el sib4 , ha sido
producida de forma similar, pero con el acortamiento del tubo sonoro.
Como ahora pretendo mostrar la diferente cualidad sonora entre notas que están
muy próximas, no voy a analizar las diferencias de sonoridad que existen entre las
notas del registro grave del clarinete —el llamado chalumeau— y las del registro
agudo, el registro cları́n que da nombre a este instrumento y que se producen al
abrir el portavoz. Atenderemos al diferente contenido espectral entre notas que
226
pertenecen al mismo registro, es decir, el re3 y mib3 , por un lado, y el la4 y sib4 ,
por otro.
Un rasgo caracterı́stico del sonido del clarinete es la prevalencia de los armónicos
impares. Fijémonos, en primer lugar, en el mib3 , la tercera de las notas emitidas
por el clarinete. En efecto, en el espectrograma se observan casi exclusivamente los
armónicos impares: primero, tercero, quinto, etc, hasta el undécimo, y acaso parece
vislumbrarse un poco el duodécimo. En el caso del re3 , la primera nota, observamos,
ası́ mismo, la prevalencia de los armónicos impares, pero comprobamos que también
hay una cierta presencia de los armónicos pares: el sexto, el octavo, el décimo y
el duodécimo. Como hemos experimentado hasta ahora, estas diferencias en la
importancia de los componentes armónicos deberı́an ser percibidas por nuestro
oı́do como diferencias en la cualidad sonora.
Para facilitar la apreciación auditiva de estas diferencias, he realizado un nuevo
vı́deo con los dos sonidos que quiero comparar, uno a continuación del otro. Para
que la diferente altura tonal no distraiga nuestra atención sobre la cualidad sonora
de cada nota, he bajado artificialmente un semitono la segunda nota, el mib3 , de
modo que ha quedado convertido en un re3 , y ası́ ambas notas tienen la misma
altura tonal.
Figura 11.8: Vı́deo con el espectrograma de dos notas de clarinete con diferente con-
tenido espectral.
227
Si comparamos el contenido espectral de las otras dos notas del clarinete, las del
registro agudo, vemos que en el la4 aparece el segundo armónico, un armónico par
que está ausente en el sib4 . También observamos que el componente más destacado
del la4 es el fundamental, mientras que en el sib4 es el tercer armónico el que tiene
más relevancia. Estas diferencias en el contenido espectral explican las
distintas cualidades sonoras que oı́mos en dos notas consecutivas.
Veamos por último cómo dos notas próximas de piano tienen una cualidad sonora
diferente. Volvamos al vı́deo de la figura 11.3, donde se repite una pequeña fra-
se ligada formada por notas predominantemente seguidas. Todas las notas de la
primera frase han sido dadas con el mismo toque, por lo que las diferencias de
sonoridad que apreciemos se tienen que deber necesariamente a la propia consti-
tución del instrumento. Prestemos atención en el espectrograma, por ejemplo, a la
jerarquı́a armónica de las tres primeras notas: la4 , si4 y do5 . Observamos que en el
la4 , aunque en el momento del ataque el armónico primero es el que tiene una pre-
sencia mayor, el que termina prevaleciendo es el segundo; en el si4 el armónico más
importante es el tercero; y en el do5 el que posee mayor importancia es claramente
el primer armónico. Ası́ pues, la diferente jerarquı́a en el contenido espectral de
estas tres notas es la razón de que oigamos una cualidad sonora distinta en cada
una de ellas.
Esta diferente cualidad sonora de cada una de las notas del mismo piano explica,
por ejemplo, que algunos pianistas que no poseen oı́do absoluto —es decir, que
no son capaces de identificar una nota aislada de un instrumento cualquiera sin
una referencia previa— puedan reconocer sin ninguna dificultad cualquiera de las
notas del instrumento en el que habitualmente interpretan.
El estudio detenido de las causas fı́sicas que explican las diferencias de sonoridad
entre las notas de un instrumento excede el objetivo de este capı́tulo. Pero si
atendemos a lo que sucede, por ejemplo, en el caso del violı́n, podemos hacernos
una idea, aunque sea vaga, de las razones de esa peculiaridad tı́mbrica. Por un lado,
todo violinista sabe que no suena lo mismo una nota tocada en una cuerda que esa
misma nota tocada en otra cuerda del mismo instrumento. Ocurre que cada cuerda
del violı́n vibra de forma distinta, debido a su grosor, a su constitución material,
por estar o no entorchada, etc. Y esa diferente vibración produce un contenido
espectral distinto del de las otras cuerdas del mismo instrumento y, por lo tanto,
una sonoridad particular.
228
Por otro lado, hay que tener en cuenta que no oı́mos directamente la vibración de
la cuerda de un violı́n, la cual solo podrı́a poner en movimiento una pequeñı́sima
cantidad de aire; lo que realmente oı́mos son las vibraciones que la cuerda provoca
en la caja de resonancia del instrumento a través del puente, vibraciones que ya
son capaces de mover una cantidad de aire suficiente como para que llegue con
claridad a nuestro oı́do. Pero esa caja de resonancia tiene sus frecuencias propias
de vibración, por lo que resonará más o menos con los diferentes componentes
de la cuerda que vibra, amplificando unos y disminuyendo otros, de manera que
transforma el contenido espectral original de la cuerda, alterando su jerarquı́a
y dejando en el sonido su propia huella. Las resonancias destacadas de la caja
constituyen una caracterı́stica fundamental de los instrumentos musicales y reciben
el nombre de formantes. Igual que en el caso del habla estos formantes son decisivos
a la hora de distinguir las diferentes vocales, en el caso de los instrumentos influyen
de una manera muy marcada en el color de las notas que emiten.
Un ejemplo interesante de la influencia de estos formantes que definen las frecuen-
cias de resonancia de cada instrumento nos la ofrece el vibrato del violı́n sobre la
nota sol5 en el vı́deo de la figura 11.5, en torno al segundo 4. Si observamos el vi-
brato sobre el sol5 vemos que, además de la ondulación caracterı́stica que muestra
la variación de la frecuencia, en la parte más baja del tercer armónico hay como
unos puntos de luz casi blanca. Estos puntos indican que en esos instantes se ha
producido una amplitud máxima en ese componente. Dicho de otra manera, el
vibrato no sólo ha ocasionado una variación de la frecuencia, sino que también ha
oscilado el color del sonido, es decir, la mayor o menor prevalencia de unos u otros
componentes.
Esta oscilación de la cualidad sonora que posee el vibrato del violı́n es un rasgo
caracterı́stico de este instrumento. Si lo comparamos con el vibrato menos pro-
fundo del clarinete que podemos observar también en el mismo espectrograma (o
incluso mejor en el de banda alta de la figura 11.6) sobre las notas la4 , en torno al
segundo 8, y sib4 , en torno al segundo 13, vemos que en el clarinete no hay cambio
de color, sino que la cualidad sonora se mantiene igual a lo largo de toda la emisión
de la nota y solo oscila la altura tonal. La explicación fı́sica de este rasgo carac-
terı́stico del violı́n reside en las propiedades de su caja de resonancia, que responde
de diferente manera a componentes frecuenciales muy próximos. En este caso, el
tercer armónico resuena mucho más cuando el vibrato está en la parte baja de su
oscilación, debido a que en ese instante su frecuencia coincidirá con la frecuencia
de una de las múltiples resonancias naturales de la caja del violı́n. En consecuen-
cia, el tercer armónico adquiere en esos momentos una función predominante en
la jerarquı́a de los componentes.
229
11.2.3. Modificación del contenido espectral por la acción del intérpre-
te
Una vez entendido que cada instrumento, por sus propias caracterı́sticas fı́sicas,
imprime su personalidad en el contenido espectral de los sonidos que produce y,
por lo tanto, posee su propia cualidad tı́mbrica, vamos a atender ahora a las huellas
que las acciones del intérprete dejan en la jerarquı́a espectral de los componentes
de cada nota, las cuales se traducen en su particular cualidad sonora.
Una parte importante de la formación de un instrumentista consiste en aprender
a “fabricar el sonido”. Esto es evidente en el caso de un intérprete de violı́n, pues
pueden pasar años hasta que un violinista consiga obtener un sonido aceptable,
pero también es válido en el caso del piano. A pesar de que el sonido del piano
parezca estar fabricado de antemano y de que aparentemente el pianista solo deba
bajar la tecla, basta escuchar unas pocas notas para distinguir si han sido eje-
cutadas por un intérprete formado o por un estudiante que está empezando. En
efecto, pequeñı́simas diferencias en la velocidad de bajada de la tecla —es decir,
en el “toque”— se traducen en claras diferencias en la sonoridad y en el color del
sonido que se obtiene.
Comencemos observando la relación entre el toque del instrumentista y la mayor
o menor presencia de armónicos superiores. Volvamos sobre las frases de piano de
los dos primeros ejemplos (figuras 11.1 a 11.4). Fijémonos en primer lugar en el
segundo ejemplo, el de los vı́deos de las figuras 11.3 y 11.4. Apreciamos la diferente
cualidad sonora de las notas de la primera frase, que han sido dadas con un toque
intermedio y natural, y las de la segunda, donde la misma secuencia de notas se
repite con un toque más duro y enérgico.
Esa diferencia en la cualidad sonora queda reflejada en el contenido espectral que
vemos, sobre todo en la figura 11.4, donde la escala de color ha sido preparada
para observar la banda alta. El toque más duro de la segunda repetición se ha
traducido en una mayor presencia y relevancia de los armónicos superiores. En
efecto, en el piano un ataque más duro produce una nota con mayor volumen
sonoro, pero también con un contenido más rico en armónicos superiores. Estos
armónicos superiores son los que le proporcionan al sonido un color brillante e
incisivo.
Escuchemos ahora el primer ejemplo, el de las figuras 11.1 y 11.2. Como hemos
visto ya, está formado por tres breves frases, cada una de cuatro notas. La tercera
frase es una repetición de la segunda, pero ejecutada con un toque más delicado.
Fijémonos en la diferencia de contenido espectral entre ambas. Tanto en el vı́deo de
la escala de color completa (figura 11.1), como el de la escala de color modificada
230
para resaltar la banda alta (figura 11.2), comprobamos que hay bastante diferencia
en el número y la importancia de los armónicos superiores: en la segunda repetición,
la que tiene el toque más delicado, el número de armónicos superiores visibles es
menor que en la primera y predominan muchos más los armónicos inferiores. Esta
hace que el sonido de esta frase sea mucho más dulce.
A diferencia del ejemplo de piano anterior, donde todas las notas de la misma frase
habı́an sido ejecutados con un toque homogéneo, aquı́ cada nota ha tenido su propio
toque. El intérprete ha pretendido dar a cada una de ellas un significado propio,
una personalidad, como si cada una tuviera que decir algo distinto sólo ya con su
sonido. Por no alargar en exceso el comentario, me voy a centrar en una nota que
adquiere especial singularidad, el dob4 , en la segunda ejecución, pasado ligeramente
el segundo 16. La cualidad sonora de esta nota es distinta de todas las demás. Su
sonido es destacadamente suave y conciso. Si observamos el espectrograma en las
figuras 11.1 y 11.2 vemos que el primer armónico presenta aquı́ una relevancia
mucho más destacada que en el resto de las notas que la rodean. La interacción
entre el instrumento y el toque del pianista ha dejado su marca en esa importancia
casi absoluta del componente fundamental.
Mediante estos ejemplos hemos podido comprobar que el toque del pianista, es
decir, la mayor o menor velocidad con la que baja la tecla, repercute en
el contenido espectral y, por lo tanto, en el color del sonido que obtiene.
Conforme más duro es el ataque, mayor es el contenido de armónicos
superiores que despierta.
Esto que hemos visto en el caso del piano es común a la mayor parte de los
instrumentos, ası́ como a la voz humana. Una persona gritando producirá un mayor
volumen sonoro, pero todos podemos distinguir que una persona está gritando
aunque el volumen que oigamos sea muy bajo. Ello se debe a que la cualidad del
sonido, el contenido armónico, es diferente: un incremento en el volumen va
asociado a un incremento en el número e importancia de los armónicos
superiores.
En el ejemplo de violı́n de las figuras 11.5 y 11.6 hemos visto que la diferente
sonoridad que oı́mos entre el sol3 , por un lado, y el fa#5 y sol5 , por otro, se debe a
la diferencia entre las cuerdas y al hecho de haber sido tocadas al aire o pulsadas
con el dedo. Pero otra parte importante de la cualidad sonora peculiar de cada una
de estas notas viene dada por la mayor presión o velocidad con la que el arco ha
frotado la cuerda en las notas superiores. Dicho de otra forma, el alto contenido
armónico en la zona superior del espectro es consecuencia de esa mayor energı́a
del arco que ha empleado el violinista.
231
Por otra parte, en algunos instrumentos el intérprete puede modificar el contenido
espectral durante la emisión del sonido. El violinista y el clarinetista, por ejemplo,
tienen que aportar energı́a constantemente para mantener el sonido, por lo que
pueden cambiar el volumen sonoro a voluntad. Ası́ mismo, dentro de unos márgenes
limitados por la naturaleza del instrumento, pueden también alterar su contenido
espectral a lo largo del tiempo que dura la emisión de la nota. Por poner un ejemplo
sencillo, en la segunda parte de los vı́deos y espectrogramas de las figuras 11.5 y
11.6 podemos apreciar que cuando el clarinetista apaga lentamente la segunda
nota de cada pareja, el la4 y el sib4 , se produce una desaparición progresiva de los
armónicos superiores. El clarinete sigue, ası́ pues, también la norma general de que
el incremento en el volumen va unido a un incremento en el número y prevalencia
de los armónicos superiores, y viceversa, como ocurre en este ejemplo.
Realmente cuando escuchamos un sonido nuestra imaginación tiende a reconstruir
la acción que lo ha producido. Ésta es precisamente una de las formas en las que se
transmite la información emotiva del intérprete. Sin necesidad de verlo tocar, noso-
tros, al oı́r su música, imaginamos el “gesto” que está haciendo en el instrumento.
Por ejemplo, en el teclado de un piano “oı́mos-vemos” al intérprete acariciando
las teclas en los pasajes delicados, golpeando sin piedad en los fortı́simos-staccato,
pasando con ligereza en los pasajes pianos y ligados, etc. Esta gestualidad nos llega
a través de las “marcas” de los sonidos. Entre esas marcas está habitualmente el
hecho de que el número de armónicos superiores crezca en función de la energı́a
con la que se ha atacado la tecla, ataque y energı́a que cambian constantemente a
lo largo de una interpretación. Hablando en general, el número y la importancia
de los armónicos no es una caracterı́stica fija propia del sonido de un instrumento,
ni siquiera de la misma nota del mismo instrumento, sino que en buena medida
depende de la voluntad del intérprete.
232
11.3.1. Marcas tı́mbricas y envolvente de amplitud
233
Figura 11.10: Envolvente de amplitud de una nota de violı́n.
En ambas figuras vemos que en un tono azul grisáceo, que se funde casi con el azul
del fondo de la gráfica, se ha trazado la señal de audio, es decir, la forma de la
vibración de ese sonido. En esta ocasión la representación de la señal de audio no
permite apreciar los detalles de la vibración, como sucedı́a en las representaciones
de los osciloscopios simulados que hemos visto en los capı́tulos anteriores, sino
que es el resultado de haber hecho un gran zoom negativo sobre ella, como si
observáramos la señal desde muy lejos. Se ha perdido todo el detalle y solamente
se aprecia el aspecto global de la evolución de la amplitud, que es precisamente lo
que nos interesa ahora.
La lı́nea que se destaca en amarillo representa la envolvente de amplitud, la evo-
lución de la amplitud a lo largo del tiempo. Podemos comprobar que, en lı́neas
generales, la gráfica de la envolvente sigue bastante de cerca la forma de la señal
de audio comprimida, como si quisiera envolverla. Si escuchamos con atención las
notas del vı́deo de la figura 11.7 mientras vemos estas gráficas de sus envolventes
de amplitud, reconoceremos con facilidad que reflejan lo que oı́mos.
En las dos gráficas observamos al principio y al final unas pequeñı́simas oscilaciones
de la lı́nea amarilla, que corresponden al ruido de ambiente presente en el lugar
en el que se han hecho las grabaciones (ambas han sido grabaciones domésticas
realizadas con un micrófono de nivel medio del tipo USB para ordenador).
234
Fijémonos primero en la gráfica de la envolvente del piano (figura 11.9). Podrı́amos
distinguir tres partes en esta gráfica amarilla. La primera parte, que corresponde al
ataque inicial, tiene un carácter muy abrupto, pues crece bruscamente desde el ini-
cio de la nota hasta el pico máximo, que en esta gráfica se sitúa aproximadamente
en el segundo 1,3. Ahora bien, su crecimiento no es uniforme. Comienza con una
lı́nea casi vertical que se queda en torno a un valor de 0,18, sin llegar todavı́a a su
valor máximo, una lı́nea que refleja un cambio casi instantáneo y que se correspon-
de con el ruido inicial que acompaña al ataque en la nota de piano, como hemos
visto al analizar el contenido espectral. Luego la gráfica sigue todavı́a creciendo
de forma rápida, pero ya no tan abrupta, hasta alcanzar en el segundo 1,3 el pico
máximo, es decir, una amplitud de aproximadamente 0,34. La segunda parte de
la gráfica comienza en este pico máximo, cuando se inicia un declive con bastante
pendiente, y dura aproximadamente hasta el segundo 2. Y en la tercera parte, que
comienza en este segundo 2, la gráfica continúa descendiendo, pero ahora de una
forma mucho más lenta y mantenida, hasta que se produce el levantamiento de
la tecla, lo que ocurre poco antes del segundo 5. Esta evolución de la envolvente
de amplitud es caracterı́stica de las notas del piano. En esencia consiste en un
ataque muy rápido y una doble amortiguación, la primera relativamente rápida y
la segunda muy prolongada y sostenida.
Si comparamos la gráfica de la envolvente de amplitud del piano con la de la
envolvente de la nota de violı́n (figura 11.10) nos damos cuenta de que las diferen-
cias son muy grandes. El ataque es ahora suave y va creciendo poco a poco; las
formas generales son poco marcadas y más bien redondeadas; la evolución de la
amplitud general se aproxima aquı́ a una forma circular; y, lo que viene a ser el
rasgo más caracterı́stico de la envolvente de amplitud del violı́n, la lı́nea general
de la evolución está constantemente llena de alteraciones, que se corresponden con
apreciables oscilaciones en el volumen sonoro de la nota, resultado de la variación
de la presión del arco sobre la cuerda.
Pero creo que conviene insistir un poco más en la importancia que tiene para
nuestra percepción de la cualidad tı́mbrica de un sonido su envolvente de amplitud.
En efecto, si modificamos artificialmente la evolución de la amplitud general de
un sonido, el cambio en el timbre que percibiremos será enorme. Voy a poner un
ejemplo muy sencillo que servirá para comprobar la decisiva influencia que posee
la evolución de la amplitud general en la determinación del timbre. Este ejemplo,
de paso, nos ayudará también a entender cómo nuestra percepción auditiva está
configurada para colaborar con el resto de los sistemas sensoriales en la tarea de
captar la evolución de la realidad externa. He grabado una pequeña frase de piano
con ocho notas que alternan los valores de blancas y negras formando un ritmo
troqueo constante. Las notas son las siguientes: re4 , do4 , mi4 , fa4 , sol4 , la4 , re4 , la3 .
235
Con ayuda de un editor de audio he copiado la señal y la he pegado a continuación,
pero ahora invirtiendo el orden temporal, es decir, haciendo que la señal vaya de
atrás a adelante, con lo que el resultado que he obtenido ha sido una señal formada
por dos partes iguales simétricas.
Como se puede comprobar en el vı́deo, las dos partes son totalmente idénticas,
a excepción de que la segunda es una repetición de la primera, pero en el orden
inverso. Esto resulta también claro si nos fijamos en el orden y en el ritmo de
las notas. El ritmo en la segunda parte es una sucesión de yambos, es decir, de
negras y blancas. Las notas son las mismas que las de la primera parte, pero en
orden inverso: la3 , re4 , la4 , sol4 , fa4 , mi4 , do4 , re4 . El número de componentes
armónicos de cada nota y su importancia relativa tiene que ser, por lo tanto, el
mismo y, sin embargo, el sonido es totalmente distinto. Cuando escuchamos la
segunda parte del vı́deo nunca pensarı́amos que está sonando un piano. Tal vez,
si acaso, una armónica o algún instrumento similar. Para facilitar este efecto he
elegido a propósito una frase musical que al ser oı́da en orden inverso tenga un
cierto aire de melodı́a de pelı́cula del oeste. Pongo a continuación la gráfica de las
correspondientes envolventes de amplitud.
236
Figura 11.12: Envolvente de amplitud de las melodı́as, directa y retrógrada, del vı́deo
de la figura 11.11.
237
11.3.2. Marcas tı́mbricas y envolvente de frecuencia
Como ya he comentado al estudiar los rasgos tı́mbricos que dependen del contenido
espectral, la evolución de la frecuencia es una marca tı́mbrica muy significativa. De
hecho, establece la diferencia entre instrumentos de afinación libre, cuya envolvente
de frecuencia sigue las intenciones del intérprete, e instrumentos de afinación fija,
cuya envolvente de frecuencia es, en general, una lı́nea horizontal. Ası́ mismo, el
rango de variación de la envolvente de frecuencia en los instrumentos de afinación
libre es muy distinto. Por ejemplo, el violı́n permite con facilidad portamentos que
pueden unir notas muy alejadas, lo que puede dar lugar a envolventes de frecuencia
muy extendidas, mientras que las variaciones de frecuencia que permite una flauta
durante un soplo mantenido son más bien pequeñas y, por lo tanto, su envolvente
de frecuencia es bastante reducida.
Por otra parte, los instrumentos de afinación libre permiten que el intérprete fa-
brique su propio vibrato, un recurso que constituye una parte muy importante en
la caracterización de su “sonido”. La diferente profundidad y ritmo del vibrato
vienen a ser como una especie de sello de marca del instrumentista, que dibuja su
“firma” en la envolvente de frecuencia.
A modo de ejemplo, voy a comentar cómo la ejecución de una nota de violı́n dada
con vibrato queda reflejada en su envolvente de frecuencia. Se trata de la nota
sol5 del vı́deo de la figura 11.5. Es muy sencillo obtener una representación de
la envolvente de frecuencia a partir del espectrograma. Puesto que en un sonido
armónico la frecuencia de todos los componentes evoluciona en paralelo, basta con
determinar en el componente fundamental (o en cualquier otro que nos interese,
pero dividiendo su valor por el número de armónico del que se trate) la frecuencia
que ha alcanzado la máxima amplitud en cada momento (es decir, la frecuencia
del pixel más luminoso) y representar este dato en una nueva gráfica.
238
Figura 11.13: Envolvente de frecuencia de una nota de violı́n con vibrato.
239
Esta gráfica nos muestra con precisión que el violinista toma la nota desde muy
abajo, en 777 Hz aproximadamente, luego sube hasta prácticamente rozar los 796
Hz y a partir de ahı́ comienza a realizar unas oscilaciones centradas aproxima-
damente en torno a 789 Hz, hasta llegar al final de la nota, cuando de nuevo
desciende también en frecuencia. Este tomar desde abajo, subir y mantenerse y
volver de nuevo a caer al final es un patrón muy caracterı́stico para notas man-
tenidas con vibrato en violı́n. Podemos ver también en la gráfica que la distancia
temporal entre las oscilaciones es aproximadamente de 2 décimas de segundo, lo
que se corresponde con 5 oscilaciones por segundo, que es también un ritmo de
oscilación muy habitual en la realización del vibrato de violı́n.
Para acabar, solo quiero apuntar que la evolución de la frecuencia, al margen de
dejar una marca clara del tipo de instrumento del que se trata, es también un
medio muy eficaz para transmitir mediante el propio sonido la gestualidad del
intérprete. Y en gran medida es a través de esa gestualidad como el intérprete
comunica a quien le escucha una parte importante de su emotividad.
11.4. Conclusión
El timbre del sonido es como su sello particular. En este capı́tulo hemos podido
observar que el conjunto de marcas tı́mbricas dejan su huella principalmente en
el contenido espectral de cada sonido musical y en sus envolventes de frecuencia
y amplitud. Estas marcas diferencian la sonoridad caracterı́stica de un tipo de
instrumento de la de otro, la de cada instrumento particular, la de las distintas
notas que emite cada instrumento, la propia de cada instrumentista e incluso la que
posee la misma nota emitida en el mismo instrumento por el mismo instrumentista
en los diferentes momentos de su interpretación.
240
Capı́tulo 12
Fisiologı́a de la audición
12.1. Introducción
El sonido no es solamente un acontecimiento fı́sico, una vibración mecánica, sino
también un fenómeno psı́quico: la imagen que la vibración acústica produce en
nuestra mente. Esa imagen está condicionada por las caracterı́sticas de nuestro
receptor, el oı́do. Por ello, para entender la manera en la que escuchamos el sonido
musical es necesario conocer cómo es y cómo funciona el oı́do humano, pues es
en el oı́do donde se transforma la vibración mecánica que llega del exterior en
un conjunto de impulsos nerviosos que posteriormente serán enviados al cerebro,
donde se elaborará nuestra imagen acústica.
En este capı́tulo vamos a estudiar la morfologı́a y la función de cada una de las par-
tes del oı́do: las zonas que recogen la vibración sonora del exterior, las que adecúan
su presión a los fluidos del oı́do interno y las que realizan el análisis frecuencial
extrayendo los diferentes componentes de la vibración y transformándolos en im-
pulsos eléctricos que llegarán al cerebro mediante el nervio auditivo. Empezaremos
con una visión general de la anatomı́a del oı́do humano y luego nos detendremos
en estudiar cómo es y cómo se comporta la cóclea.
241
las partes del oı́do. Es una adaptación de la Figura 1 del capı́tulo 2 de “Structure
and function” del curso Hearing, en Open Learn (The Open University).
a) El oı́do externo
242
b) El oı́do medio
El oı́do medio es una cámara llena de aire en cuyo interior se halla una cadena
de huesecillos u osı́culos, llamados por su forma martillo, yunque y estribo,
que sirven para transmitir las vibraciones sonoras desde la membrana timpánica
hasta el oı́do interno. Para lograrlo, el mango del martillo está unido al tı́mpano,
mientras que la base del estribo está en contacto con la membrana de la ventana
oval, a través de la cual penetran las vibraciones sonoras en la cóclea, que es la
parte del oı́do interno dedicada a la audición.
La principal función del oı́do medio es posibilitar el incremento de pre-
sión necesario para que la energı́a de la vibración sonora del aire exterior
se transmita eficazmente a los fluidos acuosos que llenan el oı́do interno.
En efecto, puesto que el agua tiene mayor impedancia acústica que el aire (es de-
cir, presenta mucha más resistencia a la transmisión de la vibración), si no hubiera
un mecanismo que aumentara la presión de las vibraciones, una gran parte de
la energı́a sonora serı́a absorbida o reflejada por los fluidos acuosos de la cóclea,
tal como sucede si tratamos de hablar a una persona que está sumergida en el
agua.
Este incremento de la presión se logra principalmente porque la superficie del
tı́mpano que vibra (la membrana que está en contacto con el aire exterior) es unas
17 veces mayor que la superficie de la membrana de la ventana oval (la que está
en contacto con el lı́quido acuoso que hay en el interior de la cóclea). De esta
manera se consigue un aumento de presión de unas 17 veces. Además, la acción
de palanca que ejerce la cadena de huesecillos del oı́do medio también contribuye
al incremento de presión. En su posición habitual, los osı́culos pueden aumentar
1,3 veces aproximadamente la presión que llega hasta la ventana oval. Ası́ pues,
la acción combinada de ambos mecanismos puede lograr un aumento de presión
de unas 22 veces, con lo que la membrana de la ventana oval va a ser ya capaz de
transmitir de forma eficaz la vibración sonora a los lı́quidos que están en el interior
de la cóclea.
Otra función muy importante del oı́do medio es la protección del delicado oı́do
interno frente a sobrepresiones que podrı́an dañarlo. Cuando la intensidad sonora
excede los niveles de tolerancia se activa un mecanismo reflejo mediante el cual dos
pequeños músculos que actúan sobre el martillo y sobre el estribo (no incluidos
en el dibujo) pueden bloquear la articulación de los osı́culos, limitando en gran
medida la transmisión de las vibraciones.
El oı́do medio comunica con el exterior a través de la trompa de Eustaquio, un
conducto de unos 4 mm de longitud que termina en la región nasofarı́ngea. La
243
trompa de Eustaquio, que habitualmente está cerrada, se abre con la deglución y
con el bostezo. Tiene la finalidad de igualar la presión de aire del oı́do medio con la
del exterior y ası́ permitir que el tı́mpano pueda vibrar libremente en su posición
idónea.
c) El oı́do interno
El oı́do interno, también llamado laberinto, está formado por una estructura ósea
hueca situada en el hueso temporal y consta de diferentes partes delimitadas por
configuraciones óseas y membranosas. Su interior está lleno de dos lı́quidos acuosos:
la perilinfa en las zonas exteriores, que están en contacto con el hueso; y la endolinfa
en las interiores, rodeadas por membranas. Mientras que la composición de la
perilinfa es similar a la de otros fluidos extracelulares del cuerpo humano, como el
lı́quido cefalorraquı́deo, la endolinfa es una sustancia especı́fica del oı́do interno y
se caracteriza por contener una cantidad muy elevada de iones positivos de potasio
(K+).
El oı́do interno cumple dos funciones. Por un lado, sirve para contribuir al mante-
nimiento del equilibrio corporal, lo cual se realiza mediante el sistema vestibular o
laberinto posterior, que está formado por el vestı́bulo y los tres canales semicircu-
lares. Por otro lado, y en lo que a la actividad acústica se refiere, el oı́do interno
sirve para transformar las vibraciones mecánicas que provienen del oı́do
medio en impulsos eléctricos, lo que se produce en el laberinto anterior,
llamado por su forma cóclea o caracol. Ambas tareas son llevadas a cabo
por células sensoriales pilosas capaces de trasformar los movimientos mecánicos
en variaciones de la tensión eléctrica, las cuales son codificadas y transmitidas al
cerebro por los nervios vestibular y coclear respectivamente. Estos dos nervios se
juntan inmediatamente después del oı́do y forman el nervio vestibulococlear, tam-
bién llamado VIII par craneal, el cual conduce la información procedente del oı́do
interno al cerebro.
Puesto que en este capı́tulo nos estamos ocupando de la fisiologı́a de la audición,
dejaremos de lado lo que concierne al sistema vestibular, el encargado del equilibrio,
para dedicarnos a la parte del oı́do interno en el que se producen los fenómenos
relacionados con la audición, es decir, a la cóclea.
Pero antes de examinar con más detalle la estructura de la cóclea, veamos un
vı́deo didáctico que nos explica muy bien el mecanismo mediante el cual las ondas
sonoras procedentes del exterior son transmitidas por las distintas partes del oı́do
y transformadas en impulsos eléctricos, fenómeno que se denomina “transducción
244
auditiva”. El vı́deo Auditory Transduction ha sido creado por Brandon Pletsch y
los subtı́tulos en español se deben a Hermes Carreño y Oscar Guillermo.
12.3. La cóclea
La cóclea es la parte del oı́do interno donde se transforma la informa-
ción auditiva que contiene la vibración sonora en impulsos nerviosos. En
primer lugar, la cóclea actúa como un analizador mecánico de frecuencias, descom-
poniendo mediante resonancias la forma de la vibración sonora en sus componentes
sinusoidales; en segundo lugar, transforma esa información frecuencial en señales
eléctricas; y, finalmente, codifica todo ese conjunto de datos en impulsos nerviosos
que son transmitidos al cerebro.
Para estudiar cómo está constituida la cóclea voy a ir presentando una serie de
ilustraciones en las que podremos observarla desde diferentes perspectivas. En ellas
iremos avanzando desde una visión general a otra cada vez más detallada. En todas
las ilustraciones he utilizado los mismos colores para representar las distintas partes
de la cóclea: en color beige están las partes óseas; en color rojizo, las membranosas;
en color amarillo, las nerviosas; en azul, las áreas ocupadas por la perilinfa; y en
verde, las ocupadas por la endolinfa.
245
12.3.1. Descripción general de la cóclea
246
En la ilustración de la derecha se representa lo que verı́amos si hubiéramos reti-
rado la pared exterior de la cóclea. Ahora podemos distinguir el modiolo, que
forma la pared interna de la cóclea; la lámina espiral, que surge del modiolo; la
membrana basilar, que completa la división principal del interior de la cóclea; y
el borde del ligamento espiral, en color naranja, mediante el cual la membrana
basilar queda sujeta a la pared exterior de la cóclea.
La membrana basilar sigue todo el recorrido espiral de la cóclea, pero no es igual
a lo largo de toda su longitud, sino que es más estrecha en la parte basal —donde
mide aproximadamente 0,1 mm de ancho— y más ancha en la parte apical —donde
mide unos 0,5 mm. Conforme la membrana basilar gana en anchura, la lámina
espiral va haciéndose más estrecha. Además, la membrana basilar es unas 100
veces más rı́gida en la parte basal que en la apical. El ligamento espiral que sujeta
la membrana basilar a la pared externa de la cóclea contribuye a proporcionarle
la tensión adecuada que debe tener en cada punto de su longitud.
La división del interior de la cóclea en dos canales principales, llenos de fluidos
acuosos y separados por una membrana elástica cuya rigidez varı́a a lo largo de
su longitud, explica el comportamiento de la cóclea como analizador mecánico de
espectro. Como veremos más adelante, la diferente elasticidad de la membrana ba-
silar en cada punto de su longitud otorga a cada localización espacial una frecuencia
natural de resonancia. De esta manera, la membrana basilar resuena en diferentes
localizaciones en función de los componentes sinusoidales que están presentes en
la vibración sonora que recibe: los componentes graves generan resonancias en la
zona de la membrana basilar situada en la parte apical de la cóclea, mientras que
los agudos resuenan en la zona basal. Esta propiedad de la membrana basilar se
denomina tonotopı́a (del griego tónos, altura tonal, y tópos, lugar, espacio).
247
Figura 12.4: Ilustración de un corte longitudinal de la cóclea desenrollada.
La novedad más destacada que observamos en este dibujo respecto a los anteriores
es que ahora en el interior de la cóclea vemos tres canales bien diferenciados. En
realidad, el canal superior de la cóclea está subdividido en dos canales
independientes: el canal o rampa vestibular y el canal medio o canal
coclear.Esta división del canal superior en dos canales se realiza mediante una
membrana muy fina, de unos 12 micrómetros de grosor, llamada membrana de
Reissner. Vemos también que la membrana basilar recorre casi toda la longitud
de la cóclea, hasta llegar a la zona apical, donde existe una abertura, llamada
helicotrema, que comunica el canal vestibular con el canal inferior. El canal
inferior recibe también el nombre de canal o rampa timpánica.
Como se puede ver en la ilustración, los tres canales del interior de la cóclea están
llenos de dos tipos de fluidos acuosos de diferentes caracterı́sticas electroquı́micas:
la perilinfa, señalada en color azul, y la endolinfa, en color verde. El canal ves-
tibular y el canal timpánico, contienen perilinfa, mientras que el canal
medio tiene en su interior endolinfa, el lı́quido especı́fico del oı́do interno,
caracterizado por ser muy rico en iones positivos de potasio (K+).
El canal vestibular comienza en el vestı́bulo del oı́do interno, desde donde comu-
nica con el oı́do medio a través de la membrana de la ventana oval. Puesto que
la ventana oval está en contacto directo con la base del estribo del oı́do medio,
cuando éste hace oscilar la membrana de la ventana oval, las vibraciones mecánicas
248
ocasionadas por los cambios de presión del aire debidos al sonido son transmiti-
das inmediatamente a la perilinfa del canal vestibular. Y estas vibraciones son
comunicadas, casi instantáneamente, al canal timpánico a través de la membrana
basilar.
El canal timpánico se comunica con el oı́do medio a través de la ventana redonda,
un orificio en el hueso de la cóclea cerrado por una membrana. A diferencia de
la ventana oval, esta membrana es pasiva y solamente sirve para compensar los
aumentos y disminuciones de la presión que se producen en el interior de la cóclea
como consecuencia de la oscilación de la membrana de la ventana oval, variaciones
que llegan al canal timpánico mediante la deformación de la membrana basilar.
Cuando la membrana oval penetra en el interior del canal vestibular, la membrana
de la ventana redonda se abomba hacia afuera, es decir, hacia el espacio del oı́do
medio; por el contrario, cuando la membrana oval retrocede, la membrana de la
ventana redonda penetra en el canal timpánico de la cóclea. Si no existiera esta
ventana redonda, los fluidos acuosos del interior de la cóclea, al ser incompresibles,
no podrı́an vibrar.
El canal medio o conducto coclear es un contenedor de endolinfa. A pesar de
la finura de la membrana de Reissner, su impermeabilidad impide a la endolin-
fa mezclarse con la perilinfa del canal vestibular. Por su diferente constitución
electroquı́mica, entre la endolinfa y la perilinfa existe una diferencia de potencial
de unos 80 mV, y gracias a esa diferencia de potencial la cóclea puede realizar
la transducción de las señales mecánicas en señales eléctricas, como veremos más
adelante.
Hay que tener en cuenta, por otra parte que, debido a su finura, la membrana de
Reissner no supone obstáculo alguno a la vibración de los fluidos. De esta forma,
en lo que concierne a la función de la cóclea como analizador mecánico de espectro,
el canal vestibular y el canal medio se comportan como si se tratara de un solo
canal, el canal superior del dibujo de la izquierda de la figura 12.3.
En la figura 12.4 podemos ver también, ligeramente dibujadas, las fibras nervio-
sas que salen de la cóclea y que forman el nervio coclear. Este nervio será el
encargado de llevar al cerebro la información auditiva convertida ya en impulsos
nerviosos.
Pero para apreciar mejor cómo se organizan estas estructuras nerviosas, es opor-
tuno observar el interior de la cóclea desde otra perspectiva. Veamos una ilustración
que representa las dos vueltas y medio de la cóclea cortada transversalmente. En
ella, para mostrar las estructuras nerviosas, se ha prescindido de la pared ósea
interior y de la lámina espiral. Los autores son Guy Rebillard y Rémy Pujol y la
ilustración procede de Voyage au centre de l’audition.
249
Figura 12.5: Ilustración de un corte transversal de la cóclea.
Podemos distinguir en cada vuelta de la cóclea los tres canales que hay en su
interior —el canal vestibular, el canal medio y el canal timpánico—, cada uno
de ellos pintado en el color que representa el fluido acuoso que contiene. Pero lo
más interesante de esta ilustración es que nos permite apreciar cómo es el ganglio
espiral, el cual se forma de la reunión de las fibras nerviosas que se conectan al
epitelio sensorial de la membrana basilar, el llamado órgano de Corti. Vemos
que el ganglio espiral recorre prácticamente toda la longitud de la cóclea y también
que de él surge el haz nervioso que forma el nervio coclear.
Y para concluir el estudio de la organización interna de la cóclea, examinemos sus
partes con un poco más de detalle. Veamos un dibujo esquemático de las áreas
que se podrı́an distinguir en un corte transversal de una sola vuelta de la cóclea.
Está basada en un dibujo muy difundido en internet. Lo he modificado para hacer
coincidir los colores con los del resto de las ilustraciones de la cóclea y, sobre todo,
para delimitar con precisión las zonas ocupadas por la endolinfa de aquellas otras
ocupadas por la perilinfa, particularmente en la zona inferior del canal medio.
250
Figura 12.6: Ilustración de un corte transversal de una vuelta de la cóclea.
En la figura reconocemos las partes de la cóclea que hemos visto en los dibujos
anteriores, si bien ahora, al ser representadas desde otra perspectiva, podemos
apreciarlas mejor. Ası́, reconocemos la cóclea ósea, con la pared exterior, el modiolo
y la lámina espiral que sale de él; la membrana basilar, de la cual ahora podemos
ver con claridad que completa la división del interior del cilindro coclear en los
dos canales principales; los tres canales llenos de lı́quido del interior de la cóclea,
el canal vestibular, el canal medio y el canal timpánico; el ligamento espiral, que
sujeta la membrana basilar a la pared exterior de la cóclea; y el ganglio espiral,
situado en el interior del modiolo, que va a converger en el nervio coclear.
Pero además, esta ilustración nos muestra otras estructuras que hasta ahora o
no habı́an sido representadas o no lo habı́an sido con suficiente claridad. Vemos
la estrı́a vascular, el epitelio que recubre el ligamento espiral y que cierra el
recinto del canal medio por la parte externa, encargándose de dotar de abundantes
iones positivos de potasio a la endolinfa de ese canal. También podemos ver con
claridad el epitelio sensorial situado sobre la membrana basilar, el órgano de
Corti, en el que podemos identificar las células pilosas externas e internas, ası́
como los espacios llenos de perilinfa que hay entre ellas. Ası́ mismo, ahora está
dibujada la membrana tectorial, una estructura gelatinosa contra la que chocan
las vellosidades las células pilosas del órgano de Corti. Y, finalmente, podemos
apreciar las terminaciones nerviosas que conectan las células sensoriales del órgano
de Corti y que forman el ganglio espiral.
251
Por otra parte, este dibujo es muy útil para determinar con precisión qué zonas
del interior de la cóclea están ocupadas por perilinfa y cuáles otras están ocupadas
por la endolinfa. En efecto, ahora podemos apreciar con más exactitud los lı́mites
del canal medio, en el que está encerrado el fluido endolinfático, lo cual es muy
importante para entender cómo se realiza la transducción mecano-eléctrica.
Podemos distinguir sin dificultad los lı́mites del canal medio por la zona superior
y por la exterior: por un lado, la membrana de Reissner separa por arriba el canal
medio del canal vestibular y, por el otro, la estrı́a vascular delimita el canal medio
por la zona exterior de la cóclea.
Y ahora podemos delimitar con más claridad los bordes inferiores del canal medio,
en la zona donde está ubicada la membrana basilar y el órgano de Corti. En el
dibujo este lı́mite inferior aparece delineado en color rojo. En lı́neas generales, se
puede decir que ese lı́mite está formado por la parte superior del epitelio sensorial
que recubre la membrana basilar. Pero, si nos fijamos un poco, podemos apre-
ciar que no es todo el epitelio sensorial, sino que las vellosidades de las células
sensitivas del órgano de Corti están dentro del canal medio y, por lo tanto, están
bañadas en endolinfa, mientras que el cuerpo de esas células ya permanece fuera
del canal medio, en contacto directo o indirecto con la perilinfa que proviene del
canal timpánico. Pero esto lo veremos con más detalle a continuación, al estudiar
el órgano de Corti.
252
Figura 12.7: Ilustración de un segmento del órgano de Corti.
253
Por su forma y su función se distinguen dos tipos de células pilosas: las células
pilosas internas, más próximas a la pared interna de la cóclea, y las células
pilosas externas, más próximas a la pared externa.
Las células pilosas internas son células exclusivamente sensoriales. Tienen una
forma bulbosa, similar a la de una pera, y se disponen en una sola hilera. En total
hay unas 3.500 células pilosas internas dispuestas a lo largo de la membrana basilar.
Su tamaño no presenta muchas variaciones. Están rodeadas por otras células no
sensoriales que les sirven de soporte y de aislamiento. Hacia la parte exterior se
encuentran las células pilares que forman el túnel de Corti, un hueco que está lleno
de perilinfa.
Por su parte, las células pilosas externas tienen un cuerpo cilı́ndrico. Se agrupan
en filas de tres o de cuatro células y también se disponen en hileras. Hay unas
12.000 células pilosas externas, distribuidas a lo largo de la membrana basilar. Las
células pilosas externas están ancladas en otras células que las soportan. Entre
ellas hay espacios llenos de perilinfa, los llamados espacios de Nuel. La altura
de las células pilosas externas varı́a de la zona basal a la apical de la cóclea: en la
zona basal miden unos 30 micrómetros, mientras que en la apical llegan a tener
hasta los 70 micrómetros.
La caracterı́stica de las células pilosas externas es que son células contráctiles: no
solamente captan mediante sus estereocilios el estı́mulo mecánico que reciben, sino
que también reaccionan, acortándose o alargándose, en respuesta al estı́mulo reci-
bido, de modo que retroalimentan el movimiento mecánico de la membrana basilar
en la localización exacta en la que se hallan. Con ello logran que la resonancia en
ese punto sea más acentuada.
Tanto en las células pilosas externas como en las internas, los estereocilios están
separados del cuerpo de la célula a la que pertenecen por una especie de pletina.
Esta pletina está unida estrechamente a la superficie de las células que bordean
cada célula sensorial y que la aı́slan de sus vecinas. Mediante esa estrecha unión se
crea una lámina impermeabilizadora capaz de cerrar el canal medio por su parte
inferior, impidiendo a la endolinfa de ese conducto mezclarse con la perilinfa que
llena las lagunas que existen entre las células del órgano de Corti, es decir, el túnel
de Corti y los espacios de Nuel. De estas manera, mientras que los estereocilios
de cada célula pilosa están dentro del canal medio y están bañados por
el lı́quido endolinfático de éste, el cuerpo de la célula está en contacto
directo o indirecto con la perilinfa que procede del canal timpánico.
Como veremos cuando estudiemos la transducción mecano-eléctrica, esta lámina
impermeable hace que los iones positivos de Potasio (k+) que abundan en la
endolinfa solamente puedan pasar al otro lado a través del cuerpo de las células
254
pilosas. La flexión de los estereocilios al chocar contra la membrana tectorial, como
consecuencia de la vibración de la membrana basilar, abrirá o cerrará los canales
iónicos, permitiendo o impidiendo el establecimiento de una corriente eléctrica
entre la endolinfa y la perilinfa.
Para hacernos una idea de la disposición de los estereocilios de las células pilosas
internas y externas, veamos una fotografı́a realizada con microscopio electrónico de
la parte superior del órgano de Corti, en la que se ha retirado la membrana tectorial.
Está obtenida de la galerı́a de imágenes de Yale Medical Cell Biology.
Figura 12.8: Fotografı́a de las células pilosas del órgano de Corti vistas desde arriba.
Vemos la parte superior de las células pilosas y de las células de soporte, ası́ como
la pelı́cula impermeabilizadora que forman. Observamos que los estereocilios de
las células sensoriales internas están dispuestos casi en hilera. Y también que los
estereocilios de las células externas tienen una forma casi de uve doble. Aunque ni
en esta fotografı́a ni en la ilustración anterior están representados, los estereocilios
están unidos entre sı́ por unos enlaces flexibles situados aproximadamente en el
255
medio de su longitud, mediante los cuales están agrupados unos con otros formando
un ramillete.
Además, los estereocilios poseen en su extremo superior unas pequeñas aberturas
cuya puerta, por ası́ decir, está unida mediante un microfilamento proteı́nico, el
tip link, al estereocilio contiguo más alto. Estas aberturas son los canales iónicos y
se abren o se cierran en función de la mayor o menor separación de los estereocilios
según el momento de la oscilación, permitiendo o impidiendo el paso de los iones
positivos al interior del cuerpo celular.
Figura 12.9: Ilustración de la apertura y cierre de los canales iónicos de los estereocilios.
Se podrı́a considerar que las células pilosas son los micrófonos de nuestro sistema
auditivo. De algún modo, podrı́amos decir que nuestro membrana basilar está
equipada con unos 15.000 micrófonos colocados sobre ella, capaces de recoger y
transformar en señales eléctricas las vibraciones de cada una de las localizaciones
de esta membrana. Las células pilosas internas están dispuestas de tal modo que
forman algo ası́ como una hilera de 3.500 micrófonos situados sobre la membrana
basilar y son la principal y más directa fuente de información del movimiento de
oscilación de cada zona de esta membrana. Teniendo en cuenta que la longitud
media de la membrana basilar es de 35 mm, la separación entre las células pilosas
internas es de unas 10 micras, una separación ligeramente superior al diámetro
256
de cada célula. Ası́ pues, podrı́amos decir que cada 10 micras una célula sensorial
recoge, a modo de micrófono, el movimiento resonante de esa zona de la membrana
basilar.
257
En esta ilustración podemos apreciar el ganglio coclear, con las dendritas que salen
de él a lo largo de todo su recorrido espiral y los axones que, reunidos en forma de
haz, constituyen el nervio coclear.
Las neuronas aferentes del ganglio espiral codifican las señales eléctricas recibidas
de las células sensoriales del órgano de Corti y transmiten la información hacia los
núcleos auditivos del cerebro, en concreto, hacia el núcleo coclear. Por su parte,
las neuronas eferentes reciben información desde el complejo olivar superior y la
comunican a las células pilosas.
En el ganglio espiral existen dos tipos de neuronas que se diferencian por su mor-
fologı́a y su constitución: las llamadas neuronas cocleares de tipo I, bipolares,
caracterizadas por tener una dendrita y un axón, ambos gruesos y mielinizados;
y las neuronas cocleares de tipo II, unipolares, con un axón delgado y sin
mielina dividido en dos ramas, una de las cuales cumple la función de dendrita.
Debido a ello, mientras las neuronas de tipo I dan lugar a fibras de conducción
rápida, las fibras de las neuronas de tipo II son más lentas. El 90 % de las neuronas
del ganglio espiral son del tipo I. Las neuronas eferentes son todas del tipo II, pero
las aferentes pueden ser tanto del tipo I como del tipo II.
La inervación de las células pilosas del órgano de Corti es diferente según sean
internas o externas.
Cada célula pilosa interna es inervada por entre 10 y 15 fibras nerviosas aferentes
del tipo I. Además, cada una de estas fibras está conectada solamente con una
célula sensorial interna. De esa manera, para transmitir la información que ha
generado, cada célula sensorial interna dispone de entre 10 ó 15 lı́neas de comuni-
cación independientes y rápidas. Esto explica el gran porcentaje de neuronas del
tipo I que hay en el ganglio espiral.
Por su parte, cada célula pilosa externa se conecta a unas 6 fibras nerviosas aferen-
tes. Pero la célula tiene que compartir cada fibra con unas 10 ó 20 células pilosas
externas más y, además, las fibras nerviosas aferentes son ahora neuronas del tipo
II. Por ello la información que transmiten las fibras nerviosas que proceden de
las células sensoriales externas es mucho más lenta y mucho menos especializa-
da que la enviada por las fibras nerviosas que proceden de las células sensoriales
internas.
Tanto las células pilosas externas como las internas tienen conexiones con neuronas
eferentes, todas ellas del tipo II. En las células pilosas internas la conexión no se
establece directamente con la célula sensorial, sino con alguna fibra nerviosa a la
que está unida. En ese caso la finalidad de estas fibras eferentes parece ser el control
258
de las sinapsis aferentes. En las células pilosas externas, que son contráctiles, parece
que la función de las neuronas eferentes es el control de su motilidad.
Veamos un sencillo esquema de las conexiones de las células sensoriales del órgano
de Corti con las neuronas del ganglio espiral donde se procesa la información
auditiva.
259
Este análisis da lugar a que la información frecuencial que contiene la señal en el
tiempo se traduzca en información espacial, dando como resultado una organiza-
ción tonotópica de la membrana basilar. En cierto sentido, el comportamiento de
la cóclea como analizador mecánico de frecuencias se asemeja al del piano imagi-
nario de miles de cuerdas utilizado para explicar la descomposición espectral en el
capı́tulo “Análisis espectral de los sonidos musicales”.
En ambos casos, la detección de los componentes frecuenciales que constituyen
la vibración sonora se logra mediante un sistema mecánico de resonancias: en
el caso del piano ideal entran en resonancia las cuerdas que están afinadas a la
frecuencia de los componentes sinusoidales presentes en el sonido analizado; en el
caso de la cóclea resuenan aquellas pequeñas secciones de la membrana
basilar cuyas frecuencias naturales de vibración coinciden con las de los
componentes de la onda sonora que penetra en el canal vestibular por
la ventana oval.
Ahora bien, a diferencia de las cuerdas del piano, la membrana basilar es un
continuo. Su frecuencia de resonancia en cada punto a lo largo de su longitud
(la afinación de ese punto, por decirlo ası́) depende tanto de la elasticidad de
la membrana en esa localización concreta, como de su distancia respecto a la
ventana oval. Ası́ mismo, las frecuencias de resonancia de la membrana basilar no
se distribuyen linealmente como en nuestro piano ideal, sino logarı́tmicamente. De
hecho, si tomamos como inicio la zona apical de la membrana basilar, cada 3,5 mm
aproximadamente se dobla la frecuencia, es decir, se aumenta una octava.
La cuestión que hay que explicar ahora es: ¿Cómo es posible que un sistema forma-
do por dos canales llenos de fluido acuoso y separados por una membrana elástica
de rigidez variable pueda resonar en diferentes localizaciones en función de los
componentes frecuenciales de la señal de entrada? Recordemos que, en lo que con-
cierne a la transmisión de la vibración mecánica, el canal vestibular y el canal
medio funcionan como si se tratara de uno solo, ya que la membrana de Reissner,
debido a su finura, no supone obstáculo alguno a la transmisión de las vibraciones
entre los fluidos acuosos.
Mi exposición va a seguir el planteamiento propuesto por Jan Schnupp, Israel
Nelken y Andrew King en su libro Auditory Neuroscience, Making Sense of Sound
(The MIT Press, 2011), según el cual la vibración sonora se propaga por el fluido del
canal superior y pasa al canal inferior a través de la membrana basilar justamente
260
en aquellas localizaciones cuya frecuencia natural de vibración coincide con la de
los componentes frecuenciales presentes en el sonido analizado.
Veamos, ası́ pues, las razones por las que la membrana basilar resuena en distintas
localizaciones según la frecuencia de la vibración que recibe.
Como todo movimiento ondulatorio, la vibración sonora tiende a buscar el camino
más fácil, aquél que presenta un obstáculo menor. En la cóclea, la transmisión de
la onda desde el canal superior al inferior se ve afectada por dos fuerzas cuyos
gradientes van en sentido contrario. Por un lado, la rigidez de la membrana basilar
disminuye conforme se aleja de la ventana oval ofreciendo menos resistencia a
la vibración. Por otro, la inercia de los lı́quidos que llenan los canales es mayor
conforme la zona está más alejada de la ventana oval, pues la cantidad de lı́quido
que la vibración tendrá que mover será mayor.
Ası́ mismo, el obstáculo que supone la inercia depende de la frecuencia de la
vibración: cuanto mayor sea la frecuencia, más difı́cil le resultará a la vibración
mover los lı́quidos que llenan los canales de la cóclea. Para entender esto último
nos basta recurrir a una sencilla experiencia: si tratamos de desplazar en vaivén el
lı́quido de una botella a medio llenar comprobaremos que, conforme más rápido lo
queramos hacer oscilar, más nos costará.
Por todo ello, para una frecuencia determinada de la onda vibratoria, el
punto en el que la inercia de los fluidos y la rigidez de la membrana
basilar se compensan será el punto en el que ésta se deformará más,
oscilando en resonancia con esa frecuencia y transmitiendo la vibración
al lı́quido del canal inferior.
El hecho de que cada componente frecuencial de la vibración encuentre su propio
camino para transmitirse desde el conducto superior al conducto inferior hace que
las ondas sonoras se dispersen, produciéndose la descomposición de la señal en sus
componentes sinusoidales. De este modo se realiza el análisis espectral.
Este fenómeno es similar al que ocurre con un rayo de luz al que se le hace pa-
sar a través de un prisma de cristal. En ese caso, cuando las ondas lumı́nicas se
dispersan buscando el camino más eficaz para cada componente frecuencial —es
decir, para cada color— surge el arco iris. En el caso del sonido, la dispersión que
se produce en la cóclea permite que se cree una especie de mapa de frecuencias
en la membrana basilar. Al transmitirse las vibraciones por diferentes zonas de la
membrana según su frecuencia, los componentes sinusoidales que están presentes
en la señal sonora quedan registrados en diferentes localizaciones espaciales. Esta
organización tonotópica va a estar presente a lo largo de todo el camino que lleva
la información sonora al cerebro.
261
Para ayudar a entender todo esto de una manera intuitiva, he fabricado un vı́deo
en el que se simula el comportamiento de un analizador mecánico de frecuencias
con una estructura parecida a la de la cóclea. Se trata de un cilindro que contiene
en su interior dos canales llenos de lı́quido, separados por una membrana elástica
de rigidez variable. Ambos canales están comunicados por una abertura que simula
el helicotrema. Los colores con los que está pintada la membrana siguen la escala
del arcoiris, de manera que los rojos representan las zonas que vibran en resonancia
con las frecuencias bajas y los azules las que vibran con las altas. Por la ventana
superior, que se comporta como la ventana oval, penetra la vibración mecánica
producida por la onda sonora. La ventana inferior, que imita la ventana redonda,
sirve para compensar los aumentos y disminuciones de presión que se crean en el
interior del cilindro. El aumento y disminución de la cantidad de partı́culas que
flotan en el lı́quido simboliza el aumento y la disminución de la presión de los
fluidos.
El vı́deo simula cuatro situaciones vibratorias diferentes, cada una de ellas con un
solo componente sinusoidal: la primera es una vibración cuya frecuencia pertenece
a la zona de los infrasonidos, en torno a los 16 Hz; la segunda tiene una frecuencia
de 220 Hz, un la3 en la afinación convencional; la frecuencia de la tercera es de 880
Hz, un la5 ; y la de la última, 3.520 Hz, un la7 . El vı́deo está ralentizado 440 veces.
El sonido es solamente ilustrativo.
262
En el vı́deo podemos observar que las vibraciones que penetran en el cilindro pasan
del canal superior al inferior por una u otra zona en función de su frecuencia,
haciendo resonar la membrana en diferentes localizaciones, a excepción del primer
caso donde la transmisión de la vibración se realiza por la abertura del final que
simula el helicotrema, de modo que la membrana no se ve afectada.
Al estar el vı́deo muy ralentizado, podemos apreciar cómo la vibración introducida
a través de la ventana elástica superior se compensa mediante la ventana elástica
inferior. Vemos que cada vez que, como consecuencia del movimiento vibratorio,
la ventana superior penetra en el cilindro, el aumento de la presión que se crea en
su interior hace que la ventana inferior se mueva hacia fuera; y, a la inversa, cada
vez que la ventana superior sale hacia fuera, la ventana inferior se mueve hacia
dentro.
El inicio del vı́deo muestra una situación en la que la frecuencia de la vibración
real estarı́a por debajo del rango de los sonidos audibles, es decir, serı́a menor de
20 Hz. Dado que se trata de una frecuencia muy baja, el obstáculo que supone la
inercia del lı́quido es escaso, por lo que el camino elegido por la vibración para
pasar del conducto superior al inferior es la abertura del final. En esta situación
la membrana no sufre ninguna deformación y, por lo tanto, tampoco hay ninguna
percepción de sonido.
El segundo caso ilustra lo que sucede con una frecuencia vibratoria de 220 Hz.
Ahora la inercia del fluido ya supone cierto obstáculo, un obstáculo lo suficien-
temente importante como para que la vibración prefiera vencer la rigidez de la
membrana elástica y pasar a través de ella al canal inferior. Esa zona en la que
vemos oscilar la membrana es la que posee una frecuencia natural de resonancia
de 220 Hz, resultado de la conjunción de las dos fuerzas que crecen o decrecen en
sentido opuesto: la inercia de los fluidos en esa zona para esa frecuencia y la rigidez
de la membrana en ese punto.
El tercer caso se corresponde con un sonido dos octavas más agudo, de 880 Hz,
por lo que el movimiento oscilatorio que vemos en el vı́deo es cuatro veces más
rápido que en el caso anterior. Ahora la oscilación es tan rápida que el obstáculo
que presenta la inercia del lı́quido es mucho más importante, por lo que a la
onda vibratoria le resulta más eficaz pasar al canal inferior en una localización
más próxima a la entrada de la vibración, pues, a pesar de que en ese punto la
membrana presenta ya una resistencia bastante grande, la cantidad de lı́quido que
debe mover es mucho menor.
El cuarto caso presenta la situación correspondiente a un sonido de 3.520 Hz, es
decir, un sonido cuya frecuencia de vibración es cuatro veces mayor que la del caso
anterior y dieciséis veces mayor que el segundo caso del vı́deo. Al ser la vibración
263
muy rápida, el obstáculo derivado de la inercia de los lı́quidos es muy grande, por
lo que la onda vibratoria elige un punto donde tiene que mover menos cantidad de
lı́quido, aunque ahora la resistencia de la membrana sea ya muy grande.
Este vı́deo nos ayuda a entender por qué cada localización de la membrana basilar
a lo largo de su longitud posee una frecuencia natural de resonancia, lo cual explica
la capacidad de la cóclea para transformar los componentes sinusoidales presentes
en la vibración en localizaciones espaciales. A esto es a lo que llamamos la tonotopı́a
de la membrana basilar.
264
relativas que puedan existir entre los componentes sinusoidales de la onda vibrato-
ria. Ası́ pues, el análisis espectral que realiza la membrana basilar no sólo conserva
la amplitud de cada componente, sino también sus diferencias de fase. Esto explica
que, en la medida en la que esta información sea recogida y procesada por nues-
tro cerebro, podamos ser sensibles a fenómenos tales como los batidos de segundo
orden.
Para ilustrar la manera en la que vibra la membrana basilar ante un sonido forma-
do por varios componentes sinusoidales, he creado un vı́deo en el que se simula su
movimiento oscilatorio ante una onda vibratoria que se va haciendo progresivamen-
te más compleja. Se trata de la nota la3 , de 220 Hz, en la que se van introduciendo
nuevos componentes armónicos, con amplitudes y fases diferentes. El vı́deo está
ralentizado y el sonido es solamente ilustrativo.
265
la señal de entrada. Apreciamos también que en cada zona de resonancia no osci-
la solamente un único punto de la membrana —el que tiene la misma frecuencia
natural de resonancia que el componente de entrada—, sino que también osci-
lan, a la misma frecuencia, los puntos vecinos, creándose pequeños montı́culos y
hondonadas.
Como el vı́deo está también ralentizado 440 veces, podemos apreciar que cuando el
componente de 220 Hz, el más grave, hace una oscilación completa han transcurrido
dos segundos, y cuando el siguiente componente, el de 440 Hz, realiza una oscilación
completa ha transcurrido uno, y ası́ sucesivamente.
El principio del vı́deo ilustra la vibración de la membrana basilar cuando el sonido
está formado por un solo componente, el de 220 Hz. Luego, al entrar el segundo
componente, el de 440 Hz, la membrana basilar resuena además en una nueva loca-
lización, más próxima a la zona basal, donde oscila con el doble de frecuencia que
en la primera. Y cuando entra el tercer componente se crea una nueva zona de re-
sonancia, aún más próxima a la zona basal, y su frecuencia de oscilación es el triple
de la primera. Lo mismo sucede cuando entran el cuarto y el quinto componente,
cuyas frecuencias de oscilación son cuatro y cinco veces la de la primera.
Por otra parte, en el vı́deo podemos observar que las oscilaciones de las diferentes
zonas de la membrana basilar conservan la información de la fase relativa que
tenı́an los componentes que constituyen la onda vibratoria. Si paramos el vı́deo en
el momento en el que el componente más grave alcanza su desplazamiento máximo,
podremos apreciar los desfases con los demás componentes. Estos desfases estaban
presentes en la señal de entrada que he fabricado.
266
sensoriales no se limitan a enviar a las terminaciones nerviosas con las que están
conectadas información sobre la zona de la membrana basilar afectada por la re-
sonancia, sino que, al ser contráctiles, pueden alargarse y encogerse cuando son
excitadas por el movimiento de la membrana basilar o de la membrana tectorial,
con las que están en contacto directo.
En efecto, cuando un ramillete de células pilosas externas son afecta-
das por la vibración del punto de la membrana basilar sobre el que se
sitúan, chocan contra la membrana tectorial, de modo que el cuerpo
de estas células se contrae y se dilata, y lo hace siguiendo el ritmo de
la oscilación en ese punto. Ası́, estas células actúan como pequeños motores
que refuerzan el movimiento de la membrana basilar en un punto, incrementando
notablemente la amplitud de la resonancia en la localización exacta sobre la que se
hallan y logrando, por lo tanto, una respuesta más picuda. Esta función de retro-
alimentación es particularmente importante en las señales débiles, donde pueden
llegar a multiplicar por 100 veces la amplitud de la oscilación de un punto de la
membrana basilar.
Este mecanismo de retroalimentación explica, por una parte, el importante margen
perceptivo de la intensidad sonora que poseemos (aproximadamente de 120 dB)
y, por otra, que la anchura de la banda de frecuencias en la que dos componentes
no interfieren entre sı́ sea los suficientemente amplia como para que seamos capa-
ces de distinguir individualmente seis o siete armónicos de un sonido compuesto
(recordemos que los armónicos superiores, aunque no sean individualizables por
nuestra percepción, contribuyen también a la cualidad del sonido).
267
estereocilios sirven para modular la corriente que circula a través del cuerpo de las
células sensoriales.
La primera parte, la conversión de los desplazamientos verticales de
la membrana basilar en movimientos transversales de los estereocilios,
se produce como consecuencia de la fuerza ejercida sobre ellos por la
membrana tectorial. Esta membrana pivota ligeramente arriba y abajo, pero su
pivote es independiente de la membrana basilar, de modo que cuando ésta asciende,
la membrana tectorial crea una fuerza de cizalladura sobre los estereocilios que los
obliga a inclinarse hacia el lado externo de la cóclea —es decir, hacia el estereocilio
más alto—, mientras que cuando la membrana basilar desciende, los hace inclinarse
hacia el lado interno. Veamos un diagrama esquemático de este movimiento en una
imagen obtenida del curso Hearing en OpenLearn Works, de la que solamente he
traducido los nombres.
268
En la posición de equilibrio (b), vemos que la zona de la membrana basilar donde
se encuentra la célula sensorial mantiene su horizontalidad y que los estereocilios
de esa célula están en vertical.
Cuando esa zona de la membrana basilar asciende (a), desplazándose hacia el canal
vestibular, los estereocilios empujan hacia arriba la membrana tectorial, que, al
pivotar ligeramente en el sentido contrario al de las agujas del reloj, se desplaza
un poco también hacia arriba, con lo que provoca una fuerza de cizalladura sobre
los estereocilios que los hace inclinarse en el sentido del estereocilio más alto, es
decir, hacia el exterior de la cóclea (en el dibujo hacia la derecha). Aunque en el
esquema no se puede apreciar, hay que pensar que, al inclinarse en este sentido
los estereocilios, se separan ligeramente unos de otros, de modo que los filamentos
que unen la puerta del canal iónico de cada uno de ellos con su correspondiente
estereocilio adyacente se abre más.
Cuando esa zona de la membrana basilar desciende (c), la membrana tectorial pi-
vota ligeramente en el sentido de las agujas del reloj, desplazándose hacia abajo,
de modo que ahora la fuerza de cizalladura sobre los estereocilios se produce en
sentido inverso, es decir, hacia el interior de la cóclea (en el dibujo hacia la izquier-
da). Entonces los estereocilios se juntan unos con otros, cerrándose las puertas de
los canales iónicos.
Ası́ pues, estas deflecciones de los estereocilios siguen el ritmo y la amplitud de
los movimientos oscilatorios de la membrana basilar donde se asientan. Hay que
tener en cuenta que, conforme mayor sea la amplitud del movimiento de ascenso
o descenso de una determinada localización de la membrana basilar, mayor será
también la amplitud del movimiento transversal de los estereocilios. Por otra parte,
aunque este desplazamiento de los estereocilios es muy pequeño (en un sonido muy
intenso el desplazamiento máximo en la parte superior del estereocilio más alto
es del orden 100 nm), basta que se desplacen menos de un nanómetro para que
percibamos sonido.
La segunda parte, la transformación eléctrica a partir del movimiento
transversal de los estereocilios, es posible gracias a la diferencia de po-
tencial (de unos 80 mV) que existe entre el lı́quido endolinfático del
canal medio, muy rico en iones positivos de potasio (K+), y el lı́quido
perilinfático del canal timpánico, cuyo contenido en iones positivos de
potasio es muy escaso. Debido a que los estereocilios de las células pilosas están
dentro de la endolinfa, mientras que el cuerpo de estas células está en contacto
directo o indirecto con la perilinfa y, al ser totalmente impermeable la lámina que
separa ambos lı́quidos, la única forma en la que se puede establecer una corriente
eléctrica entre estos fluidos es a través del interior de las células sensoriales, cu-
269
yos canales iónicos abiertos en sus estereocilios permiten que penetre un mayor o
menor número de iones positivos.
En efecto, los iones positivos de la endolinfa son atraı́dos por la mayor negatividad
del cuerpo de las células pilosas. Cuando el cuerpo celular recibe estos iones se
positiviza y, en consecuencia, los iones positivos son atraı́dos por las cargas nega-
tivas del lı́quido semejante a la perilinfa que llena las lagunas del órgano de Corti.
Finalmente, los iones positivos son asimilados por la perilinfa del canal timpánico,
debido a la permeabilidad de la membrana basilar al paso de los iones. Y mientras
tanto, la estrı́a vascular se encarga de suministrar constantemente nuevos iones
positivos de potasio a la endolinfa, reponiendo los que va perdiendo.
Pero esa corriente eléctrica no es constante, sino que varı́a según el movimiento
de los estereocilios de las células sensoriales. El movimiento de vaivén de los es-
tereocilios, producido como consecuencia de la oscilación de la localización de la
membrana basilar donde se encuentra la célula sensorial, abre más o menos los
canales iónicos, como acabamos de ver, modulando de ese modo el paso de la
corriente desde la endolinfa a la perilinfa.
Cuando esa localización de la membrana basilar está en una posición de equilibrio
y los estereocilios están en vertical, el flujo de iones de potasio que penetra a través
de sus canales iónicos es reducido, con lo que la corriente eléctrica que atraviese
el cuerpo de la célula será moderada. Cuando esa zona asciende hacia el canal
vestibular, abriéndose más los canales iónicos en los estereocilios, penetran por
ellos muchos más iones de potasio positivos, aumentando la corriente eléctrica.
Y, por el contrario, cuando esa zona de la membrana basilar se desplaza hacia
abajo y se tienden a cerrar los canales iónicos, penetran por ellos una cantidad
más reducida de iones positivos, quedando entonces el flujo de la corriente muy
atenuado. De este modo, el movimiento transversal de carácter mecánico de los
estereocilios se transforma en variaciones de la corriente eléctrica.
Ası́ pues, el resultado de la transducción mecano-eléctrica es que las va-
riaciones de la corriente eléctrica que atraviesa el cuerpo de cada célu-
la sensorial son capaces de reproducir de manera analógica los movi-
mientos oscilatorios de la membrana basilar en la posición en la que se
encuentra la célula. La vibración de ese punto es transformada en una señal
eléctrica analógica, de manera similar a lo que hace un micrófono respecto a las
variaciones de la presión del aire en el lugar en el que está situado. Finalmente,
conviene insistir en que el movimiento de la oscilación de los estereocilios que va
a dar lugar a las oscilaciones de la tensión eléctrica ya no reproduce la forma de
la onda vibratoria que ha llegado a la cóclea a través del estribo, la cual es una
señal en el tiempo, sino la forma de la oscilación que resuena en cada localización
270
de la membrana basilar. Idealmente esta forma es una señal sinusoidal, con sus
propios parámetros de frecuencia, amplitud y fase, resultado de la descomposición
de la señal en el tiempo que ha realizado la membrana basilar para ese componente
concreto.
271
neurona en neurona, dando lugar a una especie de mapa de frecuencias en la zona
del cerebro especializada en la audición.
Puesto que cada célula pilosa interna transmite su información a unas 10 o 12
fibras nerviosas aferentes que son exclusivas para esa célula concreta, la tonotopı́a
por sı́ sola podrı́a explicar nuestra capacidad para apreciar los componentes fre-
cuenciales. Teniendo en cuenta que el rango de frecuencias que distinguimos los
humanos va desde 20 Hz a 20.000 Hz (es decir, prácticamente 10 octavas ó 120 se-
mitonos) y puesto que contamos con una hilera de aproximadamente 3.500 células
pilosas internas, podemos deducir que la separación interválica entre las células
sensoriales internas se corresponde aproximadamente a unas tres centésimas de
semitono (120/3500 = 0,0343). Este margen viene a coincidir con las mediciones
psicoacústicas sobre nuestra capacidad para apreciar las diferencias mı́nimas entre
intervalos sucesivos.
Además, la información sobre la frecuencia también lleva consigo la información
sobre la amplitud. Una parte importante de esas 10 ó 12 neuronas que hacen
sinapsis con cada célula pilosa interna transmiten la información de la amplitud
mediante su tasa de disparos. Cuando la amplitud de la oscilación eléctrica en
el cuerpo de la célula sensorial es grande, el número de disparos por segundo de
cada neurona es elevado, mientras que si la amplitud es pequeña hay un reducido
número de disparos por segundo (el número máximo de disparos que es capaz de
efectuar una neurona está en torno a los 500 disparos por segundo). Ası́ mismo, el
número de neuronas pertenecientes a cada célula sensorial que resultan activadas
es mayor cuanto mayor sea la amplitud de la oscilación eléctrica.
La combinación de estos dos medios, tonotopı́a y tasa de disparos de
las neuronas, pueden constituir los mecanismos básicos por los que se
codifica la frecuencia y la amplitud. Sin embargo, no son suficientes para
explicar fenómenos psicoacústicos, tales como la detección de la fase relativa entre
los componentes, como ocurre, por ejemplo, cuando oı́mos los batidos de segundo
orden.
El elevado número de conexiones neuronales por cada célula sensorial interna invita
a pensar que pudieran existir otros mecanismos complementarios que refuercen
y precisen esa codificación. Por un lado, parece ser que alguna de las neuronas
a las que están conectadas las células pilosas están especializadas en dispararse
cuando la oscilación eléctrica de la célula pasa por un máximo. Y esto, en principio,
ocurre de forma periódica, pues cada célula que transmite la resonancia de la
membrana basilar debe oscilar con un movimiento armónico simple. Esto implica
que si la frecuencia de oscilación eléctrica es baja, la neurona tendrá tiempo para
rearmarse y disparará un impulso por cada máximo, pero si la frecuencia de la
272
oscilación es alta, no podrá rearmarse y disparará cada dos, cada tres o cada más
máximos. El resultado será un tren de impulsos que, aunque tenga lagunas, será
predominantemente periódico. Estas lagunas podrán ser completadas por otras
neuronas de esa célula especializadas en este mecanismo, actuando en su conjunto
como si estuvieran jugando un partido de voleibol.
Ası́ pues, el disparo de estas neuronas no tendrı́a que ver con la amplitud, sino con
la fase de la oscilación, es decir, con un estado de la oscilación, el punto en el que
se alcanza el máximo. Este mecanismo, que se denomina bloqueo de fase,
servirı́a para reforzar la codificación de la frecuencia y también para
trasmitir la información de fase relativa entre los componentes de una
señal.
Hay que tener en cuenta que, aunque como consecuencia del derrame espectral
las células pilosas internas vecinas también oscilarán, lo harán no a su frecuencia
natural de resonancia, sino a la del componente frecuencial presente en la señal de
entrada. Por ello, el tren de impulsos enviado por las neuronas vecinas especiali-
zadas en este mecanismo de bloqueo de fase tendrá siempre la misma frecuencia,
lo que explicarı́a, entre otras cosas, la percepción de los batidos de segundo or-
den.
Por otra parte, en lo que concierne a la codificación de la amplitud, contamos con
dos medios complementarios. El primero es la mayor o menor extensión de
la zona afectada por el derrame espectral, es decir, el número de células
vecinas estimuladas por la presencia de un determinado componente
frecuencial presente en la señal de entrada. Conforme mayor sea la amplitud
del componente, mayor número de células vecinas se verán afectadas. El segundo
es que la información que transmite la neurona aferente conectada a
un pequeño grupo de células pilosas externas contribuye a codificar la
mayor o menor amplitud de la pequeña zona en la que están ubicadas.
Dado que estas células pilosas externas son las encargadas de retroalimentar los
movimientos resonantes de la membrana basilar, la mayor o menor tasa de disparos
de la neurona a la que están conectadas contribuirá a informar sobre la mayor o
menor amplitud de la oscilación en esa zona.
Ası́ pues, la forma en la que se realiza la codificación de la información auditi-
va explica que, a pesar de que nuestra audición es esencialmente frecuencial (es
decir, procede del análisis espectral realizado mecánicamente por la membrana ba-
silar), haya tanta coincidencia, como hemos podido comprobar en otros capı́tulos,
entre lo que vemos en la forma temporal de la vibración sonora y el sonido que
percibimos.
273
Todo este conjunto de mecanismos neuronales que sirven para codificar las señales
analógicas provenientes de las células pilosas del órgano de Corti suministran la
base sobre la cual se realizan complejos algoritmos de procesamiento de la infor-
mación auditiva, a lo largo de los diversos centros cerebrales por los que atraviesa.
Pero el funcionamiento preciso de todo ello no es todavı́a suficientemente conocido
y se escapa del objetivo de este capı́tulo.
12.7. Conclusión
Podemos concluir que nuestra percepción del sonido se fundamenta en el análisis
frecuencial que se realiza en la membrana basilar en el interior de la cóclea. La
evidente afinidad entre la forma de la vibración y nuestra percepción auditiva
se debe a que el analizador mecánico de la cóclea conserva una gran parte de
la información que se encuentra en la señal en el tiempo, pues no sólo recoge y
transmite la amplitud de cada componente presente en la señal, sino que también
atiende en cierta medida a la fase. La gran densidad de información frecuencial que
llega a nuestro cerebro le permite recuperar una parte importante del contenido
temporal de la señal sonora.
274
Capı́tulo 13
Psicoacústica musical
13.1. Introducción
A pesar de que la información musical llega hasta nuestros oı́dos totalmente mez-
clada en la vibración mecánica sobre la que viaja, nuestro sistema auditivo es capaz
de determinar los sonidos musicales que contiene. De la misma manera que en la
visión tenemos la capacidad de distinguir la figura del fondo e individualizar los
múltiples objetos que ocupan la escena visual, en la percepción auditiva podemos
aislar cada una de las entidades sonoras del entorno acústico en el que están in-
mersas, ası́ como recuperar la unidad de los sonidos musicales dados por la voz o
los instrumentos, los cuales, debido a la propia fisiologı́a de nuestro oı́do, han sido
previamente divididos en sus componentes frecuenciales.
Este capı́tulo estudia la capacidad de nuestra percepción para reconocer objetos
musicales en un contexto sonoro y para reconstruir su unidad. Si bien en cier-
ta medida esta capacidad está condicionada por las caracterı́sticas fisiológicas de
nuestra audición, el proceso mediante el cual percibimos el sonido musical es de
orden superior. En efecto, nuestra percepción musical es el resultado de la manera
en la que nuestro cerebro procesa los impulsos nerviosos producidos por la cóclea
al codificar la vibración sonora. A dı́a de hoy sólo tenemos ideas de carácter muy
general sobre el proceso que realizan los diferentes núcleos cerebrales relacionados
con la audición. Pero, aunque conociéramos con detenimiento los mecanismos neu-
rológicos mediante los cuales se procesa la información acústica en el cerebro, lo
que nos interesarı́a siempre conocer es la imagen psicoacústica que construimos a
partir de esa información.
275
Examinaremos, en primer lugar, las limitaciones para la percepción del objeto so-
noro que vienen dadas por la fisiologı́a de nuestro oı́do, tales como las que afectan
a la identificación de un sonido simple en un ambiente ruidoso o, dicho de otra ma-
nera, el enmascaramiento al que da lugar la coexistencia de diversos componentes
en zonas próximas del espectro. En segundo lugar, veremos que nuestra capaci-
dad para recuperar la unidad del objeto sonoro musical viene dada por nuestra
predisposición natural para el reconocimiento del patrón armónico. Y en tercer
lugar estudiaremos cómo el reconocimiento de un patrón armónico, o de una es-
tructura que lo recuerde, explica la percepción de la consonancia entre sonidos
armónicos compuestos y cómo también en las consonancias musicales podemos
seguir percibiendo la individualidad de cada uno de los sonidos que forman parte
de la mezcla gracias a nuestra capacidad para detectar las marcas tı́mbricas que
los individualizan.
Vamos a dejar al margen las cuestiones relacionadas con la percepción de la es-
pacialidad y con todo lo que se deriva del hecho de que tengamos dos oı́dos. La
capacidad de nuestro sistema auditivo para localizar la procedencia de la fuente
sonora es un tema de interés para la tecnologı́a musical, en especial para lograr una
reproducción sonora que nos devuelva el sonido de la forma más natural posible.
Pero, dado que esta cuestión no es determinante para comprender los fundamen-
tos psicoacústicos del lenguaje musical, vamos a prescindir en este capı́tulo de
ella.
Finalmente, hay que tener en cuenta que la capacidad de reconocimiento del sonido
musical depende, en buena medida, del entrenamiento del oyente, es decir, de su
mayor o menor dedicación a la música.
276
basilar en un punto afecta también a los puntos que están próximos, tal como
hemos visto en el capı́tulo dedicado a la fisiologı́a de la audición.
Para permitir experimentar este fenómeno voy a presentar, a modo de ejemplo,
un vı́deo con el caso más sencillo de distinción de fondo y figura en el paisaje
sonoro: la percepción de un sonido simple en un entorno ruidoso. Ahora nos interesa
solamente comprobar que la percepción de un sonido simple con una determinada
intensidad mantenida se facilita de forma significativa cuando se encuentra en una
zona libre de otros componentes. Este caso, realizado con sonidos de laboratorio,
nos servirá para entender la manera en la que nuestra percepción está condicionada
por la fisiologı́a de nuestro oı́do. Para evitar que los otros componentes puedan
provocar efectos de batidos e interferencias que obstaculizarı́an nuestra percepción
del fenómeno, he elegido como elemento perturbador una banda de ruido. En
este ejemplo el fondo consiste precisamente en esta banda de ruido, mientras que
la figura está formada por dos sonidos simples que a lo largo de todo el vı́deo
mantienen la misma amplitud y, por lo tanto, la misma intensidad. Se trata de un
la4 (440 Hz) cuya amplitud es de 0,005 (en unidades arbitrarias normalizadas como
siempre entre 0 y 1) y de un la6 (1.760 Hz) cuya amplitud es de 0,3. La diferencia
entre la intensidad de ambas señales es de 36 dB. La banda de ruido se extiende
durante los seis primeros segundos unos 1.000 Hz arriba y abajo del componente
agudo. A partir del segundo 6 se abre un hueco en esta banda de ruido que va
progresivamente separándose del componente agudo.
Al disminuir la anchura de banda del ruido, disminuye también su intensidad. Si el
objetivo de este vı́deo fuera ser utilizado como un test para ver en qué condiciones
es posible identificar un componente —es decir, medir la anchura de la banda
crı́tica—, la intensidad del ruido deberı́a haberse mantenido constante, aunque
disminuyera la anchura de su banda. Pero nuestro objetivo ahora es simplemente
ilustrar la diferencia entre la percepción que se produce en una banda ocupada y
en otra sin ocupar. Que la intensidad del ruido no se adapte a la disminución de
su anchura de banda nos facilita esta tarea.
277
Figura 13.1: Vı́deo que permite experimentar la percepción de sonidos simples en
presencia de ruido.
Durante los primeros 6 segundos del vı́deo podemos comprobar que el componente
de 440 Hz (la nota la4 que en el espectrograma corresponde a la lı́nea horizontal
inferior que casi no se ve) se oye con toda claridad, acompañada de un ruido de
carácter más agudo; sin embargo, no somos capaces de oı́r el componente de 1.760
Hz, a pesar de que en el espectrograma lo podemos ver sin dificultad en medio de
la banda ruidosa. A partir del segundo 6 el carácter del ruido va cambiando: en
el espectrograma vemos que en medio del ruido va abriéndose un hueco que se va
ensanchando progresivamente para dejar libre las bandas próximas al componente
de 1.760 Hz. Por ello el componente de 440 Hz siguen oyéndose con el mismo volu-
men sonoro que antes, pero hasta pasado el segundo 10 no empezamos a percibir
ligeramente el componente agudo de 1.760 Hz, el corrrespondiente a la nota la6
(dependiendo del volumen de nuestro reproductor y de la atención que prestemos a
su aparición podemos oı́rlo un poco antes o un poco después). Nuestra percepción
del componente agudo llega a ser cada vez más clara, hasta que, en un momento
determinado, ya no cambia y al final percibimos con claridad los dos componentes
individuales, manteniendo cada uno de ellos su propio volumen sonoro. Este efecto
se aprecia más claramente conforme va disminuyendo la intensidad del ruido y
reduciéndose la anchura de su banda.
Este fenómeno psicoacústico del enmascaramiento es utilizado por los compresores
de sonido para disminuir la codificación necesaria en función de nuestras capaci-
dades para distinguir los componentes próximos.
278
13.3. El reconocimiento del patrón armónico
En la naturaleza hay muchos sonidos que surgen en condiciones estacionarias, por
ejemplo, las cuerdas que vibran, las columnas de aire que resuenan en cavidades,
los ruidos emitidos por muchos animales, el viento que silba en las grutas, etc. Por
ello el sonido armónico es tan abundante en la naturaleza. Entre los humanos, el
sonido armónico no sólo constituye el material con el que se construye la música,
sino que también sirve de soporte para la articulación del lenguaje hablado, como
es el caso de las vocales. Esta familiaridad con un entorno sonoro armónico explica
de algún modo nuestra predisposición natural para reconocerlo.
A nuestro cerebro llega, a través del nervio auditivo, la descomposición espectral
de la vibración mecánica que ha realizado el oı́do interno y es nuestro cerebro el
que lleva a cabo la tarea de reunir todos esos componentes dispersos para recuperar
la unidad del objeto sonoro armónico. En nuestra mente se realizan una serie de
procesos psicoacústicos encaminados al reconocimiento del patrón armónico de ca-
da objeto musical mediante el cual agrupamos los componentes e identificamos las
notas. Hay que tener en cuenta que identificar una nota musical, o el intervalo que
forma con otra, no significa darle un nombre concreto; es un proceso inconsciente
para la mayor parte de las personas, pero que nos permite entender y recordar
una melodı́a. Por ejemplo, si se cambia una nota por otra en una canción conocida
casi todos los oyentes se darán cuenta; y eso ocurrirá con independencia de que
sepan o no música, ni de que sean capaces o no de nombrar la nota o las notas que
esperaban escuchar.
La identificación de un sonido armónico no se debe a que percibamos
su periodicidad en la forma de la vibración resultante, sino a que la
estructura de sus componentes frecuenciales se corresponde con una
estructura armónica. Ası́ pues, el reconocimiento del patrón armónico se pro-
duce por los intentos de nuestro sistema perceptivo por organizar en estructuras
armónicas todo el material sonoro que recibe.
En lı́neas generales, el reconocimiento del patrón armónico obedece a las leyes
de la Gestalt en su aplicación al material sonoro. Vamos a ver a continuación
que La ley de la completitud de la figura explica cómo reconstruimos un patrón
armónico en un sonido en el que hay muchos huecos dentro de la serie armónica.
Voy a presentar dos vı́deos que nos van a permitir observar la manera en la que
nuestra percepción auditiva organiza el material sonoro según la serie armónica,
completando los huecos que el sonido musical pudiera tener. En el primero mostraré
cómo reconocemos una nota musical en un sonido en el que faltan un buen número
de los primeros componentes. En el segundo veremos que seguimos identificando
la misma nota incluso cuando se le quitan sus primeros armónicos.
279
En el primer vı́deo tenemos el espectrograma de la nota más grave de un sonido
de piano, el la0 , cuya frecuencia es de 27,5 Hz. El sonido procede de una grabación
doméstica realizada con un piano vertical, donde el número e importancia de los
componentes graves es considerablemente menor que en un piano de gran cola. El
espectrograma ha sido realizado con una ventana de larga duración (0,2 segundos),
pues aquı́ nos interesa observar la frecuencia de los componentes, más que su
evolución temporal.
Todos reconocerı́amos aquı́ un la0 , la nota más grave del piano, con lo que, en
principio, deberı́amos ver en el espectrograma su primer armónico, es decir, el
componente de 27,5 Hz. Sin embargo, el armónico más grave que aparece en el
espectrograma es el cuarto, con una frecuencia de 110 Hz; luego el quinto, el
sexto y el séptimo, separados aproximadamente por una distancia de 27,5 Hz. El
octavo armónico no está, pero desde el noveno hasta el decimosexto vemos que
son todos consecutivos. Si seguimos hacia la parte alta del espectro observamos
una considerable cantidad de componentes armónicos, todos ellos separados entre
sı́, salvo en los casos en los que hay huecos, por una distancia de 27,5 Hz o un
poco más (hay que tener en cuenta que la ligera inarmonicidad del piano hace
que se vayan separando progresivamente). En cuanto a la energı́a que aporta cada
armónico al sonido y que afecta a su timbre, podemos apreciar que el duodécimo
es el que tiene mayor amplitud y, por lo tanto, mayor intensidad.
280
Ahora bien, a pesar de las importantes lagunas en la estructura armónica de es-
ta nota la0 e incluso de la ausencia de los primeros armónicos, nuestro sistema
perceptivo ha apreciado varios rasgos que le han ayudado en la tarea de su recons-
trucción y en la recuperación de la unidad de esa nota la0 . Ha reconocido que la
distancia que más abunda entre los diferentes componentes es de unos 27,5 Hz.
También ha apreciado los rasgos comunes que hay entre los componentes de la
nota la0 : coincidencia en el tiempo del ataque, forma similar en el ataque, hori-
zontalidad, atenuación exponencial, etc. Y a partir de todo ello ha reconocido que
todos esos componentes forman parte de la nota de piano la0 , con independencia
de que sepamos nombrarla o no. Gracias a esta capacidad de nuestra percepción
auditiva podemos oı́r las notas graves de cualquier obra musical en un reproductor
de música de no muy buena calidad, a pesar de que, en lı́neas generales, éstos no
acostumbran a reproducir frecuencias más bajas de 50 Hz.
En el segundo vı́deo he elegido un ejemplo diferente. Empezamos oyendo la nota
la2 del piano (110 Hz), pero en los sucesivos ataques le he ido quitando de for-
ma artificial diferentes componentes de la estructura armónica. La duración de la
ventana de análisis ha sido en esta ocasión 0,08 segundos, pues he pensado que,
al estar los componentes más separados, esta duración era ya suficiente para apre-
ciar con claridad la estructura armónica (insisto en que ahora nos interesa ver los
componentes frecuenciales de la estructura, no su evolución temporal).
Figura 13.3: Vı́deo con el espectrograma de la nota la2 de un piano a la que se le quitan
progresivamente sucesivos armónicos.
281
Podemos comprobar que, aunque vayan cambiando las cualidades sonoras de la
nota, en las tres ocasiones escuchamos un la2 . En el primer caso, tenemos la nota
emitida por el piano sin modificación alguna. La estructura armónica está comple-
ta: se aprecian claramente los primeros doce armónicos, se insinúan el decimoter-
cero y el decimocuarto, y el decimoquinto aparece con claridad, aunque de forma
intermitente. En el segundo caso he eliminado el primero y el segundo armónico,
pero los cambios producidos en el sonido han sido escasos: una cierta pérdida de
graves en la cualidad sonora que solamente será apreciada en un reproductor con
suficiente calidad. En el tercer caso he eliminado los cinco primeros armónicos.
Apreciamos ahora que el cambio en la cualidad sonora ha sido muy importante,
casi no parece una nota de piano, pero la identificación de la altura tonal de la
nota como un la2 no ha sufrido en absoluto.
Ası́ pues, con estos dos ejemplos hemos podido experimentar cómo actúa nuestra
percepción auditiva para reconocer la estructura del objeto, incluso cuando la
serie armónica presenta numerosas lagunas, e identificar de esta manera las notas
musicales.
282
dualizados complejos y distintos, tal como surgen de la voz y de los instrumentos,
cada uno con su propia marca tı́mbrica.
Cuando dos notas suenan a la vez puede ocurrir, o bien que permanezcan indepen-
dientes una de la otra, o bien que se acoplen y produzcan una mezcla consonante.
En el capı́tulo 6 vimos que la consonancia entre sonidos simples se debe a que la
mezcla resultante tiene una periodicidad que nuestro sistema auditivo es capaz de
reconocer y que esa periodicidad viene dada por la conmensurabilidad próxima
entre sus frecuencias. Pero en la mayor parte de las ocasiones los sonidos musicales
son compuestos, es decir, están formados por un buen número de componentes
cuyas frecuencias forman entre sı́ una estructura armónica. En estos casos, la per-
cepción de la consonancia está en relación directa con la posibilidad de organizar
los componentes de la mezcla resultante en una nueva estructura armónica más
o menos completa. Dicho de otra manera, la combinación de los componentes de
los sonidos musicales que intervienen en la mezcla ha de formar una estructura lo
suficientemente armónica como para que nuestra mente sea capaz de reconocerla,
completando los elementos que faltan si es necesario. Cuando eso sucede nosotros
percibimos la mezcla resultante como una entidad musical a la que llamamos conso-
nancia. En este sentido podemos decir que la consonancia se produce cuando
al mezclarse dos o más sonidos musicales se crea una nueva estructura
armónica o casi armónica.
Pero la mezcla consonante no es una combinación de componentes simples en la
que cada uno de ellos se disuelve y desaparece, como hemos visto que ocurre cuando
se combinan componentes sinusoidales para formar el sonido armónico compuesto.
Las marcas tı́mbricas que caracterizan a cada sonido impiden que la mezcla se
comporte como una mera suma de componentes sinusoidales que darı́a lugar a
un nuevo y único sonido. Por el contrario, cuando se unen sonidos consonantes,
cada uno de ellos sigue estando presente en el sonido resultante, de modo que,
si prestamos atención, podemos seguir distinguiendo cada uno de los sonidos que
se mezclan. Salvo cuando los intérpretes pretenden anular las individualidades y
fundirlas en una masa coral, como ocurre con las diferentes secciones de cuerda de
una orquesta, el timbre de cada sonido de algún modo permanece y deja su huella
en la textura de la mezcla consonante.
En realidad, éste es el sentido preciso del concepto de “armonı́a”, concepto que se
fundamenta en la consonancia natural y que tanto ha influido en el pensamiento
de Occidente. La armonı́a es la buena mezcla, la mezcla hecha de tal modo que
resulta una nueva entidad más rica y compleja, un conjunto bien trabado, pero
un conjunto en el que las partes no se disuelven, sino que siguen manteniendo su
individualidad.
283
Para comprender en qué consiste la consonancia entendida como mezcla, ası́ como
para observar los diversos tipos de consonancias naturales, voy a presentar varios
vı́deos en los que los sonidos van acompañados de su correspondiente espectro-
grama. En los ejemplos suena primero cada una de las dos notas por separado y
luego el sonido resultante de su “emisión simultánea”. Esta “emisón simultánea”
ha sido simulada mezclando las dos notas con ayuda de un editor de sonido, con
la finalidad de que las notas presentes en la combinación sean exactamente las
mismas que las que han sido emitidas por separado.
Figura 13.4: Vı́deo con el espectrograma de una nota de piano y otra de violı́n al
unı́sono.
284
Oigamos cómo suenan y paremos luego el vı́deo en cualquier momento para ver
el espectrograma. La columna izquierda del espectrograma corresponde al sol3 del
piano, la columna del medio al sol3 del violı́n y la de la derecha a la emisión
simultánea de ambas notas. En el espectrograma observamos que el número y
la estructura de los componentes frecuenciales de las dos notas simultáneas (los
armónicos de la columna de la derecha) vienen a ser el resultado de la combinación
de los componentes de las dos notas emitidas por separado (los de las columnas
de la izquierda y del medio). Enseguida entendemos por qué las dos notas se han
mezclado tan bien. En efecto, comprobamos que ambas notas comparten un buen
número de sus componentes frecuenciales, lo que era de esperar al tratarse de
un unı́sono. Observamos, además, que la combinación resultante también posee
un patrón armónico. En una primera ojeada, y especialmente si atendemos solo
a los siete primeros componentes, podrı́amos pensar que estamos ante un único
sonido individual, pues en la estructura frecuencial no encontramos nada de parti-
cular diferente de la que posee un único sonido armónico compuesto. La capacidad
de nuestra percepción musical para reconocer el patrón armónico ha funcionado
también aquı́: ha reunificado los componentes frecuenciales y ha reconstruido una
nueva unidad.
Ahora bien, la cosa no es tan sencilla. Con esto queda explicada solamente la parte
unitaria de la mezcla consonante, el hecho de que estos sonidos se mezclen bien y
den como resultado una nueva unidad; pero nos falta entender por qué en la mezcla
se sigue reconociendo el sonido de las dos notas, la de piano y la de violı́n, es decir,
por qué, a pesar de esa buena mezcla, se conservan los elementos individuales. En
efecto, si volvemos a escuchar el ejemplo, nos damos cuenta de que en la emisión
simultánea también podemos seguir oyendo con claridad cada una de las dos notas:
en función de sus propias dinámicas hay momentos en los que el piano se destaca
más (como por ejemplo, en el ataque) y hay otros en los que es el violı́n el que
domina (como sucede cuando el volumen de la nota de violı́n se mantiene elevado
mientras la nota de piano se encuentra ya muy amortiguada).
Tendremos que fijarnos con más detenimiento en el espectrograma para entender
por qué se siguen oyendo las dos notas individuales. En muchos componentes de la
columna de la derecha (la de las dos notas simultáneas) reconocemos las mismas
marcas tı́mbricas especı́ficas del piano o del violı́n que están en los respectivos
componentes de las notas dadas por separado (las columnas izquierda y central).
Por ejemplo, vemos que ese punto luminoso que destaca en el primer componente
de la nota de piano sola o esa lı́nea vertical que señala el ruido inicial del ataque
aparecen de nuevo en los componentes del sonido mezclado; y también que ese
dibujo de la nota de violı́n solo, que indica que se está manteniendo la amplitud sin
amortiguación, se repite en los componentes de las dos notas mezcladas, igual que
285
se repite el elevado número de componentes armónicos superiores y su permanencia
en el tiempo. Podemos concluir, ası́ pues, que en la mezcla consonante se conservan
buena parte de los rasgos tı́mbricos de cada uno de los sonidos individuales que la
componen, lo que explica que percibamos una nota de piano y otra de violı́n dadas
simultáneamente y no un único sonido con otro timbre diferente.
Pero hay también otros elementos que se pueden observar en la mezcla y que no
están en los sonidos individuales. Podrı́amos decir que son algo ası́ como los efec-
tos colaterales de la mezcla. En el armónico sexto y en otros superiores podemos
observar unas discontinuidades —que en el oı́do se traducen en la percepción de
pequeños batidos—, las cuales son el resultado de la inarmonicidad de los compo-
nentes del piano interactuando con la armonicidad casi total de los componentes
de violı́n. En efecto, la progresiva “desafinación” de los componentes superiores
del piano choca con la afinación casi perfecta del violı́n y provoca esas interfe-
rencias. Este abrirse de los componentes frecuenciales de las notas del piano, que
contribuye a mantener la individualidad de cada una de las notas emitidas, llega
a plasmarse en los armónicos superiores en las dos lı́neas distintas y próximas que
se aprecian en la columna derecha del espectrograma.
Ası́ pues, hasta aquı́ hemos podido comprobar que la consonancia consiste en la
combinación de dos condiciones aparentemente opuestas. Por un lado, la posibili-
dad de que dos sonidos distintos emitidos simultáneamente sean reconocidos como
uno solo: al compartir un buen número de componentes frecuenciales y al poseer
un patrón armónico, el resultado de la combinación de dos sonidos consonantes
es una nueva entidad sonora unitaria. Y, por otro, la pervivencia en la mezcla, en
esa nueva entidad sonora que ha surgido, de ciertos rasgos propios de cada uno
de los sonidos individuales, lo que impiden la disolución total de las partes. Todo
esto explica que haya instrumentos que se amalgamen más o menos, que empasten
entre sı́ mejor o peor. Y también que la combinación de piano y violı́n, en la que
se mantiene muy bien la individualidad de los sonidos, haya obtenido un amplio
reconocimiento en la literatura musical clásica.
Veamos el caso opuesto, aquél en el que las notas no se mezclan y se produce la
disonancia. Utilizo la misma combinación de piano y violı́n.
286
Figura 13.5: Vı́deo con el espectrograma de una nota de piano y otra de violı́n formando
un intervalo de séptima menor.
287
y conforme el patrón armónico del sonido resultante sea más completo, sin huecos
en su estructura, mayor será el grado de su consonancia. Lo que hace que dos
notas sean más o menos consonantes es el grado de conmensurabilidad entre sus
frecuencias: cuanto más próxima, más consonante es la mezcla. La progresión es
la siguiente: unı́sono 1:1 (igual); octava 2:1 (doble); octava y quinta 3:1 (triple);
doble octava 4:1 (cuádruple); quinta 3:2 (sesquiáltera); y cuarta 4:3 (sesquitercia).
Más allá de estas razones la consonacia desaparece. Los nombres de los intervalos
consonantes proceden de su orden en la escala de referencia que fue ya formulada
por los teóricos musicales griegos.
Veamos ahora algunas situaciones en las que las mezclas de dos sonidos, aun siendo
consonantes, no son tan perfectas como el unı́sono. Me voy a limitar a analizar los
intervalos consonantes que no superan el marco de la octava. Estos son, en orden
de mayor a menor grado de integración de sus sonidos, los siguientes: la octava, la
quinta y la cuarta. La frecuencia de una nota que está a una octava superior es
el doble de la frecuencia de la nota inferior; la de una quinta es 3:2 veces la de la
nota inferior, y la de la cuarta es de 4:3.
Comienzo con el intervalo de octava. Veamos, ası́ pues, un ejemplo en el que he
juntado la nota sol3 del violı́n anterior y la nota sol4 dada ahora por un clarinete
en sib. Las notas no están perfectamente afinadas. La frecuencia de la nota de
violı́n es de 195,9 Hz y la de la nota de clarinete es de 394,5 Hz. Por eso el
primer armónico de la nota de clarinete (394,5 Hz) está ligeramente más alto que el
segundo armónico de la nota de violı́n (195,9 x 2 = 391,8 Hz). Pero estas diferencias
no son significativas y lo que nos interesa es experimentar lo que ocurre cuando
se mezclan sonidos reales, como sucede de ordinario en la música, no situaciones
teóricas de laboratorio.
288
Figura 13.6: Vı́deo con el espectrograma de una nota de violı́n y otra de clarinete
formando un intervalo de octava.
Los componentes de una nota que está a un intervalo de octava superior tienen to-
dos la frecuencia doble del componente equivalente de la nota que está una octava
baja. Lo podemos verificar fácilmente al observar la estructura de los componentes
correspondiente a la nota de clarinete emitida sola. Recordemos también que el
sonido del clarinete se caracteriza, en general, por el predominio de los armónicos
impares, como también podemos observar en este espectrograma. No obstante,
en la estructura de los componentes correspondiente a las dos notas emitidas si-
multáneamente también vemos con claridad la presencia de un patrón armónico.
En principio podrı́amos decir que se trata de un solo sonido armónico. El primer
armónico pasa casi totalmente desapercibido, pues también pasa desapercibido en
la nota aislada de violı́n y el clarinete no puede añadir nada, ya que su espectro
no forma parte de la composición de esa nota que está a octava superior. Pero el
resto de los componentes sı́ están presentes, con mayor o menor importancia. Esa
estructura armónica hace que nuestra percepción reconozca allı́ una unidad sonora,
un sonido armónico. El grado de integración de los componentes es también muy
elevado, casi equiparable al del unı́sono. Y también observamos ahora la perma-
nencia de las marcas tı́mbricas individuales de cada uno de los sonidos. Ası́, por
ejemplo, podemos fijarnos en el predominio de los componentes impares, propio de
la sonoridad del clarinete, o en la riqueza de los armónicos superiores caracterı́sti-
ca de la nota de violı́n. Por otra parte, surgen también una serie de fenómenos
nuevos resultantes de la mezcla, como la aparición de esas intermitencias en nu-
merosos componentes que son el resultado de las ligeras diferencias en afinación
entre los dos instrumentos, como hemos visto al estudiar los batidos. Resumiendo,
podemos decir aquı́ algo muy similar a lo que dijimos acerca del unı́sono: se reco-
289
noce claramente un patrón armónico que explica la fusión y se mantienen a la vez
ciertas peculiaridades tı́mbricas que justifican la permanencia de la individualidad
de cada uno de los sonidos constitutivos de la mezcla. La relación de octava —es
decir, la relación 2 a 1, que es una conmensurabilidad muy cercana— da lugar a
un intervalo claramente consonante.
Veamos ahora lo que sucede en el caso de intervalos cuya conmensurabilidad no
es ya tan inmediata. Los ejemplos que voy a presentar a continuación tienen como
caracterı́stica común que los sonidos que constituyen el intervalo consonante pro-
ceden del mismo instrumento, un piano. En el primer ejemplo examinaremos lo que
sucede en un intervalo de quinta, donde la relación entre sus frecuencias es de 3:2
(relación sesquiáltera); y en el segundo ejemplo analizaremos cómo se comporta un
intervalo de cuarta, cuyas frecuencias están en la relación 4:3 (sesquitercia). Para
facilitar la observación he elegido unas notas del registro medio-agudo, donde el
número de componentes por nota es ya relativamente bajo.
Figura 13.7: Vı́deo con el espectrograma de dos notas de piano formando un intervalo
de quinta.
290
mezcla, en la columna de la derecha, es posible percibir una cierta aproximación
a un patrón armónico, si bien imperfecto. Este patrón armónico tendrı́a como
fundamental un supuesto primer armónico, cuya frecuencia serı́a la mitad de la
del primer armónico de la nota la4 y la tercera parte de la de la nota mi5 , pues
el componente fundamental del sonido mezclado habrá de ser el máximo común
divisor de los fundamentales de las dos notas que han intervenido en la mezcla
(es decir, con independencia del margen debido al temperamento, 220 Hz). En
la descomposición espectral del sonido mezclado —el de columna derecha— no
aparece como es lógico ese supuesto primer armónico, pero podemos deducirlo
de la estructura armónica, en la cual podemos observar que los componentes se
corresponden con los de las notas sin mezclar: el segundo armónico coincide con
el primer armónico de la nota aislada la4 ; el tercer armónico es el mismo que
el primer armónico de la nota mi5 ; el cuarto armónico es el segundo armónico
de la nota la4 ; el quinto armónico está ausente, ya que no podrı́a corresponder
a ningún componente armónico de ninguno de los dos sonidos aislados; el sexto
armónico es el resultado de la aportación de ambos sonidos originales (el tercer
armónico de la4 y el segundo de mi5 ); y ası́ sucesivamente. Es decir, es posible
detectar un cierto patrón armónico, pero lleno de huecos. Si a esta deficiencia en
la estructura armónica del sonido mezclado unimos la fuerte pervivencia de las
marcas individuales de cada uno de los sonidos emitidos (entre otras, el ataque
individual, claramente destacado, de cada uno de las notas aisladas que queda
reflejado en las correspondientes marcas luminosas iniciales), el resultado es la
prevalencia de la percepción individualizada de los sonidos. En efecto, en el vı́deo
podemos apreciar que las notas se mezclan, pero su integración sonora es mucho
menor que la de la consonancia de octava. Ello se debe, sobre todo, a que la
estructura armónica está llena de huecos. Las marcas tı́mbricas individuales, al
pertenecer al mismo instrumento e incluso al mismo registro y estar dadas con
el mismo tipo de ataque, son menores, pero son lo suficientemente significativas
como para mantener la individualidad de los sonidos. Hay que añadir también una
circunstancia que pertenece a nuestro sistema cognitivo: sabemos cómo suena una
nota aislada de piano, por lo que ese doble ataque que oı́mos en el sonido mezclado
no nos confunde, sino que percibimos dos sonidos emitidos simultáneamente y no
uno solo.
Algo similar, pero con un menor grado de integración todavı́a, ocurre en el caso
de la consonancia de cuarta, aquella que se establece entre dos sonidos cuyas
frecuencias están en una relación 4:3.
291
Figura 13.8: Vı́deo con el espectrograma de dos notas de piano formando un intervalo
de cuarta.
292
Como conclusión podrı́amos decir que para que se produzca la consonancia es nece-
sario el reconocimiento de un patrón armónico en el sonido resultante de la mezcla,
el mismo que constituye necesariamente todo sonido musical, todo sonido que tiene
una frecuencia determinada y que es percibido por nuestro sistema cognitivo como
una nota. De ese modo percibiremos la mezcla como una unidad. Nuestro cerebro
ha “aprendido” a reconocer el patrón de la serie armónica (de uno u otro modo, ya
sea porque la serie armónica está presente en todos los ámbitos de la naturaleza,
ya porque culturalmente estamos desde nada más nacer inmersos en la música que
ha sido compuesta mediante la serie armónica). Por lo tanto, hay una tendencia a
entender como unificador todo aquello que tenga que ver con ese patrón de la serie
armónica. La percepción de una mezcla de sonidos consonantes se asemeja hasta
cierto punto a la percepción unitaria de un solo sonido armónico compuesto de
componenetes frecuenciales, pues, en tanto que se mezclan bien, percibimos como
unidades aquellos sonidos cuyas frecuencias son múltiples o conmensurables próxi-
mas. Pero, a la vez, en la percepción de la consonancia hay un reconocimiento de
la individualidad de cada sonido, de cada voz, que la diferencia de la percepción
de un sonido compuesto, donde no se aprecia ninguna parte constituyente. Si ese
reconocimiento de la individualidad no se produce estaremos más próximos a ha-
blar de un sonido coral, es decir, de un conjunto de sonidos individuales fundidos
en una sola voz, la voz del coro.
13.5. Conclusión
En este capı́tulo hemos estudiado cómo percibimos el sonido musical en un en-
torno acústico, identificándolo por sus marcas tı́mbricas y reconstruyendo su patrón
armónico, con los lı́mites que nuestro sistema auditivo tiene para distinguir com-
ponentes próximos. Ası́ mismo hemos podido experimentar que reconocemos dos
sonidos musicales como consonantes cuando su estructura armónica posee suficien-
tes elementos en común como para que nuestra percepción auditiva sea capaz de
percibir una nueva estructura lo suficientemente armónica, a la vez que seguimos
reconociendo su individualidad gracias a sus marcas tı́mbricas.
293
Capı́tulo 14
La voz musical
14.1. Introducción
La tarea de la percepción musical no acaba con la identificación de los sonidos,
sino que exige también la asignación de cada uno de ellos a un sujeto, a una
voz. En efecto, la música requiere la organización en voces de todo el material
sonoro. Para ello se sirve tanto de las marcas tı́mbricas que cada sonido posee,
como de las leyes sintácticas del lenguaje musical, que son las que establecen los
criterios de continuidad. Esta es la razón por la que para los antiguos teóricos
musicales la voz era la primera categorı́a musical, de tal modo que los sonidos
eran definidos a continuación como las partes más pequeñas de la voz musical. En
ese mismo sentido, este capı́tulo pretende servir de puente entre la acústica y la
teorı́a musical, cerrando, por un lado, el conjunto de nociones acerca del sonido
que, a mi juicio, deberı́a conocer un músico, e iniciando, por otro, el primer tema
propiamente musical, la naturaleza especı́fica de la voz musical y su origen en la
prosodia del habla.
La voz musical se diferencia de la del habla en que mantiene las alturas tonales
durante el tiempo suficiente como para que seamos capaces de percibir las notas
y, en lugar de discurrir de forma continua, va a saltos a través de intervalos. A lo
largo de este capı́tulo voy a mostrar que nuestro lenguaje musical es el resultado
de la aplicación de números al movimiento continuo de la voz del habla, o dicho
de otra manera, que la voz musical se origina a partir de la discretización de la
prosodia del habla.
Para ilustrar el concepto de voz musical y para poder entender con claridad en
qué sentido la música surge al establecer números sobre el movimiento de la voz,
294
he elegido cuatro ejemplos que, debido a las caracterı́sticas del instrumento y de
la interpretación, muestran una progresión clara desde el movimiento totalmente
continuo de la voz en el habla (ejemplo 1) hasta la estabilidad de las alturas tonales
en el piano (ejemplo 4).
Por otra parte, para permitir apreciar cómo es la voz en cada caso he realizado
mediante Matlab un tipo de representación gráfica que dibuja el movimiento de la
voz, a la que podrı́amos llamar “melograma” (del griego mélos, melodı́a, y grámma,
dibujo), y que atiende especialmente a nuestra cognición musical. Si el espectro-
grama se asemeja a la manera en la que nuestro sistema auditivo descompone el
sonido, como hemos visto en el capı́tulo dedicado a la fisiologı́a de la audición, esta
forma de representación va a integrar de nuevo el objeto musical armónico y va a
mostrar la evolución de sus parámetros a lo largo del tiempo.
Como en el espectrograma, también en el melograma la coordenada horizontal
representará el tiempo, la vertical la frecuencia (traducida ahora a altura tonal
y por ello expresada en cents) y la escala de color la mayor o menor intensidad,
ahora vista como volumen sonoro. La transformación en altura tonal y en volumen
sonoro de la frecuencia y la intensidad utilizará la escala logarı́tmica que vimos
en el capı́tulo 5. Tomaré como punto de partida la nota la0 a la que asignaré 0
cents y desde allı́ el número de cents irá incrementándose. Ası́, por ejemplo, 1.200
cents corresponderá a la1 , 2.400 a la2 , y ası́ sucesivamente. Para mayor claridad,
a la izquierda del número de cents figurará el nombre de la nota correspondiente
en nuestra escala temperada. Respecto al volumen sonoro será el resultado de la
traducción de la intensidad sonora a decibelios, expresados utilizando la misma
escala de color, habitual ya en los espectrogramas.
Tenemos también que tener presente que el melograma sólo representa aquellos
momentos en los que la voz está constituida por sonidos armónicos, es decir, en los
que es posible definir una frecuencia y en consecuencia percibimos una altura tonal,
mientras que aquellas partes en las que domina el ruido no están representadas,
como es el caso de la mayorı́a de las consonantes o el del ataque inicial de las notas
de piano.
295
lenguaje musical es la voz humana en el habla. En nuestra música hablamos de
voz o voces para referirnos a las diferentes estructuras melódicas que conviven en
el desarrollo de una pieza musical, pero que mantienen su identidad y su sentido.
Y se llaman voz o voces precisamente porque su referencia es la voz humana en el
habla, con toda su expresividad, emotividad y matices retóricos.
En efecto, la asignación de voces es la forma inicial en la que organizamos
el material sonoro con la finalidad de hacerlo inteligible. Por naturaleza
nuestra percepción busca siempre distinguir voces en medio del fondo sonoro, de la
misma manera que busca figuras en las imágenes visuales. Es la manera de poner
orden en el complejo sonoro que llega a nuestros oı́dos, de darle forma y dotarlo
de significación. Si prestamos atención al ruido de tráfico de una carretera, por
ejemplo, lo primero que nos surgen son “voces” en medio del ruido: la “voz” de
la motocicleta, la “voz” del camión, etc. Organizamos cualquier material sonoro
diverso en voces, es decir, en protagonistas, en “personajes”.
Encontramos, ası́ pues, que la voz lleva asociada la idea de identidad, la de in-
dividualidad. La voz posee una marca, un distintivo, lo que hoy llamamos, preci-
samente por eso, un timbre, algo que le da una personalidad propia capaz de ser
distinguida en medio de otras voces o de un ruido confuso. La palabra “voz” nos
trae a la mente que hay un sujeto que está detrás, que hay un “alguien” que dice
algo o, en música, que canta algo. Entre todas las informaciones que transmite la
voz, hay una de especial relevancia: es su propio auto-identificador. La voz está
diciendo constantemente “quién es”, y esto lo hace de múltiples maneras, de las
cuales el timbre es quizás la más evidente. Por ejemplo, la voz del contralto puede
ascender por encima de la del tiple y la del tiple, obviamente, descender por debajo
de la del contralto, pero la voz del contralto seguirá siendo la del contralto y la del
tiple la del tiple y el oyente no tiene ningún problema, incluso aunque se mezclen
unas con otras, en reconocer cada una de esas voces.
En medio de una partitura, con sonidos simultáneos que suben y bajan y se entre-
lazan en todas las direcciones, podemos distinguir el desarrollo de cada una de las
voces. No en vano “cantar las voces” es uno de los objetivos más importantes de
todo instrumentista, muchas veces lo que diferencia al buen intérprete del medio-
cre. Por ejemplo, cualquiera que está aprendiendo a tocar el piano lo primero con
lo que se encuentra es con la dificultad de dar las notas. Solo más tarde esas notas
pasan a formar parte de “ideas musicales”, y todavı́a mucho más tarde, y después
de mucho esfuerzo, surge en él la capacidad de entender y de contar la multiplici-
dad de “ideas” que laten en medio de la maraña de una partitura compleja y que
se ponen de manifiesto en el juego de las diferentes voces. En efecto, estas ideas
habitan la partitura de mil formas: unas veces en las voces intermedias, donde pa-
san casi desapercibidas; otras, perfiladas por notas que a veces están distanciadas
296
entre sı́ por compases enteros; otras entre los extremos de los arpegios que acom-
pañan muchas veces a las melodı́as; etc. Entonces es cuando la partitura comienza
a tomar vida y deja de ser una amalgama de sonidos incomprensibles y mecánica-
mente ejecutados, para pasar a ser un conjunto de voces trabadas en el que cada
una cumple su función y dice sus ideas. Esto, que puede parecer propio solo de
los instrumentos capaces de dar notas simultáneas como el piano, se da también
en instrumentos tan aparentemente poco dotados para la polifonı́a como el violı́n.
¡Cuántas veces hemos oı́do alabar la interpretación de un violinista diciendo que
parecı́a un dueto! ¿Cómo podemos oı́r en un simple violı́n una fuga a tres voces?
La música es cosa de voces y la tarea del instrumentista es “decir” las voces y
expresar mediante ellas emociones y sentimientos. Algo parecido podrı́amos haber
dicho del que aprende a escuchar música, porque aprender a escuchar música no
es otra cosa que aprender a oı́r voces y a distinguir las ideas musicales que ellas
van diciendo. Ası́ es como cobra su pleno sentido la emoción de la música.
Dejando ya los aspectos cognitivos que justifican el carácter primigenio del con-
cepto de voz en música, pasaré ahora a explicar en qué sentido digo que la voz
humana ha sido el modelo sobre el que se ha construido nuestro sistema musical.
La voz ha sido nuestra principal herramienta de comunicación con el mundo, en
un proceso evolutivo que probablemente ha ido desde los primeros gruñidos, gritos
y demás ruidos inarticulados, hasta las construcciones más elaboradas del habla y
de la música.
En el habla la voz ha codificado principalmente tipos de ruidos distintos (las di-
ferentes consonantes) y posiciones distintas de resonancias del órgano vocal (las
diferentes vocales). Mediante combinaciones de ambos elementos hemos ido adqui-
riendo la capacidad de nombrar las cosas y de contar nuestras experiencias. Por
ejemplo, si decimos la frase “quiero esto”, estamos utilizando el ruido “k” para
empezar, luego el ruido “r”, después la especie de silbido “s”, y por último el ruido
“t”. Para ayudarnos a articular estos ruidos, especialmente aquellos de muy corta
duración, nos servimos de unos sonidos vocálicos, los cuales, a diferencia de los
ruidos de las consonantes, sı́ poseen una altura tonal y tienen una duración sufi-
ciente. No obstante, no diferenciamos estos sonidos vocálicos por su altura tonal,
sino por la manera en la que los hacemos resonar variando la posición de nuestro
aparato fonador. En este ejemplo hemos utilizado tres conjuntos de resonancias
vocálicas distintas: las propias de la “i”, las de la “e” y las de la “o”. No es posible
explicar aquı́ qué son las resonancias especı́ficas de cada vocal, ni cómo son ni en
qué consisten las articulaciones de los sonidos que constituyen la cadena hablada;
ahora nos interesa atender sólo a aquellos aspectos del habla que van a tener mayor
repercusión en la música, en concreto, la altura tonal de los sonidos vocálicos.
297
Ası́ pues, la voz hablada no consta sólo de ruidos, sino también de sonidos vocáli-
cos que, aunque se distinguen por la forma de su resonancia (los denominados
formantes propios de cada vocal) poseen una altura tonal. Pero en el habla la altu-
ra tonal en la mayorı́a de las lenguas no está prácticamente codificada y no lleva,
por lo tanto, una parte importante de significación léxica. Aunque sı́ posee otra
función muy importante: la altura tonal es la que organiza las palabras y las frases
y, sobre todo, permite unir a la expresión de los conceptos los matices emotivos del
hablante. La altura tonal, junto con la intensidad sonora y la duración temporal
de las sı́labas, constituyen los aspectos más importantes de lo que en general se
denomina prosodia del habla.
En el caso de la música occidental el modelo sobre el que se ha construido el len-
guaje musical ha sido la voz humana en el habla. Con esto no quiero decir que
todo lenguaje musical tenga que surgir necesariamente ligado al habla, sino sólo
que nuestro sistema musical lo ha hecho ası́: ha nacido en ı́ntima relación con los
aspectos prosódicos del griego antiguo, tanto en lo que concierne a las alturas to-
nales como a las duraciones. Los elementos de nuestro lenguaje musical (sonidos,
intervalos, escalas, tiempos, compases) son el resultado de una abstracción de los
aspectos prosódicos de la voz hablada, es decir, de aquellos aspectos que, como
su nombre indica, son afines al canto (“prosodia” viene de ōdē, canto), los cuales
son precisamente los que llevan en mayor medida la significación emotiva. Esta
abstracción ha consistido en fijar numéricamente las alturas tonales y las dura-
ciones, y en establecer entre ellas un sistema de proporciones. Con independencia
de su evolución histórica, esta abstracción es un proceso lógico que ha dado lugar
a un sistema de codificaciones capaz de expresar y transmitir una significación
emotiva. Ası́ pues, la voz musical, a diferencia de la voz del habla, es el
resultado de la codificación de las alturas tonales de los sonidos y de sus
duraciones.
298
como queda reflejado claramente en el poema, y es el inventor de esta estrofa, la
lira, en la que se combinan los versos endecası́labos, muy ligados al habla natural,
con los de siete sı́labas. Los versos son:
Si de mi baja lira
tanto pudiese el son que en un momento
aplacase la ira
del animoso viento
y la furia del mar y el movimiento,
299
valora la musicalidad de una poesı́a). Ası́ mismo, en un poema la rima establece
la periodicidad del verso, sin necesidad de interrumpir de una manera tan grande
como se ha hecho aquı́ la cadena hablada. Nada de esto se produce en el habla
ordinaria, por lo que si hubiera elegido un fragmento del habla común, este tipo
de formas que aquı́ apreciamos con claridad quedarı́an algo desdibujadas.
En el espectrograma vemos claramente separados los cinco versos de la estrofa y
podemos distinguir también las diferentes sı́labas, tal como han sido pronunciadas.
Si nos fijamos, por ejemplo, en el primer armónico, en el componente más grave,
podemos también hacernos una idea aproximada del movimiento de la voz.
Pero un espectrograma no es la forma de representación idónea para el movimiento
de la voz, pues contiene mucha información que nos complica su observación. Cier-
tamente podemos apreciar que hay una relación clara entre lo que vemos y lo que
oı́mos, pero a la hora de recuperar el mensaje sonoro nuestro cerebro da un paso
más que no está recogido en el espectrograma. Como hemos visto en el módulo
acerca de la percepción del sonido musical, nuestra mente integra el conjunto de
armónicos para recuperar la unidad del sonido y seguir la evolución en el tiempo
de los parámetros de ese sonido. Por eso nos viene muy bien utilizar el melograma,
una forma de representación gráfica más apropiada para el movimiento de la voz,
que reproduzca, aunque sea de manera aproximada, la evolución de los parámetros
sonoros que realiza el intérprete y su recuperación por parte de nuestro cerebro.
En el vı́deo que presento a continuación se muestra el melograma del primer verso
de este recitado. Al tratarse de un fragmento de escasa duración podemos apreciar
con claridad los detalles del movimiento de la voz. Recordemos que los huecos de
la gráfica se corresponden con los sonidos consonánticos que carecen de una altura
tonal definida.
300
Figura 14.2: Vı́deo con el melograma de la recitación del primer verso de la Oda a la
flor de Gnido de Garcilaso de la Vega.
301
Ası́ mismo, observamos que cada sintagma se encuentra definido prosódi-
camente por una fórmula cadencial descendente, es decir, la voz puede
iniciarse en el punto más grave o en el medio, sube o baja, pero siempre termina
en el punto más grave, habiendo abarcado un intervalo aproximado de cuarta o
quinta. El modelo de cadencia descendente en torno a un intervalo de cuarta o
quinta es de especial importancia, como se puede ver en el estudio de la teorı́a
musical, para entender la construcción de nuestro sistema musical. El último ver-
so, sin embargo, parece ser una excepción a este modelo. Encontramos que allı́ no
se produce esta fórmula cadencial, sino que, por el contrario, la prosodia termina
arriba. Esta ausencia de fórmula cadencial nos informa de que el sentido de la frase
queda abierto, que la prosodia exige una continuación. En efecto, la estrofa entera
constituye el antecedente de una oración condicional que va a reposar dos estrofas
más allá.
Observamos también que, en general, el acento supone una elevación de la
altura tonal respecto a la sı́laba siguiente, junto a un incremento de la inten-
sidad y una mayor duración de la sı́laba. En castellano el acento es significativo a
la hora de distinguir entre palabras distintas (por ejemplo, “público”, “publico” y
“publicó”). Pero este acento se encuentra siempre supeditado e integrado dentro
de la fórmula cadencial que organiza los sintagmas.
302
Figura 14.3: Partitura de los compases iniciales del Lamento de Ariadna de Monteverdi.
Figura 14.4: Vı́deo con el espectrograma de los compases iniciales del Lamento de
Ariadna de Monteverdi.
Figura 14.5: Vı́deo con el movimiento de la voz de la segunda frase del Lamento de
Ariadna de Monteverdi.
303
Comenzaré por lo más evidente que podemos ver en ambas representaciones. El
registro en el que se sitúa es mucho más alto que el recitado del poema de Garcilaso.
Evidentemente la diferencia de altura tonal entre una voz de hombre y una de
mujer es grande, aproximadamente una octava, pero la altura en la que se mueve
este lamento es ya muy elevada para una voz hablada. Simplemente, si oyéramos
hablar a alguien con una entonación en este registro nos resultarı́a como mı́nimo
sorprendente.
Ası́ mismo, el ámbito de esta idea musical es también superior al de la prosodia: a
pesar de su austeridad, aquı́ recorre la octava entera con agilidad. Por otra parte,
los saltos de altura tonal entre sı́labas o palabras son impensables en la prosodia
del habla (entre sib4 y fa4 , entre mi4 y si4 , y entre re5 y fa4 ). Solamente estos rasgos
establecerı́an ya una diferencia clara entre este pasaje y el de la voz hablada.
Pero vamos ahora ya a lo que más nos interesa, el tipo de movimiento de la voz.
Si nos fijamos en el melograma de la figura 14.5 vemos que la voz sigue teniendo
un cierto carácter continuo, y de hecho no permanece fija prácticamente nunca.
No obstante, hay una considerable diferencia con el movimiento de la voz en la
declamación del poema anterior: en general, la voz tiende a mantener ahora
unas lı́neas más o menos horizontales. El lenguaje musical ha construido estas
“lı́neas” y ha definido las alturas tonales precisas sobre las que la voz se ha de
mantener, o ha de girar en torno, durante un espacio de tiempo lo suficientemente
prolongado para ser reconocidas como notas.
En este ejemplo, esta tendencia a la horizontalidad parece clara, hasta el extremo
de que podrı́amos aventurar en el melograma las notas que constituyen la melodı́a.
Ahora bien, su altura tonal se modifica a lo largo de la emisión, bien ascendiendo
o descendiendo ligeramente, bien oscilando en torno a un valor medio. En la inter-
pretación de estas notas vemos que, por un lado, la cantante ha tendido a imitar la
continuidad de la prosodia hablada, deslizando la voz, pero, por otro, ha utilizado
un recurso especı́ficamente musical, un vibrato muy rápido y muy amplio.
Resumiendo, en la comparación de este fragmento cantado con la declamación an-
terior, vemos que hay acontecimientos definidos y, en general, separados, que nos
permiten identificar como notas musicales cada una de los dibujos del melograma.
Podemos también establecer un cierto valor medio en la altura tonal de las no-
tas, pero las libertades expresivas de la interpretación hacen que la determinación
precisa de la altura tonal no sea posible en todos los casos.
304
14.5. El movimiento de la voz en el inicio del Adagio de la
Sonata I para violı́n solo (BWV 1001) de J. S. Bach
El ejemplo siguiente corresponde al inicio del Adagio de la Sonata I para violı́n solo
de J. S. Bach, BWV 1001. El violı́n —y lo mismo podrı́amos decir de los demás
miembros de su familia— es el instrumento que más se asemeja en posibilidades
expresivas a la voz humana. No en vano su desarrollo está muy ligado al estilo
homofónico que triunfa a partir de 1600 (la seconda prattica que he mencionado
a propósito del fragmento de Monteverdi). En efecto, al carecer de trastes, el
violı́n puede dar cualquier altura tonal intermedia dentro de su tesitura (la primera
dificultad a la que se enfrenta el violinista es la de afinar bien) y el intérprete puede
modificarla con toda libertad a lo largo de su emisión, deslizando la voz de nota
en nota o haciéndola oscilar a voluntad. También, al igual que en el canto, puede
modificar libremente a lo largo de la emisión la intensidad del sonido e incluso la
cualidad sonora, aumentando o disminuyendo el número de sus armónicos.
Veamos, igual que en el ejemplo anterior, la partitura, un vı́deo con el espectrogra-
ma del fragmento entero y otro con el melograma en el que vemos el movimiento
de la voz principal de la primera parte de la frase inicial. Como ahora el espectro-
grama es un poco más complicado, me ha parecido oportuno etiquetar las notas
de la melodı́a.
Figura 14.6: Partitura de la primera frase del Adagio de la Sonata I para violı́n solo
(BWV 1001) de J. S. Bach.
305
Figura 14.7: Vı́deo con el espectrograma de la primera frase del Adagio de la Sonata
I para violı́n solo (BWV 1001) de J. S. Bach.
Figura 14.8: Vı́deo con el melograma que representa el movimiento de la voz del inicio
de la primera frase del Adagio de la Sonata I para violı́n solo (BWV 1001) de J. S. Bach.
306
Una comparación superficial de este ejemplo con el anterior nos muestra ahora una
definición más clara de las alturas tonales y de las duraciones. Ası́ mismo,
salvo alguna pequeña excepción en notas muy rápidas y seguidas, el movimiento
de la voz es interválico, es decir, la voz va a saltos. La voz se establece con
claridad en una altura tonal determinada y procede a intervalos, de modo que re-
sulta imperceptible la transición de una altura a otra, a excepción de la bordadura
sib4 -la4 -sib4 donde la ejecución es ligada. En este ejemplo estarı́amos ya mucho más
cerca de poder definir unas alturas tonales relativamente estables. Esto no se puede
atribuir a un rasgo especı́fico del instrumento, sino que ha sido la partitura elegida
la que ha condicionado una interpretación más definida en las altura tonales. En
lo que concierne a la duración de las notas, vemos también que mantienen un claro
patrón de espaciamiento, es decir, una cierta regularidad rı́tmica. El hecho de que
en el espectrograma algunas notas a veces parezcan superponerse a las siguientes
es debido a la resonancia de la sala o, en su caso, a la posible reverberación añadida
en la grabación.
No obstante, un examen más minucioso del espectrograma y del melograma nos
permite observar varias caracterı́sticas que contravienen esa aparente regularidad
y que recuerdan al ejemplo anterior. En primer lugar, la altura de las notas
que llevan el mismo nombre no siempre es exactamente la misma. En
ocasiones el instrumentista tiende a aproximarse más a la nota inferior o a la
superior, alejándose de la afinación temperada, para destacar más la atracción
de las notas próximas. A modo de ejemplo, el segundo de los dos fa#4 es casi un
cuarto de tono más alto que el primero, lo que podrı́amos haber apreciado con más
claridad que en el espectrograma si hubiera extendido un poco más la duración del
movimiento de la voz en el melograma. Ası́ mismo, en las notas cuya duración
es más larga se aprecia con claridad una oscilación rápida de su altura
tonal, que es el resultado del vibrato producido por el violinista, si bien
este vibrato es mucho menos amplio que el que vimos en algunas notas del Lamento
de Ariadna. El vibrato tiene principalmente dos finalidades: por un lado, dulcifica
la aspereza de la cualidad sonora y, por otro, facilita la afinación, al posibilitar una
cierta indeterminación de la altura tonal.
307
Figura 14.9: Partitura del inicio del Nocturno op. 9 no 1 de Fr. Chopin.
Figura 14.10: Vı́deo con el espectrograma del inicio del Nocturno op. 9 no 1 de Fr.
Chopin.
308
Figura 14.11: Vı́deo con el melograma del inicio del Nocturno op. 9 no 1 de Fr. Chopin.
Las imágenes de ambos vı́deos presentan unas caracterı́sticas muy distintas de todo
lo que hemos visto hasta ahora. En el espectrograma vemos que predomina la lı́neas
horizontales, y en el melograma vemos con total claridad un conjunto de lı́neas
horizontales que precisamente se superponen a la retı́cula que define las alturas
tonales de nuestras notas del sistema temperado en el diapasón estándar.
Esta horizontalidad en este caso vienen determinada por la naturaleza del instru-
mento. El piano es un instrumento de afinación fija, en el que el principal parámetro
sobre el que puede actuar el pianista es la velocidad de ataque, es decir, la rapidez
con la que baja la tecla. Una vez que el macillo queda libre de la tecla mediante
el mecanismo de escape ya no hay posibilidad alguna de modificar el sonido (salvo
apagarlo antes o después al soltar la tecla y liberar el apagador). Por ello, la mayor
parte de la información que el intérprete aporta queda condensada en las milésimas
iniciales de su ataque.
Si en este ejemplo se nos pidiera de nuevo precisar las alturas tonales del movi-
miento de la voz utilizando solamente el espectrograma, la respuesta no plantearı́a
ninguna dificultad. En el caso del espectrograma nos bastarı́a con trazar lı́neas
horizontales que pasaran por el medio de cada figura o mancha de luz. En el melo-
grama la respuesta serı́a todavı́a más evidente. Observamos, además, que, como es
lógico, todas las notas con el mismo nombre están ahora a la misma altura tonal.
Efectivamente, las alturas tonales están ahora totalmente definidas. Ası́ pues, en
este ejemplo podrı́amos asignar un número preciso a cada nota, su altura tonal
expresada en cents. De hecho, realmente es al revés: es esta posibilidad de tener
309
alturas tonales fijas, expresables numéricamente, la que nos permite dar nombre a
las notas.
Podrı́amos observar también algunas pequeñas diferencias respecto al modelo ideal
de lı́neas horizontales. Por ejemplo, las lı́neas correspondientes a las notas más
agudas parecen estar ligeramente por encima de la retı́cula que marca la afinación
temperada estándar (con el la4 a 440 Hz). Esto se debe a la inarmonicidad del
piano que hace que la afinación de las notas superiores se vaya estirando un poco.
Podrı́amos también apreciar algunas ligeras indecisiones en la afinación de algunas
notas que parecen incluso oscilar ligeramente. Ello es debido al problema del de-
rrame espectral que unido al ruido que acompaña el ataque de cada nota provoca
una cierta indeterminación en la precisión del reconocimiento de la frecuencia. Y
todavı́a más, dejando al margen estas cuestiones, incluso las notas de un piano, en
una escala minúscula cierto es, presentan también una cierta evolución en la fre-
cuencia. Pero no es momento de tratar estas cuestiones ahora. Lo que nos interesa
es que aquı́ si que vemos ya los elementos del lenguaje musical: las alturas tonales
definidas con claridad que determinan las notas y que constituyen la referencia que
se crea en nuestra mente musical y que nos permite entender y dar sentido incluso
a los movimientos de la voz musicales que se alejan de este modelo y se acercan
más al del habla.
Por otra parte, resulta también claro que aquı́ nos serı́a muy fácil especificar con
toda seguridad la duración de cada nota (teniendo en cuenta, claro está, que lo
que debemos medir es la distancia entre sucesivos ataques). Ya he explicado en
el ejemplo del violı́n a qué se debe la superposición de algunas notas en el es-
pectrograma. Aquı́, en este ejemplo, la utilización del pedal hace que las notas
tiendan a superponerse más que en el caso del violı́n. Pero también podrı́a haber
sucedido lo contrario, y la ejecución de las notas haber sido más picada. Ahora
bien, desde el punto de vista métrico ambas situaciones son irrelevantes: afectan
sólo al carácter de las notas, a la expresión, pero no al ritmo, es decir, no alteran
la codificación métrica. Ası́ mismo, resulta aquı́ también más clara todavı́a la exis-
tencia de una repetición de determinadas duraciones. Dar un paso más y ver que
esas duraciones guardan entre sı́ las proporciones sencillas de doble, triple, etc.,
requerirı́a simplemente el uso de la regla.
Es importante destacar que en este ejemplo, en el que las altura tonales son cla-
ramente estables y definidas numéricamente, debemos seguir hablando de movi-
miento de la voz. Aunque sea a saltos, aunque ya estemos muy lejos de los rasgos
de la prosodia, aunque no tengamos la versatilidad de la voz cantada, ni su imi-
tación como hace la voz en el violı́n, también aquı́ hay un movimiento de la voz.
El intérprete de piano tiene que hacer todo lo posible para que el instrumento
“cante”. Sin el movimiento de la voz no existirı́a música en su sentido pleno, sino
310
solamente una sucesión de sonidos carentes de significación. El piano es, de algún
modo, el instrumento de referencia de nuestro sistema musical y en ese sentido
tiene un papel equivalente al que tenı́a la lira en la Antigüedad.
Ası́ pues, si volvemos al ejemplo del recitado del poema, donde la voz discurre sin
solución de continuidad y la comparamos con el movimiento puramente interválico
de la voz en un instrumento de afinación fija como es el piano, podemos ver cómo
nuestro lenguaje musical es el resultado de la cuantificación de la altura tonal y, a
partir de ella, de la duración.
311
El melograma nos ha permitido también ilustrar con imágenes el proceso de abs-
tracción que conduce desde la prosodia de la voz hablada hasta la constitución del
sistema musical. La permanencia de la voz en alturas tonales determina-
das permite establecer medidas y proporciones entre ellas. Estos números
son los que codifican las alturas tonales y determinan un conjunto de intervalos a
los que el sistema musical dará significación, organizando las escalas. El lenguaje
musical se crea a partir del espı́ritu de la voz humana en el habla, pero adquiere su
ordenación precisa —es decir, se codifica, se hace propiamente “sistema” (escala)—
mediante un instrumento de afinación fija que permite precisar las alturas tonales.
En el caso de su creación histórica, este instrumento fue la lira; hoy es el piano del
que podemos considerar, en este sentido, que la lira fue un antecedente.
Por otra parte, hemos visto en el ejemplo del poema recitado dos caracterı́sticas
de la voz hablada que van a tener muchas consecuencias en la creación
de nuestro sistema musical: una es el reducido ámbito tonal en el que
se mueve la entonación de cada unidad sintagmática en el habla, un
ámbito de aproximadamente una cuarta o una quinta; otra, la fórmula
cadencial descendente con la que se delimitan estas unidades. Por las
noticias que nos han llegado de los teóricos musicales y de los gramáticos antiguos,
estas caracterı́sticas se daban también en el griego antiguo, lengua que sirvió de
fundamento a la construcción de nuestro sistema musical. La primera explicará en
parte la importancia del tetracordio y de la consonancia de cuarta en las primeras
formas escalares antiguas. La segunda se reflejará en el carácter descendente de
todas las resoluciones: las cadencias descendentes van a dominar por completo el
lenguaje musical de Occidente hasta la aparición de los primeros atisbos de la
sensible ascendente en la música de los trovadores. Pero las consecuencias de esta
cuestión pertenecen ya al estudio de la teorı́a musical.
Ası́ mismo, estos ejemplos nos han permitido acercarnos mejor a un asunto que
tiene que ver con la interpretación. Consideramos que una cualidad del intérprete
es hacer hablar al instrumento. Mediante los melogramas hemos podido comprobar
hasta qué punto esto es literal: hacer hablar al instrumento es acercarse a
la prosodia del habla, es decir, alterar las alturas tonales o las duraciones de las
notas que corresponderı́an al patrón escalar o rı́tmico, bien a través de inflexiones
o desviaciones de la voz, bien a través de modificaciones de los tiempos (rubato,
ritandando, etc.), para aproximarnos a la naturalidad del movimiento de la voz en
el habla, adquiriendo mediante este pequeño alejamiento del código musical una
alta significación emotiva.
312
14.8. Conclusión
Este capı́tulo ha tratado de mostrar que la música es esencialmente una cuestión
de voz o de voces —entendiendo la palabra voz en su sentido más amplio— y que
lo especı́fico de nuestro lenguaje musical consiste en establecer números y medidas
sobre ese movimiento de la voz. Al hacerlo ası́, al detenerse la voz durante algún
tiempo en algún lugar del espacio sonoro, en alguna altura tonal concreta, surge el
sonido musical, definido por los antiguos precisamente como la parte más pequeña
de la voz melódica. El estudio de las relaciones entre esos sonidos —tanto las leyes
que rigen su sucesión en cada una de las voces, como las de su reunión simultánea
en los acordes— compete ya al estudio propio de la Teorı́a Musical.
Como dije al empezar, la finalidad de este curso ha sido proporcionar los fundamen-
tos acústicos y psicoacústicos sobre los que se ha creado nuestro lenguaje musical.
Por ello hemos ido examinando todos los aspectos que conciernen al sonido musi-
cal, desde su constitución fı́sica —como un movimiento mecánico que se transmite
por un medio elástico cuyos parámetros frecuenciales cumplen unas caracterı́sticas
que las hacen adecuados para ser percibidos por el oı́do humano—, hasta su cua-
lidad de ser el primer elemento de la melodı́a, el que se pone de manifiesto cuando
el movimiento de la voz musical se detiene en un determinado punto del espacio
sonoro. También hemos conocido, aunque haya sido someramente, cómo es y cómo
actúa nuestro sistema auditivo a la hora de reconocer el sonido musical o armónico.
Y de paso hemos aprendido a observar unas representaciones gráficas del sonido,
el espectrograma y el melograma, que pueden ser de gran utilidad al músico y al
musicólogo para realizar el análisis sonoro de una interpretación musical.
Aquı́ nos quedamos, pues, a las puertas del estudio de la Teorı́a Musical, que
debe dar cuenta del lenguaje que permite dotar de sentido a los sonidos de la
música.
313
Bibliografı́a
314