Acustica Musical PDF

Acústica Musical
Luis Colomer Blasco
7 de noviembre de 2016
Contacto: luiscolo12@gmail.com
El curso Acústica Musical puede ser seguido on-line en: Acústica Musical
Este documento esta realizado bajo licencia Creative

Commons “Reconocimiento-CompartirIgual 4.0 Inter-
nacional”.
Sobre los materiales multimedia
Este curso multimedia va acompañado de 141 archivos de vı́deo e imágenes. Los

archivos de vı́deo están en formato .mp4 y los de imágenes en formato .png. Todos
ellos están en una carpeta llamada “Materiales”. Para que funcionen los enlaces
del texto, no se puede cambiar el nombre de la carpeta “Materiales” ni el de los
archivos que contiene. El archivo .pdf del curso y la carpeta “Materiales” deben
estar, a su vez, dentro de la misma carpeta, a la que se le puede llamar, por ejemplo,
“Acústica Musical”.
Si se dispone únicamente del archivo del texto en .pdf, se puede descargar los
materiales multimedia libremente desde esta página web. Todos ellos están en un
archivo llamado “Materiales.zip”. Al intentar descargarla, puede salir un aviso que
dice: “Google Drive no puede analizar este archivo en busca de virus. Materiales.zip
(541M) supera el tamaño máximo de archivo que puede analizar Google. ¿Quieres
descargar el archivo de todos modos?”. Basta con aceptar para descargarla, pues
al contener solamente archivos de vı́deo del tipo .mp4 o imágenes del tipo .png no
puede tener ningún virus.
Ası́ mismo, el curso entero, con el documento de texto en .pdf y los materiales
puede ser descargado desde la página de “Descargas” de la versión on-line en el
blog Acústica Musical.
i
Índice general
Prólogo VII
1. El sonido como vibración 1

1.1. ¿Qué es el sonido? . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Simulación de la vibración del aire en un sonido simple . . . . . . . 2
1.2.1. Propagación de la perturbación a través del aire . . . . . . . 4
1.2.2. Movimiento individual de oscilación . . . . . . . . . . . . . . 5
1.2.3. De la oscilación individual a la propagación ondulatoria . . . 7
1.3. Simulación de la vibración del aire en un fragmento sonoro complejo 13
1.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2. La señal de audio 16
2.1. Representación del sonido . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Un ejemplo de registro digital . . . . . . . . . . . . . . . . . . . . . 18
2.3. El editor de sonido . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4. El osciloscopio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3. Caracterı́sticas de los sonidos musicales 26

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2. Ruido y sonido musical . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3. Ruido blanco y sonido simple . . . . . . . . . . . . . . . . . . . . . 28
3.4. Tráfico con lluvia y notas de clarinete . . . . . . . . . . . . . . . . . 31
3.5. Campanadas y notas de piano . . . . . . . . . . . . . . . . . . . . . 34
3.6. Habla y canto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.7. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4. El sonido simple 43
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2. El sonido simple como fundamento del sonido musical . . . . . . . . 44
4.3. El Movimiento Armónico Simple (MAS) . . . . . . . . . . . . . . . 47
ii
4.3.1. Un ejemplo de Movimiento Armónico Simple . . . . . . . . . 47
4.3.2. Parámetros del Movimiento Armónico Simple . . . . . . . . 51
4.4. El Movimiento Armónico Simple en el sonido . . . . . . . . . . . . . 53
4.4.1. Parámetros del sonido simple . . . . . . . . . . . . . . . . . 53
4.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5. Altura tonal, intervalos y volumen sonoro 57

5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2. Relación entre estı́mulo y sensación: la Ley de Weber-Fechner . . . 58
5.3. Frecuencia y altura tonal: notas e intervalos . . . . . . . . . . . . . 60
5.3.1. El intervalo musical como razón numérica . . . . . . . . . . 60
5.3.2. Unidades interválicas . . . . . . . . . . . . . . . . . . . . . . 63
5.3.3. Las frecuencias de las notas musicales . . . . . . . . . . . . . 65
5.4. Amplitud y volumen sonoro . . . . . . . . . . . . . . . . . . . . . . 67
5.4.1. Unidades interválicas de intensidad sonora: el belio y el de-
cibelio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.4.2. Correspondencia entre la amplitud normalizada y la inten-
sidad en decibelios . . . . . . . . . . . . . . . . . . . . . . . 70
5.4.3. Valores absolutos de intensidad sonora . . . . . . . . . . . . 71
5.4.4. La percepción del volumen sonoro . . . . . . . . . . . . . . . 74
5.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6. Mezcla e interferencia de dos sonidos simples 78

6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2. El Principio de Superposición Lineal de Ondas . . . . . . . . . . . . 80
6.3. Mezcla de dos sonidos simples de la misma frecuencia: Unı́sono . . . 81
6.4. Mezcla de dos sonidos simples de frecuencias muy próximas: Batidos
de primer orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.4.1. Los batidos de primer orden . . . . . . . . . . . . . . . . . . 84
6.4.2. Causas de los batidos de primer orden . . . . . . . . . . . . 86
6.4.3. Batidos y afinación . . . . . . . . . . . . . . . . . . . . . . . 88
6.5. Mezclas de dos sonidos simples en función de la distancia entre sus
frecuencias y de la anchura de su banda crı́tica . . . . . . . . . . . . 89
6.6. Mezcla de dos sonidos simples cuyas frecuencias están en relación
de conmensurabilidad próxima: Consonancias . . . . . . . . . . . . 92
6.6.1. Conmensurabilidad próxima . . . . . . . . . . . . . . . . . . 92
6.6.2. Consonancias entre sonidos simples . . . . . . . . . . . . . . 94
6.6.3. De la consonancia a la disonancia . . . . . . . . . . . . . . . 97
6.6.4. Grados de consonancia según la conmensurabilidad . . . . . 101
6.6.5. La fase inicial en la mezcla consonante . . . . . . . . . . . . 102
iii
6.7. Mezcla de dos sonidos simples cuyas frecuencias se alejan un poco
de la conmensurabilidad próxima: Batidos de segundo orden . . . . 103
6.8. Distorsión y componentes espurios en la mezcla de dos sonidos simples106
6.9. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
7. El sonido armónico 111

7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7.2. Sonidos armónicos y sonidos inarmónicos . . . . . . . . . . . . . . . 113
7.3. La serie armónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
7.3.1. Sonido formado por componentes consecutivos de la serie
armónica: Señal en diente de sierra . . . . . . . . . . . . . . 117
7.3.2. Sonido formado por los componentes impares consecutivos
de la serie armónica: Señal rectangular . . . . . . . . . . . . 119
7.3.3. Cualidad sonora derivada de los componentes de la serie
armónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7.4. Componentes de la serie armónica y notas de la escala temperada . 121
7.5. Intervalos entre los sucesivos componentes de la serie armónica . . . 125
7.6. Estructura armónica y reconocimiento de la altura tonal . . . . . . 127
7.7. Las fronteras de lo armónico. La inarmonicidad en el sonido musical 130
7.8. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8. Ondas estacionarias y resonancia: Generación del sonido armóni-

co 136
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
8.2. La cuerda como paradigma de un sistema vibratorio unidimensional 137
8.3. Propagación y reflexión de una perturbación transversal sobre una
cuerda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.4. Superposición de dos perturbaciones que viajan en sentido opuesto
sobre una cuerda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.5. Formación de ondas estacionarias sobre una cuerda . . . . . . . . . 148
8.5.1. Reflexión de una onda sinusoidal cuya longitud no es una
parte entera del doble de la longitud de la cuerda . . . . . . 150
8.5.2. Generación de una onda estacionaria en el modo fundamen-
tal de vibración . . . . . . . . . . . . . . . . . . . . . . . . . 154
8.5.3. Generación de ondas estacionarias en los modos de vibración
armónicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.6. La resonancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
8.7. Generación del sonido armónico . . . . . . . . . . . . . . . . . . . . 171
8.8. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9. Envolventes de amplitud y de frecuencia 176
iv
9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
9.2. Envolvente de amplitud general . . . . . . . . . . . . . . . . . . . . 177
9.3. Envolventes de amplitud parciales . . . . . . . . . . . . . . . . . . . 181
9.4. Envolvente de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . 186
9.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
10.Análisis espectral de los sonidos musicales 190

10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
10.2. Un modelo ideal de analizador espectral mediante resonancias . . . 192
10.3. Relación entre duración temporal y resolución frecuencial . . . . . . 195
10.4. El espectrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
10.5. Interpretación de los espectrogramas . . . . . . . . . . . . . . . . . 202
10.5.1. Espectrograma de sonidos armónicos estables . . . . . . . . 203
10.5.2. Espectrograma de sonidos armónicos cuyos componentes cam-
bian de amplitud . . . . . . . . . . . . . . . . . . . . . . . . 204
10.5.3. Espectrograma de sonidos cuyos componentes modifican su
frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
10.5.4. Espectrograma de ruido blanco y sonido simple . . . . . . . 207
10.5.5. Espectrograma de ruido de tráfico y de habla . . . . . . . . 208
10.6. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
11.El timbre 211

11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
11.2. Rasgos tı́mbricos derivados del contenido espectral . . . . . . . . . . 213
11.2.1. Rasgos espectrales caracterı́sticos del tipo de instrumento . . 219
11.2.2. Diferencias del contenido espectral entre las distintas notas
del mismo instrumento . . . . . . . . . . . . . . . . . . . . . 223
11.2.3. Modificación del contenido espectral por la acción del intérpre-
te . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
11.3. Rasgos tı́mbricos dependientes de la evolución de los parámetros del
sonido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
11.3.1. Marcas tı́mbricas y envolvente de amplitud . . . . . . . . . . 233
11.3.2. Marcas tı́mbricas y envolvente de frecuencia . . . . . . . . . 238
11.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
12.Fisiologı́a de la audición 241

12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
12.2. El oı́do humano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
12.3. La cóclea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
12.3.1. Descripción general de la cóclea . . . . . . . . . . . . . . . . 246
12.3.2. Estructura interna de la cóclea . . . . . . . . . . . . . . . . . 247
v
12.3.3. El órgano de Corti . . . . . . . . . . . . . . . . . . . . . . . 252
12.3.4. El ganglio espiral . . . . . . . . . . . . . . . . . . . . . . . . 257
12.4. La cóclea como analizador mecánico de frecuencias . . . . . . . . . 259
12.4.1. Tonotopı́a de la membrana basilar . . . . . . . . . . . . . . . 260
12.4.2. Comportamiento de la membrana basilar ante un sonido
complejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
12.4.3. Retroalimentación de las células pilosas externas sobre la
membrana basilar . . . . . . . . . . . . . . . . . . . . . . . . 266
12.5. Transducción mecano-eléctrica en la cóclea . . . . . . . . . . . . . . 267
12.6. Codificación de la información sonora en impulsos eléctricos . . . . 271
12.7. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
13.Psicoacústica musical 275

13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
13.2. Limitaciones en la percepción del objeto sonoro debidas a la fisio-
logı́a del oı́do . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
13.3. El reconocimiento del patrón armónico . . . . . . . . . . . . . . . . 279
13.4. Percepción de la consonancia entre sonidos musicales . . . . . . . . 282
13.4.1. Consonancia y disonancia . . . . . . . . . . . . . . . . . . . 284
13.4.2. Consonancia de octava, de quinta y de cuarta . . . . . . . . 288
13.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
14.La voz musical 294

14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
14.2. El concepto de voz musical . . . . . . . . . . . . . . . . . . . . . . . 295
14.3. El movimiento de la voz en el recitado de la primera estrofa de la
Oda a la flor de Gnido de Garcilaso de la Vega . . . . . . . . . . . 298
14.4. El movimiento de la voz en los compases iniciales del Lamento de
Ariadna de Monteverdi . . . . . . . . . . . . . . . . . . . . . . . . . 302
14.5. El movimiento de la voz en el inicio del Adagio de la Sonata I para
violı́n solo (BWV 1001) de J. S. Bach . . . . . . . . . . . . . . . . . 305
14.6. El movimiento de la voz en el inicio del Nocturno op.9, no 1 de Fr.
Chopin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
14.7. El “espacio” de la significación musical . . . . . . . . . . . . . . . . 311
14.8. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
Bibliografı́a 314
vi
Prólogo
Este curso pretende proporcionar al músico y al musicólogo los conocimientos de

acústica que pueden ser de interés para la realización de su trabajo. El sonido es
el material con el que se hace la música, por lo que a cualquiera que le interese el
arte musical le puede resultar atractivo conocer todo lo que atañe al sonido, tanto
en su realidad fı́sica —es decir, al hecho de que sea una onda mecánica—, como en
su realidad psı́quica, pues en un sentido estricto hablamos de sonido cuando esa
onda mecánica es percibida por nuestro sistema auditivo.
Ciertamente, no es necesario conocer nada de acústica para interpretar bien un
instrumento, ni para investigar en la mayor parte de los aspectos de los que se
ocupa la musicologı́a, pero creo que todos estaremos de acuerdo en que saber en
qué consiste el sonido, conocer cuáles son sus parámetros fı́sicos, comprender cómo
nosotros percibimos esos parámetros y, en definitiva, conocer cuál es la relación
entre la naturaleza fı́sica del sonido y la manera en la que nuestro sistema auditivo
lo percibe, puede resultar de gran ayuda para la práctica del instrumento y también
puede colaborar eficazmente en múltiples aspectos de la investigación musicológica.
A mi juicio, es difı́cil entender bien el lenguaje musical sin un conocimiento, aunque
sea elemental, del sonido musical. En este sentido, uno de los objetivos de este curso
es presentar las bases fı́sicas sobre las que se ha construido el lenguaje musical de
Occidente y también su sistematización teórica.
La pregunta que podemos hacernos a continuación es la siguiente: ¿Es posible es-
tudiar acústica sin utilizar el formulismo matemático que normalmente acompaña
cualquier estudio fı́sico? Mi respuesta es que sı́. Creo que se puede entender bien la
naturaleza del sonido, y en particular del sonido musical, mediante la experiencia,
sin recurrir a ninguna fórmula matemática. Por eso este curso de acústica musical
va a prescindir de toda formulación matemática.
No se trata de realizar cálculos, ni de desarrollar aplicaciones prácticas; el objetivo
de quien siga este curso de acústica musical va a ser entender las ideas fundamen-
tales en torno a la naturaleza del sonido y, en particular, aquellos aspectos que
han sustentado nuestro lenguaje musical. Por ejemplo, desde mi punto de vista,
vii
se puede entender razonablemente bien qué es la descomposición espectral sin ne-
cesidad de conocer la formulación matemática de la Transformada de Fourier. Es
verdad que su conocimiento serı́a más profundo y estarı́a mejor expresado si se
utilizara el lenguaje matemático, pero esto sólo serı́a ası́ una vez que se hubieran
entendido las ideas en las que se basa la descomposición espectral. Creo que para
el músico es suficiente con este conocimiento y también que quien está interesa-
do en la fı́sica del sonido, sin un especial interés musical, le puede venir muy bien
observar y experimentar muchos fenómenos que luego podrán ser formalizados ma-
temáticamente. Por ello en este curso voy a procurar explicar todas las ideas de la
manera más intuitiva posible. Pienso que, armados solamente con el sentido común
y con la ayuda de abundantes gráficas y vı́deos que nos permitan relacionar lo que
oı́mos con lo que vemos, podremos entender las principales nociones de acústica
musical.
Por todo ello este curso va a utilizar con mucha frecuencia vı́deos, la mayor parte
de los cuales han sido elaborados a partir de imágenes obtenidas mediante Matlab.
Estos vı́deos van a servir como una suerte de laboratorio de acústica y van a
permitir experimentar de primera mano todo lo que se explica en el texto. En
ellos me he esforzado en mostrar la relación entre lo que se ve y lo que se oye.
Ası́ pues, espero que los conceptos más importantes de acústica musical queden
afianzados con ayuda de las imágenes de estos vı́deos, que presentan gráficamente
cómo es la naturaleza del sonido y la manera en la que nosotros percibimos sus
parámetros.
Los distintos capı́tulos de este curso de acústica musical recorren el amplio camino
que va desde la explicación de la naturaleza vibratoria del movimiento mecánico
que origina el sonido y el modo en el que se trasmite, con sus parámetros de fre-
cuencia, amplitud, periodo y fase, hasta las peculiaridades de la voz musical, es
decir, el movimiento que transcurre interválicamente de una a otra altura tonal
y que da lugar a la melodı́a, pasando por la explicación de fenómenos acústicos
de especial relevancia en la formación del sonido musical, tales como las ondas
estacionarias, la resonancia, los batidos, la consonancia, las envolventes de am-
plitud y de frecuencia, etc. A la vez, se presentan algunas herramientas que nos
permiten observar el sonido musical, tales como el espectrograma y el melograma,
y se proporciona un conocimiento básico sobre cómo funciona nuestra percepción
auditiva.
Pero querrı́a, antes de comenzar, hacer algunas aclaraciones. La primera se refiere
a lo que hay que entender en este curso por “sonido musical”. Si bien es cierto que
la música puede utilizar cualquier tipo de sonido (y no tenemos más que pensar en
las músicas de vanguardia), es necesario aclarar que aquı́ cuando hablo de “sonido
musical” me estoy refiriendo exclusivamente al sonido armónico, es decir, aquél
viii
que posee una altura tonal definida y del que, por lo tanto, podemos decir que es
un re, un fa, un mi, o cualquier otra altura tonal, lo que usualmente llamamos una
nota. No descarto en absoluto la posibilidad de que se pueda utilizar musicalmente
cualquier material sonoro, como hace una parte importante de la música contem-
poránea. Menos todavı́a niego la posibilidad de una música puramente rı́tmica, en
la cual cualquier sonido o ruido puede servir para marcar el tiempo. Sin embargo,
puesto que uno de los objetivos de este curso es proporcionar las bases acústi-
cas convenientes para el estudio de nuestro lenguaje musical estándar, creo que
es oportuno y resulta cómodo restringir la definición de sonido musical al sonido
formado por componentes armónicos.
Lo siguiente que quiero decir es que en este curso me voy a limitar a analizar el
sonido musical desde el punto de vista fı́sico y psicoacústico, sin entrar para nada
en el lenguaje musical. Cualquier sonido obtendrá su valor dentro de una escala o
de un acorde, y allı́ pasará a adquirir un significado por su posición en el sistema
correspondiente. Pero estas cuestiones pertenecen ya a la teorı́a musical, por lo que
aquı́ atenderé únicamente a las caracterı́sticas fı́sicas del sonido y a los aspectos
psicoacústicos de nuestra audición que van a repercutir en la configuración de nues-
tro lenguaje musical. Me voy a centrar en cuestiones como, por ejemplo, en qué
consiste la especificidad del sonido musical o armónico, cuáles son los elementos
básicos de todo sonido musical, qué relación hay entre frecuencia y altura tonal, o
entre amplitud y volumen sonoro, qué razones numéricas deben cumplir los com-
ponentes de los sonidos musicales o armónicos, cómo es posible lograr una buena
afinación —es decir, determinar con precisión las frecuencias de los sonidos—, qué
relación hay entre el hecho fı́sico de la vibración y nuestra forma de percibir los
acontecimientos sonoros, cuáles son los fundamentos fı́sicos de las consonancias, si
los hay, etc.
Y por último, una advertencia para poder apreciar correctamente los ejemplos so-
noros que aparecen en los vı́deos. Es necesario utilizar un sistema de reproducción
sonora que tenga una distorsión razonablemente pequeña. Puede valer un teléfono
móvil, un iPad o cualquier otra tableta con un sistema de audio razonable, pero es
necesario que disponga de un altavoz mı́nimamente decente o, en caso contrario,
los ejemplos deben ser escuchados a través de unos auriculares. Si se reproducen los
vı́deos en un ordenador también es conveniente que tenga unos altavoces de cierta
calidad. La razón es que la distorsión que introduce un sistema sonoro deficiente da
lugar a la aparición de componentes espurios, es decir, componentes que no están
presentes en la señal original. Se producen principalmente dos efectos no deseados
debidos a la distorsión, con posibles repercusiones en la audición de los ejemplos
sonoros. En primer lugar, en el caso de un sonido simple, la distorsión puede añadir
armónicos, produciéndose la llamada “distorsión armónica”, que provocará que no
ix
los oigamos con la pureza con la que debe sonar un sonido simple auténtico (que
deberı́a tener una cualidad sonora similar a la de un diapasón metálico de los uti-
lizados para afinar), sino que escuchemos un sonido más áspero y complejo. En
segundo lugar, en el caso de sonidos compuestos o de las mezclas de sonidos, la dis-
torsión puede provocar la aparición de nuevos componentes, la llamada “distorsión
de intermodulación” y, en especial en los ejemplos de mezclas de sonidos simples,
esta distorsión puede hacer aparecer un nuevo componente grave, precisamente
con una frecuencia que serı́a el resultado de la diferencia entre las frecuencias de
los sonidos mezclados. Algunas leyendas sobre la posibilidad de obtener sonidos
muy graves a partir de los tonos de diferencia son simplemente provocadas por
la distorsión de los equipos de reproducción. Para mitigar este último problema,
cuando he podido, he procurado elegir las frecuencias de los sonidos utilizados en
los ejemplos de tal forma que estos sonidos espurios de diferencia tuvieran una
frecuencia por debajo del lı́mite de graves que un reproductor de audio mediocre
es capaz de dar. Para probar si nuestro equipo distorsiona más de lo aceptable,
podemos atender, por ejemplo, al vı́deo de la figura 9 del capı́tulo 6, en concreto,
cuando se superponen dos sonidos simples cuyas frecuencias están en razón 3/2
(quinta) y 4/3 (cuarta). En ambos casos tenemos que oı́r solamente las dos notas
por separado, de modo que si oı́mos un tercer componente más grave, debemos
atribuirlo a la distorsión de intermodulación provocada por la pobre calidad del
equipo.
Espero que este curso sea de utilidad a todas las personas que se animen a seguirlo.
Mi recomendación es hacer en primer lugar una lectura superficial del capı́tulo
que queramos trabajar, luego atender especialmente a los materiales didácticos y
finalmente repasar de nuevo el texto. Si hay algún profesor que le interese para
sus clases algunos de los vı́deos, puede utilizarlos también con toda libertad y
complementarlos con sus propias explicaciones.
x
Capı́tulo 1
El sonido como vibración
1.1. ¿Qué es el sonido?

Empecemos conociendo qué es el sonido, cualquier sonido, sea o no musical. La
primera cuestión que es necesario tener clara es que el sonido es una vibración
mecánica que se propaga en un medio elástico.
Si nos molesta el ruido que hace alguien que está en la habitación de al lado
es porque la pared que nos separa se está moviendo, se está deformando, está
vibrando. Bien, es cierto, se mueve muy poco, las deformaciones son mı́nimas,
pero son lo suficientemente intensas como para que, a su vez, estas vibraciones
mecánicas hagan vibrar el aire de nuestra habitación y el ruido de la habitación
de al lado llegue a nuestros oı́dos.
Toda vibración es posible porque el medio que vibra es elástico. En efecto, el aire es
elástico: el aire se comprime y se expande, aumentando y disminuyendo la presión
que ejerce sobre todo lo que rodea. Y la pared, aunque no lo parezca a simple
vista, también es elástica.
Ası́ pues, cualquier vibración mecánica, hablando en términos generales, es sonido.
Pero como habitualmente el medio por el que se transmite el sonido es el aire y
como lo que nos interesa ahora es el sonido que los humanos somos capaces de
percibir, para simplificar podemos pensar que el sonido es la alteración
producida en nuestro sistema perceptivo por las pequeñas y rápidas
oscilaciones de la presión del aire en torno a su valor medio.
Ahora bien, decimos que el sonido es movimiento, que la pared a través de la que
llega a nuestros oı́dos el ruido de la habitación de al lado se está deformando, pero
1
no vemos que nada se deforme, no apreciamos que nada se mueva. Ello se debe a
dos peculiaridades de las vibraciones mecánicas que percibimos como sonido.
La primera es que las amplitudes de las vibraciones sonoras son, en general, muy
pequeñas. Por poner un ejemplo, la variación de la presión sonora en una calle
con un tráfico moderado, debida al ruido de los coches y de los transeúntes, es
aproximadamente una millonésima parte de la presión media del aire.
La segunda es que las vibraciones sonoras son muy rápidas para ser seguidas por
nuestra vista. Nosotros sólo percibimos como sonidos las vibraciones mecánicas
que se producen dentro de un margen temporal adecuado a nuestra percepción, en
concreto, aquéllas que realizan una oscilación completa en un rango que va desde
unas 20 veces por segundo hasta unas 20.000 veces por segundo.
Para obtener una imagen intuitiva de la vibración sonora, podrı́amos imaginar el
aire como si estuviera formado por pequeñas bolitas o esferitas unidas por diminu-
tos muellecillos, unas esferitas que estarı́an igualmente espaciadas en su posición
de equilibrio y que osciları́an siguiendo el movimiento de la fuente sonora.
Este modelo es apropiado para simular las variaciones de la presión del aire que
constituyen el sonido. El hecho de que las esferitas se aproximen entre sı́ se co-
rresponde con un aumento de la densidad del aire y, por lo tanto, de la presión,
mientras que el que se alejen unas de otras representa la rarefacción y la dis-
minución de la presión del aire. Los muellecillos simulan la posibilidad de todo
medio elástico de ser deformado, ası́ como su tendencia a recuperar la posición de
equilibrio.
Utilizando este modelo de las esferitas y los muelles, he confeccionado varios vı́deos
didácticos, cuyos fotogramas han sido generados con Matlab. Estos vı́deos nos
ayudarán a asimilar los principales conceptos implicados en la vibración sonora,
los cuales son estudiados en los apartados “Simulación de la vibración del aire en
un sonido simple” y “Simulación de la vibración del aire en un fragmento sonoro
complejo”. Espero que esta forma de representación resulte útil para entender en
qué consiste la vibración del sonido y cómo se transmite por el aire el movimiento
vibratorio desde la fuente sonora hasta nuestros oı́dos.
1.2. Simulación de la vibración del aire en un sonido sim-

ple
Veamos un vı́deo que simula a cámara lenta cómo vibra el aire cuando suena un
sonido simple, es decir, un sonido con una frecuencia y una amplitud estables y
2
sin armónicos. El vı́deo sigue el modelo del aire formado por una serie de bolitas y
muellecillos que se desplazan cuando cambia la presión del aire como consecuencia
de la vibración sonora.
El vı́deo representa la vibración del aire cuando suena la nota la4 generada artifi-
cialmente, cuya frecuencia es de 440 Hz. He elegido para este ejemplo un sonido
simple porque, al ser su movimiento vibratorio muy sencillo y repetitivo, nos va a
permitir observar con facilidad los rasgos caracterı́sticos de toda vibración sonora y
de su propagación. He ralentizado el movimiento 440 veces y he amplificado mucho
el desplazamiento de cada esferita para que se pueda apreciar la vibración con faci-
lidad. El sonido del vı́deo, sin embargo, corresponde a la nota la4 tal cual, es decir,
sin ralentizar, por lo que la finalidad del sonido es meramente ilustrativa.
Figura 1.1: Vı́deo que modeliza, ralentizada 440 veces, la vibración del aire ocasionada
por la nota musical simple la4 .
Aunque la finalidad del vı́deo es puramente didáctica, he tratado de que el modelo

sea lo más realista posible. Por ello cada cuadro del vı́deo ha sido realizado con
Matlab. Este programa me ha permitido calcular la posición instantánea de cada
una de las esferitas del modelo durante la emisión de este sonido. Ası́, el vı́deo
simula lo que ocurre en una imaginaria sección cúbica de aire de 2 metros de lado
situada en un espacio abierto, sin viento y sin obstáculos, lo cual evita la necesidad
de tener en cuenta cualquier perturbación en la propagación del sonido.
Puesto que el sonido en realidad se propaga en todas las direcciones por igual, es
necesario pensar que el cubo está a gran distancia de la fuente sonora, de modo
que los movimientos de las esferitas puedan ser considerados como prácticamente
paralelos. Para ello suponemos que a la izquierda del cubo, a 100 metros o más de
3
distancia, un altavoz potente está emitiendo la nota musical la4 que acabamos de
oı́r. Suponemos también que la nota está ya sonando de una forma estable cuando
el vı́deo se inicia.
Cada esferita del vı́deo representa un volumen esférico de aire de 2,8 cm de radio.
En su posición de equilibrio la distancia entre los centros de estas esferas es de 9,69
cm. He elegido esta distancia para que la longitud de onda del sonido analizado
abarque un número entero de esferitas en nuestra simulación.
Ya que la propagación de la vibración se realiza de izquierda a derecha, en el vı́deo
los muellecillos sólo unen las esferitas en el sentido longitudinal. Esta es también
la razón de que las esferitas que se mueven sincronizadamente estén agrupadas en
paneles paralelos a las caras laterales del cubo.
Debemos suponer que la vibración que vemos en esta simulación está siendo pro-
vocada por la masa de aire que se encuentra a la izquierda del cubo, la cual, a su
vez, está siendo movida por el cono del altavoz que está emitiendo la nota musical
la4 . Cuando el cono del altavoz se desplaza a la derecha, desplaza a la derecha la
masa de aire que está en contacto inmediato con él, con lo que éste se comprime.
Cuando se comprime, su densidad aumenta y, por lo tanto, la presión que ejerce
sobre lo que le rodea se hace más elevada. Ello hace que, a su vez, pero con un
cierto retraso, desplace y comprima el aire que sigue a continuación, y ası́ sucesiva-
mente. Cuando el cono del altavoz se desplaza hacia la izquierda, el vacı́o que deja
atrae el aire de sus inmediaciones, con lo que su densidad disminuye y su presión
desciende. Esta disminución de la presión provoca, a su vez, la atracción del aire
vecino.
1.2.1. Propagación de la perturbación a través del aire
Los movimientos de la fuente sonora provocan una cadena de compresiones y

rarefacciones que constituyen ondas de presión que se desplazan por el interior de
la masa de aire. Veamos cómo se producen.
Lo primero que observamos a simple vista en el vı́deo es un cubo que vibra, es-
tirándose y encogiéndose como si fuera una especie de fuelle, y lo hace de una
manera totalmente regular. La regularidad y simplicidad de esta vibración es de-
bida a que estamos simulando un sonido simple, es decir, una nota musical sin
armónicos.
Si nos distanciamos un poco de la pantalla para tener una visión de conjunto,
podemos apreciar unas perturbaciones que se desplazan de izquierda a derecha.
Estas perturbaciones, que se corresponden con las alteraciones de la presión del
4
aire, constituyen un movimiento ondulatorio, que es la manera en la que se propaga
el sonido desde la fuente sonora hasta nuestros oı́dos.
En efecto, distinguimos varias áreas donde los paneles de esferitas progresivamente
se amontonan, dando una sensación de mayor densidad o, lo que viene a ser lo
mismo, de mayor presión. Estas áreas de mayor densidad parecen surgir de la cara
lateral izquierda del cubo, viajar de izquierda a derecha y desaparecer por la cara
lateral derecha. Cada una de estas condensaciones que surge deja a su paso otra
zona donde los paneles de esferitas se van separando y en la que, por lo tanto, la
densidad y la presión del aire serán menores.
Podemos ver en el vı́deo que estas condensaciones se renuevan una vez por se-
gundo. En efecto, cada segundo parece surgir de la cara izquierda del cubo una
nueva condensación, por lo que la frecuencia de las ondulaciones que apreciamos
en este vı́deo es de 1 Hz. Teniendo en cuenta que en él se representa el movimiento
vibratorio ralentizado 440 veces, la frecuencia real con la que se renuevan estas
zonas de presión en el aire será de 440 veces por segundo, lo que coincide con la
frecuencia de la nota musical que está sonando, un la4 de 440 Hz.
Si midiéramos con exactitud, mediante un editor de vı́deo u otro programa similar,
el tiempo que tarda cada una de las condensaciones en recorrer el cubo, verı́amos
que es de 2,58 segundos. Como el lado del cubo representado mide 2 metros, en
un segundo cada condensación recorrerá 0,775 metros (2 ÷ 2, 58 = 0, 775). Como
la realidad es 440 veces más rápida, la velocidad real en la que se propagarı́a la
perturbación serı́a de 341 m/s (0, 775 × 440 = 341), lo cual es coherente con la
velocidad de propagación del sonido en el aire.
1.2.2. Movimiento individual de oscilación
Sin embargo, si nos fijamos en cada una de las esferitas nos daremos cuenta de
que no se van desplazando indefinidamente hacia la derecha, sino que tienen úni-
camente un movimiento oscilatorio horizontal en torno a su posición de equilibrio:
sólo se mueven realizando un sencillo vaivén de izquierda a derecha y de derecha
a izquierda, en un rango muy reducido de desplazamiento respecto a su posición
central. Y lo mismo ocurre con los paneles en los que se agrupan.
Además, si observamos con un poco de detenimiento varias esferitas elegidas al
azar podremos comprobar que todas ellas realizan el mismo movimiento. Unas se
mueven antes y otras después en función del panel en el que se encuentran, pero
todas las esferitas del cubo oscilan exactamente de la misma manera.
5
Dado que en nuestra simulación hemos elegido un sonido simple, el movimiento de
cada esferita es un sencillo vaivén. Este sencillo vaivén repite el movimiento que
ha efectuado el cono del altavoz al emitir el sonido.
Para observar con detalle el movimiento de una esferita cualquiera he realizado un
vı́deo en el que aparece la oscilación de una esferita del cubo aislada, ralentizada
ahora 880 veces, es decir, el doble que en el vı́deo de la figura 1.1. Conforme va
oscilando se va dibujando la forma de su movimiento en el tiempo.
Tiempo
Desplazamiento
Figura 1.2: Vı́deo con el movimiento de oscilación de una esferita cualquiera del cubo
de la figura 1, ralentizado 880 veces.
Vemos que la forma de la gráfica que dibuja el movimiento de oscilación de ca-

da esferita en el tiempo es una sucesión de eses. En efecto, en el momento en
el que la esferita alcanza su máximo desplazamiento hacia la derecha se detiene
instantáneamente y cambia de sentido, empezando a moverse hacia la izquierda.
Entonces va aumentando progresivamente su velocidad hasta pasar por la posi-
ción de equilibrio, a partir de la cual va frenándose gradualmente hasta alcanzar
su desplazamiento máximo hacia la izquierda. En ese momento de nuevo se de-
tiene instantáneamente y cambia de sentido, moviéndose ahora hacia la derecha,
recorriendo de la misma manera el mismo camino, pero en sentido opuesto, hasta
llegar otra vez a su desplazamiento máximo por el lado derecho, donde inicia una
nueva oscilación.
6
Observamos que la esferita tarda 2 segundos en realizar una oscilación completa.
Esta duración es el periodo de oscilación de la esferita que vemos en la pantalla.
Como el vı́deo está ralentizado 880 veces, el periodo real de la oscilación de este
sonido será de 2,3 milésimas de segundo (2 ÷ 880 = 0, 0023).
Visto de otra manera, en un segundo la esferita de este vı́deo realiza media osci-
lación completa. Eso quiere decir que su frecuencia de oscilación es de 0,5 Hz. Al
estar ralentizado 880 veces, la frecuencia real de la oscilación es de 440 Hz, que
es la frecuencia de vibración del la4 que está sonando. Comprobamos, ası́ pues,
que la frecuencia de oscilación de las esferitas es la misma que la frecuencia del
movimiento ondulatorio de propagación, es decir, la frecuencia con la que se re-
nuevan las condensaciones en un punto del espacio que hemos visto en el apartado
anterior.
1.2.3. De la oscilación individual a la propagación ondulatoria
Al oı́r la palabra ondulación nos viene enseguida a la mente la imagen de las olas del
mar o la de los cı́rculos concéntricos que surgen en un estanque de agua al arrojar
una piedra. Pero en nuestra simulación no vemos nada que ondule, nada que tenga
la forma de una onda; a lo más, intuimos un cierto carácter ondulatorio en la su-
cesión de condensaciones y rarefacciones. Ello se debe a que las ondas mediante
las que se propaga el sonido son ondas de presión longitudinales, mientras
que las ondas del estanque o del mar son principalmente transversales.
Voy a explicar a continuación cómo son las ondas longitudinales mediante las que se
propaga el sonido. Veremos cómo surgen las ondas sonoras a partir del movimiento
individual de oscilación, que reproduce la oscilación de la fuente sonora, y de la
elasticidad del medio, en este caso, el aire. Comprenderemos, ası́ mismo, que como
consecuencia de la elasticidad del medio, la forma de la onda en el espacio
es la misma que la forma de la oscilación de la fuente sonora en el
tiempo.
En términos de nuestra simulación, vamos a estudiar cómo a partir del movimien-
to oscilatorio de cada una de las esferitas se genera el movimiento ondulatorio
mediante el que se propaga la perturbación.
Para ello he fabricado un vı́deo con una fila aislada del cubo de la figura 1.1, en el
que las esferitas aparecen oscilando, pero ahora con el movimiento ralentizado 880
veces. La oscilación de cada una de las esferitas se va dibujando en el tiempo con
trazos de ocho colores distintos. La lı́nea ondulada verde que aparece por encima
y por debajo de las esferitas indica la variación de la presión del aire a lo largo del
espacio.
7
Tiempo
Espacio
Figura 1.3: Vı́deo con el movimiento oscilatorio de una fila de esferitas.
Analicemos con un poco de detenimiento lo que vemos en este vı́deo y lo que sucede
en la realidad que simula.
a) En las ondas longitudinales la dirección de propagación es la misma que la de la

oscilación
Podemos apreciar con claridad que la oscilación de cada una de las esferitas se
realiza en la misma dirección que la propagación de las perturbaciones, en este caso,
de izquierda a derecha. Por eso los desplazamientos individuales de las esferitas, al
oscilar en torno a su posición de equilibrio, se camuflan en el movimiento general
de propagación, lo que explica que en el cubo del aire vibrando de la figura 1.1 no
se observe ninguna forma ondulada en el espacio.
En la realidad, los pequeñı́simos desplazamientos del aire, representados por la
oscilación de las esferitas, oscilan en la misma dirección en la que se propaga el
sonido por el espacio, repitiendo el movimiento de la fuente sonora. Este tipo de
ondas se llaman longitudinales y mediante ellas se propaga el sonido.
8
b) Los desfases provocados por la elasticidad transforman los desplazamientos oscila-
torios del aire en oscilaciones de la presión
En el vı́deo observamos que la elasticidad de los muellecillos causa retrasos en la

transmisión del movimiento oscilatorio de las esferitas. Vemos que la fuente del
movimiento de cada esferita es la que está situada inmediatamente a su izquierda;
ahora bien, la elasticidad de la unión entre la esferita impulsora y la impulsada
hace que los constantes cambios de velocidad del movimiento oscilatorio de la
esferita impulsora se transmitan con retraso. Esto explica que los dibujos en forma
de ese que cada esferita va trazando en el tiempo, aún siendo iguales en la forma,
estén desfasados, lo que queda reflejado por los distintos colores con los que están
pintados.
A su vez, el retraso en la transmisión del movimiento provoca que en unos momen-
tos las esferitas se vayan aproximando y en otros se vayan alejando, con las corres-
pondientes compresiones y elongaciones de los muellecillos que las unen.
Para entender cómo surge la oscilación de la presión a partir de los desfases de-
rivados de la elasticidad, presento un nuevo vı́deo con un detalle ampliado del
movimiento de las dos primeras esferitas. En el rectángulo de la derecha se va
trazando la separación entre ellas, o lo que es lo mismo, el grado de compresión o
elongación del muelle que las une.
Tiempo
Tiempo
Desplazamiento Distancia entre esferitas
Figura 1.4: Vı́deo con la oscilación de las dos primeras esferitas y la evolución de sus
distancias.
9
Podemos apreciar en este nuevo vı́deo cómo la evolución en el tiempo del grado
de compresión o elongación del muelle reproduce, aunque desfasada, la forma y
el ritmo de la oscilación de las esferitas individuales. En este caso, como estamos
analizando un sonido simple, ambas oscilaciones tienen la forma de una sucesión
de eses, que repiten la oscilación de la fuente sonora.
En efecto, en la vibración real la presión del aire en cualquier punto del espacio
oscila con la misma forma y ritmo que los pequeñı́simos desplazamientos de aire
provocados por la oscilación de la fuente sonora.
c) La onda que se desplaza por el espacio tiene la misma forma que la oscilación en el
tiempo
Como consecuencia de los desfases debidos a la elasticidad, se produce una cadena

de condensaciones y rarefacciones del aire que se extiende por el espacio. Estas
variaciones de la presión del aire a lo largo del espacio constituyen la onda sonora.
Podemos hacernos una idea intuitiva de lo que es la onda sonora si nos fijamos en
la lı́nea ondulada verde del vı́deo de la figura 1.3. Allı́ podemos ver también que la
forma de esta onda que se desplaza imita los dibujos de colores que las oscilaciones
de cada una de las esferitas van trazando en el tiempo.
En efecto, los retrasos producidos por la elasticidad de los muelles son también la
causa de que el movimiento oscilatorio que realizan las esferitas en el tiempo se
dibuje en el espacio. Si miramos con un poco más de atención ese vı́deo, podre-
mos apreciar que, en un instante cualquiera, la secuencia a lo largo del espacio de
aproximaciones y separaciones entre las esferitas reproduce la secuencia de aproxi-
maciones y separaciones de las dos primeras esferitas a lo largo del tiempo.
Como la fuente sonora está a la izquierda, lo que está más a la derecha en el
espacio es lo que ha sucedido antes en el tiempo, pues es lo que ha tardado más
en llegar. Puesto que la evolución de las distancias entre las esferitas repite el
movimiento de la fuente sonora, conforme se encuentren más a la derecha —o sea,
más lejos de la fuente—, su estado se corresponderá con un momento anterior.
Por poner un ejemplo, la distancia entre las dos últimas esferitas de la derecha
en un instante determinado es la misma que la que habı́a en un instante anterior
entre la penúltima y la antepenúltima, que, a su vez, es la misma que en otro
instante anterior se producı́a entre la antepenúltima y la que le antecede, y ası́
sucesivamente.
Ası́ pues, en un instante dado, las distancias entre las sucesivas esferitas a lo largo
de la fila reflejan la historia del movimiento de la fuente sonora.
10
Podemos observar también en este vı́deo que la secuencia de separaciones entre
las esferitas se va desplazando por el espacio. Lo que se desplaza a lo largo del
espacio no son las esferitas, que sólo tienen un pequeño movimiento oscilatorio,
sino el patrón de proximidad y lejanı́a entre ellas. Lo mismo sucede en la vibración
real, donde lo que se desplaza no son las masas de aire, sino la onda de presión y
con ella la información que lleva implı́cita, que no es otra sino la información de
la fuente sonora.
d) En un sonido simple la onda de presión del aire tiene forma de ese y una longitud
definida
Veamos ahora lo que es especı́fico de un sonido simple y, en concreto, de la onda

que corresponde a la nota la4 de nuestro ejemplo.
En el vı́deo de la figura 1.3 podemos ver que la acumulación de los desfases provoca
que todas las esferitas que estén separadas entre sı́ por ocho muellecillos oscilen
siempre sincronizadamente.
En efecto, en los dibujos en forma de ese que trazan las esferitas al oscilar po-
demos apreciar que los retrasos con los que todas ellas repiten el movimiento de
la primera de la izquierda se van incrementando linealmente, es decir, según la
misma cantidad. La acumulación de los sucesivos retrasos hace que en la novena
esferita el desfase respecto a la primera coincida exactamente con una oscilación
completa, de modo que ambas oscilan de manera sincronizada. Los dibujos de las
esferitas que oscilan sincronizadamente están pintados en el vı́deo con el mismo
color.
Como consecuencia de ello, las separaciones entre las esferitas forman un patrón
en el espacio que se repite cada ocho esferitas. En cualquier momento en el que
paremos el vı́deo de la figura 1.3, si tomamos como primera la esferita que en ese
momento está entre los muelles más comprimidos, siempre comprobaremos que
la quinta esferita estará entre los muelles más distendidos y la novena, de nuevo,
entre los muelles más comprimidos.
Al margen de las imprecisiones debidas al reducido número de esferitas, este patrón
de compresiones y elongaciones representa la onda de presión sonora en el espacio.
Podemos observar en ese vı́deo que los valores máximos de presión, representados
por los picos de la gráfica verde, vienen a coincidir con los puntos del espacio en
los que los muellecillos están más comprimidos, mientras que los valores mı́nimos
coinciden con aquellos puntos en los que los muelles están más estirados.
11
Para apreciar mejor la forma de la onda en el espacio en este sonido simple, presento
una instantánea de la cara frontal del cubo de la figura 1.1, en la que he trazado la
gráfica de la presión del aire. He teñido cada esferita siguiendo la misma serie de
colores del vı́deo de la figura 1.3, lo que facilita el reconocimiento del patrón.
Figura 1.5: Cara frontal del cubo con la gráfica de la onda de presión en el espacio.
La longitud de onda es la distancia entre dos puntos equivalentes de la perturbación

o, lo que en nuestra simulación viene a ser lo mismo, entre dos esferitas del mismo
color. En este caso, dado que la distancia entre las esferitas en la posición de
equilibro es de 9,69 cm, esta longitud es de 77,5 cm (9,69 x 8), lo que corresponde
a la longitud de onda esperada para la nota la4 a 440 Hz con una velocidad del
sonido de 341 m/s.
Si ahora volvemos de nuevo al vı́deo de la figura 1.3 y prestamos un poco de
atención, podremos apreciar también que en el tiempo en el que cualquier esferita
realiza una oscilación completa, es decir, en el tiempo del periodo de la oscilación
—en este vı́deo 2 segundos—, el patrón que representa la onda de presión ha
recorrido exactamente la distancia que lo define, en este caso el espacio abarcado
entre los centros de nueve esferitas.
De la misma manera, en la vibración real de un sonido simple la longitud de la
onda coincide con la distancia que recorre la onda de presión durante el
tiempo que dura una oscilación completa, es decir, el periodo de la oscilación.
En nuestro ejemplo, como el periodo de la oscilación real es, redondeando, de 2,3
milésimas de segundos ((2 ÷ 880) = 0, 002273) y la velocidad del sonido que hemos
12
supuesto es de 341 m/s, la longitud de onda será de 77,5 cm ((2 ÷ 880) × 341 =
0, 775) , lo que coincide con la medida que hemos obtenido a partir de esta figura
1.5.
1.3. Simulación de la vibración del aire en un fragmento so-

noro complejo
El carácter sencillo y repetitivo de la vibración en el caso de un sonido simple se
debe a que no posee armónicos y su amplitud y frecuencia permanecen constantes
a lo largo de toda su duración. Pero la realidad sonora es mucho más compleja:
los sonidos van cambiando con el tiempo; es frecuente que varias notas distintas
estén sonando a la vez; y puede que ni siquiera se trate de un fragmento musical,
sino de una conversación o del ruido de tráfico, por ejemplo.
Para hacernos una idea de cómo varı́a la presión del aire en el caso de un sonido
complejo he fabricado un vı́deo que representa la vibración ocasionada por un
brevı́simo fragmento del inicio de la Quinta Sinfonı́a de Beethoven. El sonido
es meramente ilustrativo, pues la vibración que simula el vı́deo corresponderı́a
solamente a 27 milésimas de segundo. He utilizado el mismo modelo del cubo
de aire simulado por esferitas unidas por muellecillos. La única diferencia es que
ahora, para que se pueda apreciar con más facilidad el movimiento individual de
oscilación, he destacado con más luz una esferita.
Figura 1.6: Vı́deo que modeliza, ralentizada 440 veces, la vibración del aire ocasiona-
da por un fragmento de 27 milésimas de segundo del inicio de la Quinta Sinfonı́a de
Beethoven.
13
Si nos fijamos en el movimiento de oscilación de la esferita más iluminada, no
encontramos nada parecido al sencillo vaivén del vı́deo que simula un sonido simple.
En efecto, en el caso de un fragmento sonoro real, con toda su complejidad, los
pequeñı́simos desplazamientos de aire no consisten ya en una simple oscilación de
tipo pendular que se repite una y otra vez, sino que se trata de una oscilación
bastante más compleja, que se va transformando con el transcurso del tiempo.
Además, y como consecuencia de ello, tampoco la onda de presión en el espacio
tendrá una forma fija, sino que irá cambiando constantemente. Por eso, conceptos
como periodo y frecuencia de la oscilación o longitud de onda ya no serán tan
evidentes.
Pero, lo esencial de todo movimiento ondulatorio se cumple también en el caso de
cualquier sonido complejo, sea o no musical.
Dado que en ambas simulaciones hemos supuesto las mismas condiciones para el
aire, podemos apreciar que en los dos casos el retraso ocasionado por la elasticidad
de los muellecillos es el mismo y, en consecuencia, la velocidad con la que se
propagan las perturbaciones es también igual.
Y lo que es más importante, aunque el movimiento de oscilación sea complejo,
observamos que también ahora todas las esferitas del cubo repiten, cada una con su
retraso, el mismo movimiento, el movimiento que está inducido por la fuente. Esto
nos ilustra sobre lo que ocurre en la vibración del aire. En el aire la oscilación de
la presión en cualquier punto del espacio repite, con su correspondiente
desfase en función de la lejanı́a, las variaciones de la presión originadas
por la fuente sonora al emitir cualquier sonido.
Ası́ mismo, vemos que también en el caso de un fragmento sonoro complejo, la
secuencia de distancias entre las esferitas reproduce la forma de la oscilación de
cada una de ellas. En lo que concierne al aire, la onda de presión a lo largo del
espacio adquiere la misma forma que la oscilación de la presión en un punto a lo
largo del tiempo.
1.4. Conclusión
Mediante la simulación por ordenador de la vibración sonora en el aire, hemos
experimentado qué significa que el sonido sea una vibración mecánica que se pro-
paga por un medio elástico. Hemos visto que el movimiento oscilatorio de la fuente
sonora, sea simple o complejo, se repite en cualquier punto del medio elástico por
el que se propaga, dando lugar a oscilaciones de la presión. Ası́ mismo, hemos
comprendido cómo en la transmisión del movimiento oscilatorio se generan ondas
14
de presión que toman la misma forma que la oscilación de la fuente. En conse-
cuencia, podemos concluir que la información sonora está contenida tanto en la
oscilación de la presión en cualquier punto del espacio, como en las formas que va
adquiriendo la onda al propagarse.
15
Capı́tulo 2
La señal de audio
2.1. Representación del sonido

Dada la rapidez y el reducido rango de las oscilaciones de la presión del aire que
dan lugar al sonido, nosotros no podemos observarlo directamente. Sin embargo,
con el avance de la tecnologı́a, se han desarrollado diversos sistemas capaces de
registrar el movimiento vibratorio que lo constituye, lo que ha permitido, por un
lado, reproducirlo más tarde a voluntad y, por otro, estudiarlo y hasta manipularlo.
Todos estos métodos están basados en conseguir que la forma de la vibración sonora
deje un rastro, una huella, es decir, una señal.
En efecto, toda la información que lleva consigo el sonido está contenida dentro de
la forma de la vibración. La señal de audio es el dibujo que esa vibración
traza en el tiempo. En el caso del aire, la señal de audio viene dada por la forma
de la oscilación de la presión en torno a su valor medio, en un punto determinado
del espacio. Bastará, ası́ pues, con obtener el dibujo de esa oscilación de la presión
para lograr una representación del sonido. Cuando el contenido de la vibración
sonora es una pieza o un fragmento de música, a esa representación del sonido se
la denomina señal musical.
Desde mediados del siglo XIX se desarrollaron varios ingenios para atrapar el soni-
do, es decir, para guardarlo y volver a reproducirlo posteriormente. Surgieron los
primeros fonógrafos, que, como su nombre indica, pretendı́an “escribir el sonido”.
Aquellos fonógrafos consistı́an en una membrana capaz de vibrar solidariamente
con el aire y que, a través de una serie de palancas intermedias que ampliaban la
vibración, transmitı́a su movimiento a un fino estilete. El estilete iba dibujando la
forma de la oscilación en una capa de cera o en un papel ahumado colocado sobre
16
la superficie de un cilindro que rotaba. De esta manera, la huella de la vibración
quedaba registrada.
Figura 2.1: Un fonógrafo. Dibujo de la época.
Con el desarrollo de la electricidad, las oscilaciones mecánicas de la membrana que

captaba el sonido pasaron a transformarse en oscilaciones de la tensión eléctrica,
las cuales, a su vez, podı́an de nuevo ser transformadas en vibraciones mecánicas.
Nacı́an el micrófono y el altavoz eléctrico. La aparición de las válvulas electróni-
cas y, luego, de los transistores permitió controlar la amplificación y mejorar la
fidelidad del registro sonoro, ası́ como difundir por radio la señal a lugares remo-
tos. Posteriormente se desarrolló el registro de la señal de audio en un soporte
magnético, lo que facilitó la edición del sonido.
Todas estas representaciones del sonido que imitan de manera más o menos directa
el dibujo de la vibración sonora se conocen con el nombre de señal analógica
de audio, con independencia de que el soporte utilizado sea cera, vinilo, cinta
magnética o cualquier otro.
Pero desde hace unas décadas el avance de la tecnologı́a ha permitido dar un paso
más y transformar la oscilación de la presión del aire en una lista de números. Para
ello es necesario tomar una cantidad muy elevada de mediciones por segundo de la
señal analógica. Mediante estas mediciones, que recogen con la precisión deseada
el movimiento vibratorio original, se digitaliza la señal sonora. Obtenemos ası́ la
lista de números que constituye la representación digital de la vibración y que
recibe, por ello, el nombre de señal digital de audio. Conforme mayor sea la
cantidad de muestras obtenidas —es decir, la frecuencia del muestreo—, mejor
será la aproximación al movimiento vibratorio real que obtendremos.
La transformación en números de la vibración sonora permite que el tratamien-
to del sonido se pueda realizar simplemente mediante operaciones matemáticas
17
simples. Por ejemplo, amplificar un sonido consiste en multiplicar cada una de
sus muestras por una cantidad constante; para mezclar dos grabaciones digitales
sólo hay que sumar los valores correspondientes de cada una de sus muestras, etc.
Además, la señal digital de audio, al tratarse solamente de una lista de números,
no se pierde ni se deteriora por muchas veces que sea reproducida. Y a partir de esa
lista de números se pueden generar con facilidad gráficas e imágenes que facilitan
la observación y el estudio de los sonidos.
2.2. Un ejemplo de registro digital

Veamos mediante un ejemplo en qué consiste el registro de la señal de audio di-
gital. Un sistema muy sencillo y al alcance de cualquiera puede estar formado
simplemente por un micrófono de condensador con salida digital y conectado a un
ordenador.
La cápsula de un micrófono de condensador posee una membranita muy fina que
vibra como consecuencia de las variaciones de la presión del aire que llegan hasta
ella. Esta membranita constituye una de las dos placas de las que consta un con-
densador eléctrico. Al desplazarse esta membranita, debido a la vibración del aire,
se acerca o se aleja de la placa fija del condensador, lo que produce un cambio
en la capacitancia de éste, un cambio que es proporcional al desplazamiento de la
membranita. De esta manera las vibraciones mecánicas que dan lugar al sonido se
transforman en variaciones de la tensión eléctrica.
Si a este mecanismo le unimos un sistema capaz de medir con rapidez esas va-
riaciones de la tensión eléctrica, tendremos ya una herramienta que nos permitirá
transformar en números lo que sucede en la vibración sonora. Se trata de un pe-
queño circuito integrado llamado Conversor Analógico Digital (CAD o ADC, por
sus siglas en inglés). La cantidad de mediciones que se toman por segundo se llama
frecuencia de muestreo. Una frecuencia de muestreo estándar con la que se puede
conseguir ya la máxima fidelidad es 44.100 muestras por segundo.
Hay que tener en cuenta que las muestras no contienen los valores absolutos de
las variaciones de la presión del aire, sino valores que son relativos entre sı́, habi-
tualmente normalizados entre 1 y -1. El valor 0 corresponde a la presión ambiental
del aire en ausencia de sonido y los valores 1 y -1 a la presión sonora máxima y
mı́nima respectivamente que el sistema puede registrar.
Por su parte, el ordenador nos proporciona un lugar para almacenar las mediciones
que vamos obteniendo y nos permite también generar, a partir de esta lista de
números, todo tipo de gráficas e imágenes.
18
Supongamos que queremos registrar y guardar en un archivo de ordenador los com-
pases iniciales de la Quinta Sinfonı́a de Beethoven interpretada por una orquesta
cualquiera en un dı́a cualquiera. Los números obtenidos —es decir, las medidas o
muestras que resulten de digitalizar la oscilación de la presión del aire en torno a
su valor medio en el lugar en el que hayamos colocado el micrófono— constituirán
la señal de audio digital de esta interpretación concreta. Y esta lista de números
será el archivo de sonido que guardaremos en el ordenador.
Para ilustrar cómo surge la señal de audio digital a partir de la vibración sono-
ra, he fabricado un vı́deo con imágenes obtenidas mediante Matlab. En el vı́deo
se simula, a cámara lenta, el movimiento arriba y abajo de la membranita del
micrófono, provocado por la variación de la presión del aire en el punto donde
se halla colocado, cuando suena un pequeñı́simo fragmento del inicio de la Quinta
Sinfonı́a de Beethoven. El resultado de ese movimiento se va dibujando en el panel
de la izquierda, dibujo que da lugar a la señal analógica de ese fragmento. En el
panel de la derecha va apareciendo el valor numérico de las muestras que se van
obteniendo, es decir, lo que constituye la señal digital.
El movimiento que apreciamos en el vı́deo está ralentizado 1.000 veces. Aunque
el sonido es meramente ilustrativo, hay que tener en cuenta que el movimiento
de la membrana, el dibujo de la señal y el valor numérico de las muestras que
aparecen en el vı́deo se corresponden a las 20 primeras milésimas de segundo de
esa grabación concreta de la interpretación de esta sinfonı́a de Beethoven realizada
por esa orquesta en ese momento.
Figura 2.2: Vı́deo que ilustra el proceso de digitalización sobre un fragmento de 20 ms

de los primeros compases de la Quinta Sinfonı́a de Beethoven.
19
El espacio de color azul viene a representar el interior de la cápsula del micrófono,
mientras que la raya horizontal de color amarillo que se desplaza arriba y abajo es
la membranita del micrófono que se mueve dentro de la cápsula, aunque la medida
real del desplazamiento de la membranita por la cápsula del micrófono serı́a de
unos pocos micrómetros.
La señal analógica es la gráfica de color blanco que se dibuja desde la cápsula del
micrófono como consecuencia de la transformación de la oscilación de la presión
del aire en oscilación de la tensión eléctrica. Las pequeñas cruces verdes que están
sobre esta gráfica de la señal representan los puntos en los que se van tomando las
muestras para la digitalización. Estas muestras se toman a intervalos de tiempo
iguales, lo que se llama la frecuencia de muestreo, que en este caso ha sido de
25.000 muestras por segundo.
Esas mediciones van apareciendo en el recuadro de la derecha. Si detenemos el
vı́deo en un instante cualquiera, podemos comprobar que el último número que
aparece, el situado en la parte superior de la lista, corresponde a la posición de
la membranita en ese momento. La lista de todas estas muestras numéricas es la
señal digital de este fragmento sonoro. Estos números se pueden almacenar en un
archivo de ordenador, de modo que el sonido quede registrado.
Si continuáramos digitalizando el sonido de la Sinfonı́a completa a tiempo real
y guardáramos la enorme lista de números, sin alteración alguna, obtendrı́amos
exactamente esa interpretación concreta, tal como fue recogida por el micrófono.
Y lo más interesante es que si conserváramos esa lista de números, no ya en un
ordenador o en un CD, sino, por poner un ejemplo disparatado, uno detrás de otro
en un papel, tendrı́amos exactamente la grabación original, sin que se perdiera
nada de ella.
A partir de esta señal digital de audio que puede ser guardada en un archivo del
ordenador es posible reproducir el sonido de esta interpretación. El sistema de
sonido de cualquier ordenador posee un circuito integrado capaz de convertir los
números en variaciones de la tensión eléctrica, un Conversor Digital Analógico
(CDA, o DAC, por sus siglas en inglés). De esa manera se puede recuperar la
misma forma original de la señal analógica. Idealmente, el altavoz al que tenemos
conectado el ordenador vibrará siguiendo la lista de números de la señal de audio
que tenemos almacenada y provocará las mismas oscilaciones de la presión de aire
que habı́an sido registradas.
20
2.3. El editor de sonido
Veamos ahora cómo podemos representar y observar con ayuda de un editor de
sonido la señal digital de ese fragmento sonoro. Existen muchos editores de sonido,
algunos de ellos, como Audacity, de libre distribución. Mediante cualquiera de
ellos podemos trazar, a partir de los números que hemos guardado en el archivo
del ordenador, la gráfica de la señal que hemos registrado.
Abrimos desde el editor de sonido el archivo con la señal de audio digital de ese
fragmento de música. Elegimos una presentación en la que podamos ver todo el
fragmento en una sola pantalla, para lo que, probablemente, necesitaremos hacer
un zoom negativo. Veremos y oiremos algo similar a lo siguiente:
Figura 2.3: Vı́deo con la señal de audio de los compases iniciales de la Quinta Sinfonı́a
de Beethoven.
En el vı́deo podemos observar la representación de la señal de audio de un frag-

mento de aproximadamente 21 segundos de duración. El valor de la coordenada
vertical representa la variación de la presión del aire en torno a su valor medio en
el punto en el que estuviera colocado el micrófono en el momento de la grabación.
Dado que los valores de presión que muestran las gráficas de las señales de audio no
son valores absolutos, sino relativos, no se indica ninguna unidad de presión.
Comprobamos a simple vista que esa mancha verde, la señal de audio, guarda
cierta relación con lo que estamos oyendo. Por ejemplo, los niveles sonoros más
fuertes coinciden con desplazamientos verticales más amplios, y viceversa. Pero en
realidad lo único que vemos son unas manchas más o menos amplias con un perfil
bastante simétrico y muy escarpado.
21
En efecto, con esta presentación no apreciamos el detalle de la vibración sonora,
no podemos ver cómo se ha movido la membrana del micrófono en cada instante,
ni por lo tanto, cómo ha variado la presión del aire que ha hecho que nuestro
tı́mpano vibrara. Esta gráfica consta aproximadamente de 1.000.000 de muestras,
por lo que no podemos ver los detalles. Ahora bien, basta hacer sucesivos zoom
—ahora positivos— en nuestro editor de sonido para acercarnos al interior de la
señal. Obtendremos una gráfica similar a la siguiente:
Figura 2.4: Fragmento de 50 ms de la señal de audio del inicio de la Quinta Sinfonı́a

de Beethoven.
En esta imagen sı́ podemos observar con bastante detenimiento cómo ha sido la
vibración sonora en un pequeño intervalo temporal. Debido a que la gráfica está
representando solamente 50 milésimas de segundo (en concreto, desde el segundo
2 hasta el segundo 2,05), ahora es posible apreciar con detalle la vibración.
Vemos que esa gráfica va dibujando un movimiento de subidas y bajadas que
oscilan en torno a un valor central. Esta gráfica es el resultado de unir los valores
de cada una de las muestras digitales que han sido tomadas en el momento de la
grabación y que han constituido la señal de audio. Por lo tanto, podemos decir
que la gráfica verde representa la oscilación del valor de la presión del aire en el
punto donde estaba colocado el micrófono.
Si seguimos la forma de la gráfica verde en la pantalla utilizando un dedo o el ratón
del ordenador, nos estaremos haciendo una idea bastante intuitiva, como si fuera
a cámara lenta, de los pequeñı́simos desplazamientos sucesivos que ha realizado la
membrana del micrófono que ha registrado el sonido. Mediante el editor de audio
podemos movernos por las barras de desplazamiento hacia la izquierda y la derecha
22
y recorrer toda la señal, de modo que podemos observar toda la vibración sonora
con el detenimiento que queramos.
2.4. El osciloscopio
Pero lo que realmente nos interesarı́a para estudiar el movimiento vibratorio que
es el sonido serı́a ver con este mismo detalle el dibujo de la señal de audio mientras
oı́mos lo que está representando. Con el editor de sonido podemos conseguir algo
aproximado si hacemos que la ventana en la que se representa la señal se vaya
actualizando conforme la música va sonando. Pero la forma idónea de representar
en vivo las vibraciones sonoras es mediante un osciloscopio.
Un osciloscopio es un instrumento de observación y medición que hace pasar a
tiempo real la señal de audio por una ventana de observación. En Teorı́a de Señal
se llama ventana de observación a la función matemática que recorta un fragmento
de la señal de un determinado tamaño.
Para simular un osciloscopio he realizado un vı́deo en el que podemos ver y escuchar
sincronizadamente la oscilación de los mismos compases iniciales de la Quinta
Sinfonı́a de Beethoven del vı́deo anterior. He elegido una ventana de observación
de 50 milésimas de segundo porque ese tamaño es lo suficientemente corto como
para que se pueda apreciar el detalle de la vibración y lo suficientemente largo
como para permitirnos observar la forma de las oscilaciones.
Figura 2.5: Vı́deo con la representación en un osciloscopio simulado de los compases

iniciales de la Quinta Sinfonı́a de Beethoven.
23
Podemos entender de manera intuitiva en qué consiste un osciloscopio si imagina-
mos que la señal de audio, la gráfica de la vibración, va pasando por delante de
nuestra ventana de observación a la vez que va sonando, entrando por la derecha
y saliendo por la izquierda. Algo ası́ como si tuviéramos la gráfica de la señal de
todo el fragmento sonoro escondida a la derecha de la ventana del osciloscopio
(una ventana en la que caben 50 milésimas de segundo) y la hiciéramos pasar de
derecha a izquierda por delante de nuestra ventana a la misma velocidad con la
que está sonando.
El hecho de ver casi simultáneamente un fragmento de 50 milésimas de segun-
do nos permite estudiar una realidad como la vibración sonora que cambia tan
rápidamente que de otro modo serı́a imposible observar. Mediante esta especie de
osciloscopio digital podremos apreciar la forma de la vibración que está sonando
y su evolución conforme el sonido va cambiando. Podemos parar el vı́deo en cual-
quier momento y analizar la forma de la vibración en las 50 milésimas de segundo
correspondientes al momento en el que lo hemos detenido.
Mediante este vı́deo-osciloscopio podemos apreciar que cuando suena una nota
musical aislada las formas de la vibración tienden a repetirse, lo que nos produce
la impresión de que en ese momento el movimiento de la gráfica se hubiera detenido
o ralentizado. En realidad estamos viendo pasar la gráfica a la misma velocidad que
antes, pero, como las formas de la oscilación se repiten muchas veces con escasas
variaciones, la sensación óptica que obtenemos es más estática.
Esta repetición, unida al ritmo en el que se actualizan los cuadros en el vı́deo y a
la persistencia en nuestra retina de las imágenes, nos produce diferentes ilusiones
ópticas: a veces parece que las formas de la oscilación se dirigieran a la derecha,
otras a la izquierda, otras parecen casi detenerse y en otras ocasiones da la impre-
sión de que se superpusieran dos vibraciones distintas. Pero estas ilusiones ópticas
no nos interesan ahora, pues nuestra atención solamente debe estar dirigida a la
forma de la vibración y a su evolución.
2.5. Conclusión
Al margen de las numerosas utilidades prácticas en los campos del registro, edición
y difusión de las obras musicales o de los acontecimientos sonoros de todo tipo,
la representación digital del sonido ofrece muchas posibilidades para el estudio
acústico. Puesto que la señal de audio digital es una representación fidedigna de
la vibración sonora, a partir de ella podemos obtener con facilidad todo tipo de
gráficas e imágenes que nos ayudarán a entender el sonido y la relación entre
24
los parámetros fı́sicos de la vibración y nuestra percepción. Ası́ mismo, podremos
utilizar técnicas numéricas para extraer la información que contiene.
25
Capı́tulo 3
Caracterı́sticas de los sonidos musicales
3.1. Introducción
Imaginemos que hacemos escuchar a un grupo de personas de distintas edades,
culturas y formación musical varios fragmentos sonoros y les pedimos que nos
digan en cada caso cuándo se trata de música y cuándo no. Con independencia de
instrumentos, de afinaciones y escalas o de su procedencia cultural, nadie dudará
en decir si lo que está escuchando es música o no lo es.
En efecto, distinguimos con facilidad los sonidos propios de la música del ruido
que produce un atasco de tráfico, o del murmullo de una fuente de agua, o de
las palabras de una conversación, por poner unos ejemplos. Ciertamente, hay cir-
cunstancias en las que esta distinción no resulta tan obvia, como, por ejemplo,
cuando en una obra musical contemporánea se utilizan los ruidos procedentes de
una fábrica. Pero, al margen de casos similares, todos sabemos reconocer si lo que
está sonando son o no son sonidos musicales.
Ahora bien, ¿en qué consisten estas diferencias que percibimos? ¿Las señales de
audio que contienen información musical tienen alguna particularidad que las ha-
ce distintas de otros tipos de señales sonoras? ¿Por qué el ruido se considera lo
opuesto al sonido musical? Este capı́tulo va a tratar de responder a estas cuestio-
nes, mostrando las peculiaridades que poseen las vibraciones de los sonidos que
consideramos musicales.
26
3.2. Ruido y sonido musical
Habitualmente se contrapone el sonido musical al ruido. Si bien esta oposición es
de gran utilidad para ayudarnos a entender qué es lo especı́fico del sonido musical,
necesitamos precisar antes qué entendemos por sonido musical y en qué sentido
usamos la palabra ruido, pues este término tiene varias acepciones.
Cualquier sonido puede ser utilizado con un propósito musical, como, por ejemplo,
los sonidos de los instrumentos de percusión, los efectos sonoros que se generan en
la música electrónica o los ruidos diversos que se pueden incluir dentro de una obra
de música. Pero por sonido musical, en sentido estricto, vamos a entender
aquı́ solamente aquel sonido en el que podemos identificar una altura
tonal, es decir, aquél del que podemos decir que es un re o un la o cualquier otra
nota.
Por otra parte, en el sentido cotidiano del término, ruido es cualquier sonido no
deseado. Ası́, si el vecino de al lado está escuchando ópera y a mı́ no me apetece
nada oı́r la ópera que pone mi vecino, esa ópera, paradójicamente, es ruido para mı́.
Este es el sentido en el que se utiliza la palabra ruido en acústica ambiental, donde
el objetivo es atenuar las molestias que el sonido indeseado puede ocasionar.
Ası́ mismo, desde el punto de vista de la Teorı́a de la Información, ruido es cual-
quier perturbación en la transmisión del mensaje. Por poner un ejemplo similar al
anterior, si estoy hablando por el móvil en una cafeterı́a en la que está sonando
música a un volumen muy elevado, el sonido de la música, aunque parezca también
paradójico, es un ruido que perturba mi comunicación y que altera la transmisión
de la información al colarse en el canal por el que viaja la conversación.
Aquı́, sin embargo, vamos a usar el término ruido en un sentido distinto. Ruido va
a ser lo opuesto al sonido musical. Ası́ pues, ruido será una masa de sonido
indiferenciado de la que nunca podrı́amos extraer notas musicales indi-
viduales. Del ruido, cómo mucho, podremos decir que es grave o que es agudo o
que predominan en él los tonos medios, pero nunca podremos intuir, ni siquiera
remotamente, una nota musical.
Pero, ¿son tan claras las cosas?, ¿es tan nı́tida esta separación?, ¿qué es el habla,
ruido o sonido musical?, ¿y el sonido de una campana? A continuación inten-
taré responder a estas cuestiones, utilizando una serie de ejemplos que nos van
a permitir comparar por medio del osciloscopio las vibraciones de los sonidos es-
pecı́ficamente musicales con las de otros sonidos que no lo son.
27
3.3. Ruido blanco y sonido simple
Antes de entrar en la observación de señales reales, voy a presentar dos sonidos
generados artificialmente que definen los polos opuestos entre los que se mueven los
sonidos naturales: el ruido blanco y el sonido simple. En un extremo, el ruido blanco
—llamado ası́ por analogı́a con la luz blanca— contiene todas las frecuencias del
espectro con la misma intensidad. En el otro extremo, el sonido simple posee una
sola frecuencia que se mantiene estable durante toda su duración y es el paradigma
del sonido musical.
Para comparar cómo es la forma de la vibración en ambos casos, he construido un
vı́deo en el que se observa en el osciloscopio un fragmento de ruido blanco seguido
de un sonido simple de 440 Hz.
Figura 3.1: Vı́deo que simula un osciloscopio con un fragmento de ruido blanco y otro
de un sonido simple de 440 Hz.
Durante toda la primera parte del vı́deo, cuando suena el ruido blanco, resul-
ta imposible identificar alturas tonales, notas musicales. Aun es más, ni siquiera
podrı́amos responder a la pregunta de si este sonido es agudo o grave. En prin-
cipio, el chisporroteo de la parte aguda es lo que resulta más evidente, pero con
un poco de esfuerzo podemos distinguir también el ronroneo de los graves. Esta
diferencia de apreciación se debe a que nuestro oı́do no responde a todas las fre-
cuencias por igual, sino que es más sensible a la banda situada entre los 2.000 y los
5.000 Hz. Pero, al margen de las irregularidades de nuestra sensibilidad auditiva,
en el vı́deo podemos apreciar que este sonido contiene todas las frecuencias del
espectro audible, de la misma manera que la luz blanca contiene todos los colores
visibles.
28
En la segunda parte del vı́deo, sin embargo, la situación es completamente distinta.
Todos oı́mos una nota musical, en concreto, un la4 afinado a 440 Hz, la nota que
habitualmente sirve de referencia para definir la afinación estándar.
Atendamos ahora a la señal de audio, al dibujo que traza la vibración y que se
observa en el osciloscopio. Cuando suena el ruido blanco la gráfica va cambiando
aleatoriamente a lo largo del tiempo y no hay manera de reconocer en ella ningún
orden. Si paramos el reproductor del vı́deo en un cuadro cualquiera, veremos una
imagen similar a la siguiente:
Figura 3.2: Gráfica de la señal de audio de ruido blanco.
Vemos en esta gráfica que el movimiento de la vibración no posee forma alguna, ni

siquiera se aprecia una tendencia. Por consiguiente, no hay nada que nos permita
predecir cómo va a continuar, es absolutamente indeterminado. Esto se debe a la
manera en la que ha sido generada esta señal: para calcular el valor de las muestras
he utilizado una secuencia de números aleatorios, como si hubiera echado a suertes
el valor de cada muestra en una loterı́a en la que estuvieran todos los números
posibles, sin que los valores que hubieran salido previamente influyeran en las
probabilidades de los siguientes. Ası́ pues, la señal de audio del ruido blanco
es completamente aleatoria.
Por el contrario, en la segunda parte del vı́deo, mientras suena el sonido simple,
la gráfica que dibuja la vibración en la pantalla del osciloscopio tiene una forma
definida: una serie de eses iguales. Si paramos el reproductor del vı́deo obtendremos
una imagen como ésta:
29
Figura 3.3: Gráfica de la señal de audio de un sonido simple de 440 Hz.
Al ver la gráfica de esta nota simple podemos predecir con total seguridad cómo
va a continuar. Ello se debe a que los valores de las muestras de esta señal han
sido obtenidos mediante una función matemática. Por ello decimos que la señal
de audio de un sonido simple es puramente determinista.
Y, lo que es más importante, en esta gráfica distinguimos que la forma se repite
en intervalos de tiempo exactamente iguales, es decir, existe un periodo de re-
petición. Podemos apreciar que en las 50 milésimas de segundo de la gráfica se
han sucedido 22 oscilaciones completas; en un segundo, por lo tanto, se habrán
producido 440 oscilaciones. Vemos, ası́ pues, que la frecuencia de este sonido, el
número de oscilaciones completas que se producen en un segundo, es de 440 her-
cios. Nos encontramos con un concepto que es esencial al sonido musical:
la periodicidad de la vibración. Esta periodicidad de la vibración es la que
posibilita que nuestro sistema auditivo reconozca una altura tonal, es decir, una
nota musical.
Mediante este vı́deo hemos podido observar las dos referencias extremas de las
señales sonoras: la señal puramente aleatoria, la indeterminación absoluta, por un
lado, y la señal totalmente predecible, la determinista pura, por otro. O, visto de
otra manera, la máxima complejidad, la reunión infinita de todas las frecuencias
audibles posibles, frente a la máxima simplicidad, un sonido con una sola frecuencia
siempre estable.
Pero la realidad no es nunca ni totalmente impredecible ni completamente determi-
nada. Solo en el caso de sonidos generados artificialmente podremos obtener tanto
una máxima predictibilidad como una máxima impredecibilidad. Ambas señales,
el ruido blanco y el sonido simple, son dos formas paradigmáticas de los constitu-
30
yentes que están presentes en la mayorı́a de los sonidos reales, es decir, vienen a
ser las referencias ideales entre las que se mueven los sonidos naturales.
3.4. Tráfico con lluvia y notas de clarinete

Comparemos ahora dos situaciones acústicas naturales de ı́ndole opuesta: por un
lado, el ambiente sonoro de una ciudad en un dı́a de lluvia y con tráfico abundante
y, por otro, unas pocas notas de clarinete tomadas de los compases iniciales de la
Rapsodia para piano y clarinete de Claude Debussy.
Figura 3.4: Vı́deo que simula un osciloscopio con ruido de tráfico en un dı́a lluvioso,
en la primera parte, y cinco notas de clarinete de la Rapsodia para piano y clarinete de
C. Debussy, en la segunda.
Durante la primera parte, el ambiente sonoro de fondo del tráfico con lluvia nos
recuerda el ruido blanco que hemos oı́do en el vı́deo anterior. Sin embargo, nos
damos cuenta enseguida que ahora tienen más presencia los componentes graves.
Podrı́amos decir, siguiendo la analogı́a de los colores, que esta sonoridad tiende
al rojo, la parte inferior del espectro. Esto es debido a la aportación que hace
el tráfico al sonido de la lluvia. Si detenemos el vı́deo en los segundos iniciales
observaremos una imagen similar a la siguiente:
31
Figura 3.5: Gráfica de la señal de audio de ruido de tráfico con lluvia.
Vemos en esta señal que, igual que en el caso del ruido blanco, ni hay periodicidad
alguna ni resulta posible predecir con seguridad el valor de cualquier muestra a
partir de las que le preceden. Sin embargo, el grado de aleatoriedad es ahora menor,
pues las muestras anteriores sı́ influyen en las posibilidades de la que viene a conti-
nuación. En efecto, en la gráfica podemos apreciar, tomando como referencia una
muestra cualquiera, que los valores más próximos a las muestras inmediatamente
anteriores son más frecuentes que los más alejados. Esto explica que la gráfica, aun
siendo una lı́nea quebrada, mantenga una cierta continuidad. Cuando analicemos
esta señal mediante el análisis espectral entenderemos mejor el significado de todo
esto.
Por otro lado, en medio de este ruido rojo de fondo, podemos distinguir varios
acontecimientos sonoros. Oı́mos el motor de un coche que acelera, con lo que su
sonido se va haciendo más agudo y se incrementa su volumen. Oı́mos también otros
coches más lejanos. Y ya casi al final de esta primera parte del vı́deo escuchamos
la bocina de un coche. Si prestamos atención, nos damos cuenta de que esta bocina
está dando una nota musical, en concreto, una nota que podrı́amos situar entre un
sol4 y un lab4 . En el osciloscopio podemos ver que la señal, que hasta entonces era
claramente aleatoria, parece adquirir en ese momento cierta periodicidad.
En la segunda parte del vı́deo, sin embargo, todos oı́mos con claridad las cinco notas
del clarinete (la4 , si4 , solb4 , mib4 , re4 ). Puede que quien no tenga oı́do absoluto
o sus conocimientos de música sean menores no sea capaz de darles nombre, es
decir, no pueda determinar si se trata de un la o de un si, pero todos sabemos que
lo que suena son notas musicales.
Podemos observar también que mientras está sonando cada una de las notas, la
gráfica que aparece en la pantalla del osciloscopio es bastante estable, pues la
32
vibración se repite de manera parecida durante la duración de la nota. Por eso,
ahora también podemos hablar de una forma de la vibración, como ocurrı́a en el
caso del sonido simple, si bien se trata de una forma más compleja que una sencilla
ese. Como se explica en el capı́tulo dedicado al sonido armónico, la forma de ese
dibujo tiene que ver con la cualidad del sonido, con el hecho de que sea más suave
o más áspero, por poner un ejemplo.
Si paramos el reproductor del vı́deo cuando suena la nota si4 , obtendremos una
gráfica parecida a la siguiente:
Figura 3.6: Gráfica de la señal de audio de una nota de clarinete.
Puesto que hay una forma que se repite, podremos hablar aquı́ también de periodo
de la oscilación y, a partir de ahı́, deducir su frecuencia. En efecto, en esta gráfica,
que representa 50 milésimas de segundo, podemos distinguir casi 25 oscilaciones,
pues la última no está del todo completa, por lo que deducimos que en un segundo
se habrán producido un poco menos de 500 oscilaciones. Esta frecuencia de 500 Hz
es ligeramente superior al valor que esperarı́amos para la nota si4 en la afinación
estándar (493,9 Hz), pero se aproxima bastante a la frecuencia real de la nota que
estamos escuchando (497 Hz).
Y, puesto que existe una forma, es posible también predecir cómo va a continuar la
señal en las próximas milésimas de segundo, a no ser, claro está, que se produzca
algún cambio repentino, como, por ejemplo, que empiece a sonar otra nota.
Ası́ pues, hemos podido observar que durante la primera parte del vı́deo, en el
tráfico con lluvia, predomina la aleatoriedad, por lo que la señal de audio que
vemos en el osciloscopio tiene muchos rasgos en común con la del ruido blanco que
hemos analizado en el apartado anterior. Durante la segunda parte del vı́deo, sin
33
embargo, cuando suenan las notas del clarinete, hemos comprobado que la señal
tiende a ser de tipo determinista y también hemos podido apreciar con claridad
su periodicidad.
Mediante los ejemplos que hemos estudiado hasta ahora podemos obtener la idea
general de que el ruido se corresponde con el desorden, con la aleatorie-
dad, con la imposibilidad de predecir lo que va a suceder a continuación,
mientras que el sonido musical tiene que ver con el orden, la predictibili-
dad y, lo que es más importante, con la periodicidad.
3.5. Campanadas y notas de piano

Ahora bien, ¿son tan claras las cosas? ¿Hay una lı́nea que delimita con nitidez las
vibraciones propias de los sonidos musicales? ¿Podemos determinar con precisión
dónde empieza el sonido musical y dónde termina el ruido? E incluso más, ¿hay
siempre una separación clara entre los sonidos periódicos y los que no lo son? La
respuesta es que no, que en medio hay un amplio territorio difuso. Ciertamente,
hay sonidos que no pueden ser considerados como ruidos, pero que tampoco son
propiamente periódicos; y hay sonidos que son claramente musicales, pero que
están lejos de ser estrictamente periódicos.
A continuación vamos a comparar dos sonidos que pertenecen a esta zona inter-
media que se encuentra lejos de los extremos opuestos de la pura aleatoriedad y la
periodicidad estricta, es decir, lejos del ruido blanco y del sonido simple. Se trata
del sonido de una campana de iglesia y el de una nota de piano, en concreto un
sol3 .
Figura 3.7: Vı́deo que simula un osciloscopio con el sonido de una campana, en la
primera parte, y el de una nota de piano, en la segunda.
34
Podemos apreciar en el vı́deo que existe un gran parecido en la forma en la que evo-
luciona la vibración de los dos sonidos. Ciertamente, ambos son sonidos percutidos,
por lo que las vibraciones que observamos en el osciloscopio tienen bastantes seme-
janzas: el ataque es muy rápido y abrupto, ruidoso en ambos casos, y va seguido de
un decrecimiento inmediato que conduce a un nivel sonoro considerablemente más
bajo; una vez alcanzado ese nivel, el sonido prolonga su duración durante bastante
tiempo, decayendo lentamente.
Todo este proceso va acompañado de un cambio constante en la cualidad del sonido,
pues con el paso del tiempo se van extinguiendo progresivamente los componentes
más agudos. Por eso vemos en el osciloscopio que la forma de la vibración se va
haciendo cada vez más sencilla, hasta recordar al final la gráfica de un sonido
simple.
Pero, aunque el sonido de la campana y el del piano tienen todos estos rasgos
en común, ambos se diferencian en algo que es fundamental para discernir si son
sonidos musicales: la posibilidad de atribuirles una altura tonal. Cuando suenan
las notas del piano todos percibimos una altura tonal que permanece constante,
aquı́ en concreto un sol3 . Pero si tratamos de responder a la pregunta de qué
nota está dando la campana, nos encontraremos que durante la mayor parte de
su duración no podemos dar una respuesta, y sólo al final, en la parte que queda
resonando, podemos apreciar una altura tonal clara, un lab4 un poco bajo. Por
ello, podemos afirmar que en el caso del sonido de esta campana estamos al otro
lado de la frontera que delimita el sonido musical.
Esta diferencia que percibimos al oı́r ambos sonidos responde a las diferencias
que se producen en la vibración, como podemos observar en las dos señales de
audio. En el caso de la campana, a excepción de la resonancia final donde la forma
de la vibración es similar a la de un sonido simple, no podemos reconocer en
la gráfica ninguna periodicidad, si bien comprobamos que está muy lejos de las
gráficas del ruido blanco o del ruido de tráfico que hemos observado en los vı́deos
anteriores.
Para apreciar esto con claridad, veamos las gráficas que se obtienen si paramos el
vı́deo en un momento cualquiera en pleno sonido de la campana, primero, y del
piano, después.
35
Figura 3.8: Gráfica de la señal de audio de un sonido de campana.
La gráfica de la campana no muestra ninguna periodicidad, lo que explica que no

podamos apreciar una nota determinada, pero lo cierto es que tampoco presenta
una gran complejidad. Su aspecto no es el de una señal aleatoria. Más bien su for-
ma nos llevarı́a a pensar que pudiera tratarse de varias notas musicales sencillas de
frecuencias diferentes que estuvieran sonando a la vez. De hecho, una persona en-
trenada o un profesional de la afinación podrı́a extraer algunos de los componentes
frecuenciales que constituyen este sonido.
Figura 3.9: Gráfica de la señal de audio de una nota de piano.
En la gráfica del piano la situación es diferente. A pesar de que ni siquiera durante

este breve intervalo de 50 milésimas de segundo, la forma que dibuja la vibración
36
se repite idénticamente igual, sı́ es posible reconocer en ella una forma compleja
que, aun con variaciones, se renueva cada cierto intervalo exacto de tiempo. Por
lo tanto, aunque no podamos decir que esta señal sea estrictamente periódica,
sı́ podemos afirmar sin ninguna duda que posee un periodo de oscilación que se
mantiene constante y que posibilita el reconocimiento de una altura tonal. En
efecto, en esta gráfica podemos contar aproximadamente unas nueve oscilaciones
y media, lo cual corresponderı́a a una frecuencia de 190 Hz, muy próxima a la
frecuencia real del sol3 que está sonando, 196 Hz.
Movimiento vibratorio periódico, en un sentido estricto, significa que el movimiento
tiene que repetirse exactamente igual cada cierto intervalo de tiempo, su periodo.
Pero en el caso de una nota musical real, como ésta que estamos observando, con
toda su complejidad, la periodicidad no es perfectamente estricta. Su oscilación es
compleja, por lo que la forma que se repite no es exactamente igual, sino que va
evolucionando con el paso del tiempo, y eso es lo que le proporciona su riqueza
sonora. Y no sólo su forma va cambiando, sino que también con el paso del tiempo
varı́a su amplitud.
No obstante, a pesar de todos estos cambios e inestabilidades, en ese intervalo
de tiempo de 50 milésimas de segundo que estamos observando, la forma de la
vibración de esta nota de piano resulta lo suficientemente periódica como para
poder percibir una altura tonal. Este es el estado que predomina en los sonidos
musicales reales, salvo en los momentos en los que se producen cambios abruptos,
como, por ejemplo, en el inicio de una nueva nota.
Ası́ pues, la frontera que delimita el sonido musical reside en que su
vibración sea lo suficientemente periódica como para poder percibir
una altura tonal determinada.
3.6. Habla y canto

Hemos visto hasta ahora que la periodicidad es esencial al sonido musical. Pe-
ro, ¿podemos afirmar que todos los sonidos que muestran cierta periodicidad son
musicales? ¿Qué sucede con los sonidos del habla? Vamos a comparar ahora en
el osciloscopio las vibraciones de los sonidos del habla con los del canto, a fin de
precisar con más nitidez qué es lo especı́fico del sonido musical.
Para estudiar estas diferencias he fabricado un vı́deo en el podremos observar con
detalle las particularidades que adquieren los sonidos del habla cuando reciben
música. En la primera parte se presenta la señal de audio de un breve fragmento
hablado de una locutora de radio y, en la segunda, la señal de un pequeño fragmento
37
cantado, en concreto, el inicio del Lamento de Ariadna de Claudio Monteverdi. En
ambos casos se trata de sonidos propios del habla; la única diferencia es que en el
segundo la prosodia natural del lenguaje hablado ha sido sustituida por la melodı́a
del canto. Mediante este vı́deo podremos ver en qué se diferencia la vibración de
los sonidos en los que podemos reconocer de qué vocal se trata (si es una a o es
una e, por poner un ejemplo) de otros sonidos en los que, además de reconocer su
fonema, percibimos claramente una nota musical.
Figura 3.10: Vı́deo que simula un osciloscopio con un fragmento de una locutora de
radio, en la primera parte, y el inicio del Lamento de Ariadna, en la segunda.
El texto de la locutora es:

“Dice: Pero no se pueden aceptar normas éticas a la carta. La sociedad
necesita criterios reconocibles, saber que las varas de medir se aplican
a todos por igual”.
La letra del Lamento de Ariadna es:

“Lasciáte mi morire”.
Y las notas musicales que van sobre cada sı́laba, respectivamente, son: la4 , sib4 ,
fa4 , fa4 , mi4 , mi4 ,mi4 .
En la primera parte, durante el enunciado de la locutora, podemos ver en el os-

ciloscopio que la vibración va alternando rápidamente entre unas formas breves,
38
pero periódicas, que recuerdan a las de los sonidos musicales, y otras, mucho más
breves todavı́a, de aspecto aleatorio, similares a las del ruido. Esta alternancia co-
rresponde, simplificando un poco, a la que se produce en el habla entre las vocales
y las consonantes.
Por el contrario, en el fragmento del canto vemos constantemente formas periódicas
claramente reconocibles. Podemos apreciar que cambian con el texto y con la
música, incluso que durante la emisión de la misma vocal van modificando su forma
y su amplitud, pero se reconoce en ellas un patrón lo suficientemente estable como
para concluir que son sonidos musicales, incluso si simplemente los viéramos en el
osciloscopio, sin oı́r lo que suena.
Veamos la gráfica de un pequeño fragmento de la primera parte del vı́deo en la que
podemos apreciar muy bien cómo se articula el lenguaje hablado, es decir, cómo los
sonidos consonánticos se unen con los vocálicos para formar la cadena hablada. La
gráfica corresponde al momento en el que la locutora pronuncia la palabra “éticas”.
He elegido ahora una duración más extensa que la ventana de observación que he
utilizado en los vı́deos del osciloscopio, a fin de presentar un panorama general de
la vibración cuando se emite una palabra completa. La duración de este fragmento
es de 400 milésimas de segundo, es decir, ocho veces mayor que el de la ventana
del vı́deo, lo que explica que las formas de la vibración se vean ahora mucho más
apretadas.
Figura 3.11: Gráfica de la señal de audio correspondiente a la emisión de la palabra

“éticas”.
La parte de la señal correspondiente a cada fonema está delimitada por unos

corchetes. Aunque es imposible una separación precisa, responde bastante fielmente
39
a la realidad de lo que oı́mos. Podemos apreciar que existe una diferencia muy clara
entre la forma de la vibración de las consonantes y la de las vocales: las vocales son
claramente periódicas, mientras que las consonantes no son periódicas y tienden
al ruido. Observamos también que las consonantes oclusivas, la t y la k, son muy
breves, mientras que la s es bastante más larga y relativamente parecida al ruido
blanco.
Si midiéramos mediante un editor de sonido el periodo de cada una de las vocales
y, a partir de ello, dedujéramos su altura tonal, comprobarı́amos que la sı́laba
acentuada é es casi un semitono más aguda que la vocal siguiente i y cerca de
semitono y medio más alta que la tercera vocal a, cuya sı́laba, sin embargo, es la
que tiene más intensidad sonora y mayor duración.
Comprobamos que en español el acento de la palabra no se produce ni por una
mayor intensidad sonora ni por un alargamiento de la duración, sino por una
elevación de la altura tonal, lo cual justifica que se llame “sı́laba tónica” a la que
va acentuada. Ası́ pues, al margen de la entonación general propia de la prosodia,
la relación de agudeza y gravedad entre los sonidos de la cadena hablada explica
nuestra distinción entre sı́labas acentuadas y sin acentuar, como podemos apreciar
si volvemos a escuchar con detenimiento cómo suena la palabra “éticas”.
Pero lo que interesa ahora es responder a la pregunta siguiente: ¿las vocales, cuyo
movimiento vibratorio es periódico, son propiamente sonidos musicales? Lo cierto
es que no oı́mos una nota musical cuando suenan. La razón de que, en principio,
en la cadena hablada no identifiquemos una nota musical cuando se emite una
vocal, a pesar de que se trata de un sonido periódico, reside en la brevedad de
la parte periódica. En efecto, vemos que cada vocal apenas llega a completar
unos pocos ciclos. Esto, debido al constante entrecortarse en su articulación con
el sonido consonántico vecino, impide que reconozcamos esa periodicidad y que la
apreciemos como un sonido musical.
Para observar un detalle de la forma de la vibración cuando se emite la sı́laba ti,
presento una gráfica que tiene la misma duración que la ventana de observación de
los vı́deos y en la que he hecho zoom en la amplitud, que ha quedado delimitada
entre -0,4 y 0,4.
40
Figura 3.12: Gráfica de la señal de audio correspondiente a la emisión de la sı́laba ti.
Vemos que el periodo de la vocal i es un poco más de 5 milésimas de segundo, lo

que corresponde a una frecuencia ligeramente inferior a 200 Hz, es decir, se trata
aproximadamente de un sol3 . Pero la duración de este sonido es muy breve: solo
se observan entre cuatro y cinco ciclos completos, lo que explica que no oigamos
ninguna nota musical cuando suena esta sı́laba.
En el fragmento del canto, sin embargo, la situación es totalmente distinta. En la
gráfica de abajo, correspondiente a la vocal a de la primera sı́laba, las, podemos
ver que la señal permanece claramente estable al menos durante todo el tiempo
que dura la observación.
Figura 3.13: Gráfica de la señal de audio correspondiente a la vocal a cantada.
41
Vemos que durante las 50 milésimas de duración la señal permanece estable, lo
cual es suficiente para que se pueda percibir una altura tonal. Conforme evolu-
cione el sonido, incluso durante la propia emisión de la vocal a, se modificará la
forma, la amplitud e incluso el periodo, pero, al margen de estas modificaciones, el
sonido en el canto es lo suficientemente estable y duradero como para permitirnos
apreciar con claridad una altura tonal. Por poner un ejemplo, si emitimos al ha-
blar la vocal a, no pensaremos que estamos dando una nota musical; ahora bien,
si prolongamos la duración de la vocal y nos esforzamos en mantener constante la
misma altura tonal, enseguida nos daremos cuenta de que estamos emitiendo una
nota musical.
Ası́ pues, el requisito de “suficientemente periódico”, que hemos reconocido en
el apartado anterior como necesario para determinar que un sonido sea musical,
exige también una cierta duración, es decir, necesitamos que la periodicidad
se mantenga durante el suficiente tiempo como para que nuestro sistema
perceptivo sea capaz de apreciar una frecuencia, y con ella, una altura
tonal.
3.7. Conclusión
A lo largo de este capı́tulo hemos podido apreciar las caracterı́sticas que posee el
sonido musical. Ayudándonos de la señal de audio que queda representada en el os-
ciloscopio, hemos comparado lo que oı́mos cuando escuchamos un sonido musical,
con lo que oı́mos cuando se trata de sonidos ruidosos y de otros de cualidad inter-
media, de modo que hemos podido experimentar que un sonido es considerado por
nuestra percepción auditiva como musical cuando su vibración es lo suficientemen-
te periódica y duradera cómo para que podamos reconocer una altura tonal.
42
Capı́tulo 4
El sonido simple
4.1. Introducción
El sonido simple, también llamado sonido puro, es el sonido al que da lugar la
vibración más sencilla posible, aquella que se comporta siguiendo lo que en Fı́sica
se denomina Movimiento Armónico Simple (MAS). El calificativo armóni-
co para describir este movimiento procede precisamente de su vinculación con la
música.
Empecemos observando cómo es un sonido simple. En el capı́tulo 1, El sonido
como vibración, he utilizado un sonido simple para estudiar la vibración del aire,
precisamente porque su oscilación es muy sencilla y repetitiva, un simple vaivén.
Volvamos, pues, al vı́deo de la figura 1.1 de ese capı́tulo donde se simula a cámara
lenta el movimiento del aire cuando suena un sonido simple generado artificial-
mente, la nota musical la4 a 440 Hz, sin armónicos y de frecuencia y amplitud
totalmente estables. En el vı́deo de la figura 1.2 de ese capı́tulo tenemos el detalle
del movimiento oscilatorio de una de las esferitas de la simulación, donde se ve
cómo la oscilación dibuja en el tiempo una serie de eses enlazadas.
Veamos ahora un vı́deo donde podemos apreciar en tiempo real mediante el osci-
loscopio la forma de la vibración cuando suena esa misma nota.
43
Figura 4.1: Vı́deo con un sonido simple, la4 a 440 Hz, visto en un osciloscopio.
Podemos detener el reproductor en cualquier momento y observaremos con más

claridad la forma de ese constantemente repetida de la oscilación. Esta forma de
ese, como veremos enseguida, es el resultado de que la gráfica de la oscilación de
un sonido simple es una función sinusoidal del tiempo.
A lo largo de este capı́tulo estudiaremos en detalle en qué consiste el sonido simple
y comprenderemos por qué su vibración es la más sencilla de todas las posibles
formas de vibración. Me parece que este estudio puede ser útil para entender
los fundamentos acústicos de la teorı́a musical, e incluso algunas consideraciones
filosóficas que esta teorı́a ha generado a lo largo de la historia.
4.2. El sonido simple como fundamento del sonido musical

El sonido simple es en sı́ mismo un sonido musical; aun es más, es la referencia
ideal de todo sonido musical. Y es también el constituyente elemental del que
están formados todos los sonidos musicales. Además, la descomposición en sonidos
simples está presente en la forma en la que nuestro sistema perceptivo procesa y
entiende todo sonido, sea o no musical. Este carácter de constituyente elemental
que posee el sonido simple reside, en última instancia, en la simplicidad esencial
del movimiento que lo produce.
Veamos a continuación brevemente las implicaciones que se derivan de las propie-
dades del sonido simple.
44
a) El sonido simple es el paradigma del sonido musical
El sonido simple es periódico en el sentido más estricto, es decir, su vibración se

repite idénticamente igual cada cierto intervalo de tiempo durante toda su dura-
ción. Por ello su frecuencia y su amplitud permanecen constantes, con lo que su
altura tonal puede ser percibida con total nitidez.
Su estabilidad, unida a su simplicidad, hacen del sonido simple el lugar más ade-
cuado para estudiar los parámetros fı́sicos del sonido musical, ası́ como la relación
entre estos parámetros fı́sicos y nuestra sensación.
Idealmente un sonido simple no tendrı́a comienzo ni final, sino que estarı́a sonando
eternamente, pues todo comienzo o final supone una discontinuidad y produce un
ruido. Hablando con rigor, deberı́amos decir que lo que oı́mos en el vı́deo de la
figura 4.1 es un fragmento de un sonido simple eterno.
El sonido simple, estable y sin armónicos, es principalmente un sonido de labo-
ratorio. Entre los sonidos naturales, el que se aproxima mejor a un sonido simple
es el que produce un diapasón metálico de los que se utilizan para afinar los ins-
trumentos, pues emite una nota sin armónicos y, una vez pasado el ataque inicial,
mantiene durante cierto tiempo una amplitud casi constante.
b) El sonido simple es el elemento constitutivo de todo sonido musical
El sonido musical puede ser considerado como una composición de sonidos simples
cuyas frecuencias mantienen entre sı́ unas determinadas relaciones de conmensura-
bilidad. En este sentido, al sonido musical se le llama también sonido armónico,
pues la palabra griega harmonı́a designaba, en origen, la buena mezcla que resulta
de una proporción adecuada.
En efecto, al margen de fenómenos transitorios y de la parte de ruido que cualquier
sonido natural lleva consigo, todo sonido musical está formado por un conjunto
de sonidos simples denominados parciales. Salvo excepciones, las frecuencias de
estos parciales son múltiplos de un sonido simple más grave. Estos múltiplos si-
guen el orden de los números naturales y constituyen la serie armónica. Los
sonidos simples que forman parte de la serie armónica de un sonido se denominan
componentes armónicos.
La presencia o ausencia en un determinado sonido musical de unos u otros armóni-
cos, ası́ como el mayor o menor peso de cada uno de ellos, determinará en gran
medida la cualidad del sonido musical resultante. Por ejemplo, los sonidos con
45
pocos armónicos tienden a ser más dulces, mientras que aquellos en los que pre-
dominan los armónicos impares son más ásperos.
c) Nuestra audición extrae sonidos simples del complejo sonoro
Toda vibración —ya sea mecánica, como el sonido, o electromagnética, como la

luz— puede ser descompuesta matemáticamente en componentes simples, es decir,
en oscilaciones que realizan un simple vaivén, similar al que hemos visto en el vı́deo
de la figura 4.1. Esta descomposición matemática recibe el nombre de análisis
frecuencial o análisis armónico.
Salvando las distancias, nosotros percibimos el sonido de una manera similar. En
efecto, nuestro sistema auditivo extrae continuamente del complejo sonoro los com-
ponentes simples más relevantes. A nuestro cerebro no llega la forma de la vibración
tal cual, es decir, lo que llamamos la señal de audio, sino que la propia fisiologı́a de
nuestro oı́do detecta los componentes más significativos presentes en esa señal en
cada momento y transmite sus parámetros al cerebro, iniciándose con este filtrado
el procesamiento de la información que contiene. Y este proceso se realiza ası́ con
independencia de que se trate de música o de cualquier otro tipo de sonido.
d) El sonido simple es la vibración más sencilla posible
El sonido simple o puro no sólo es simple porque es el componente elemental de

todo sonido musical o incluso, en un sentido amplio, de todo sonido, sino que es
simple, principalmente, porque la vibración que realiza es la más sencilla posi-
ble.
Como veremos enseguida, el Movimiento Armónico Simple es la proyección
unidimensional del Movimiento Circular Uniforme y comparte con él el atri-
buto de sencillez. Entiendo aquı́ por movimiento sencillo aquél que no cambia, o
que cambia lo menos posible y de la forma más suave y continua posible. En este
sentido, el sonido simple es la expresión sonora del movimiento más elemental,
sencillo y natural que surge de las propias condiciones de simplicidad exigidas a
la razón: el Movimiento Circular Uniforme. Por utilizar una metáfora, el sonido
simple es la forma en la que suena lo que gira eternamente sobre sı́ mismo.
Estas relaciones de afinidad entre la vibración del más simple de los sonidos mu-
sicales y el Movimiento Circular Uniforme iluminan en parte algunas de las afir-
maciones hechas por matemáticos, fı́sicos y filósofos de todos los tiempos sobre la
constitución armónica o musical del universo.
46
4.3. El Movimiento Armónico Simple (MAS)
Puesto que el sonido simple es el resultado de un Movimiento Armónico Simple,
es conveniente conocer con un cierto detalle en qué consiste este movimiento. El
Movimiento Armónico Simple es la forma más sencilla de oscilación, aquella que
surge de modo natural cuando la fuerza que tiende a recuperar la posición de
equilibrio es proporcional al desplazamiento realizado.
4.3.1. Un ejemplo de Movimiento Armónico Simple
Para ilustrar el Movimiento Armónico Simple he fabricado mediante Matlab una

animación que simula matemáticamente el movimiento que realiza una bola sus-
pendida de un muelle, al ser liberada después de haber sido desplazada de su
posición de equilibrio.
Figura 4.2: Vı́deo que representa en esquema un MAS, su relación con el Movimiento
Circular Uniforme y su desarrollo sinusoidal en el tiempo.
En el vı́deo hay tres paneles, cada uno con su correspondiente bola roja. Las tres
bolas se mueven al mismo tiempo. Si atendemos únicamente al movimiento vertical
de las bolas rojas, veremos que las tres bolas se encuentran en cada instante a la
misma altura. La lı́nea de puntos verde que las une resalta este hecho.
Analicemos con detalle lo que vemos en cada uno de estos tres paneles:
47
a) Panel central
En el panel del medio vemos una pequeña bola roja que simula estar suspendida
de un muelle colgado del techo. Suponemos que antes de comenzar el vı́deo hemos
desplazado la bola hacia abajo, desde la posición de equilibrio, que en la gráfica
se corresponde con la altura 0, hasta la altura -1. El vı́deo empieza justo en el
momento en el que hemos soltado la bola y ha comenzado a oscilar.
Para entender lo que sucede es necesario tener presente un principio de carácter
universal que constituye el fundamento de la Fı́sica, la Segunda Ley de Newton,
la cual dice que cualquier cuerpo sobre el que no actúa ninguna fuerza conserva
indefinidamente su velocidad. Por otra parte, es necesario suponer también que
hemos elegido un muelle adecuado al peso de la bola, de modo que su fuerza de
restauración sea proporcional al desplazamiento de ésta.
La acción combinada del peso de la bola y de la fuerza de restauración del muelle
tenderá a colocar la bola en la posición de equilibrio, la altura 0. No especifico si la
altura se mide en metros, centı́metros o cualquier otra unidad, pues es irrelevante
para el ejemplo. Cuando la bola esté por debajo de la altura 0, la fuerza total
ejercida sobre ella estará dirigida hacia arriba, hacia la posición de equilibrio, y
será mayor conforme más alejada se encuentra la bola de esa posición de equilibrio.
Por el contrario, si la bola está por encima de la altura 0, la fuerza total ejercida
sobre ella estará dirigida hacia abajo, y será mayor también conforme más alejada
esté de su posición de equilibrio.
No importa la forma en la que ambas fuerzas, el peso y el muelle, se reparten el
trabajo. Hay momentos en los que las dos fuerzas colaboran y otros en los que
se oponen. Lo importante es que la fuerza total que actúa sobre la bola siempre
estará dirigida hacia la posición de equilibrio y que la magnitud de esta fuerza será
proporcional a la distancia en la que se encuentre la bola respecto a esa posición
de equilibrio. Por eso la magnitud de esta fuerza será la misma en las posiciones
simétricas.
Observamos que al soltar la bola en la altura -1, ésta comienza a ascender impul-
sada por la fuerza de restauración del muelle, que supera el peso de la bola. En el
vı́deo podemos apreciar que este desplazamiento ascendente adquiere cada vez ma-
yor velocidad. Ciertamente, la fuerza total ascendente que se ejerce sobre la bola es
progresivamente menor conforme se va acercando a la posición de equilibrio. Pero,
hasta que se llega a la posición de equilibrio, sigue ejerciéndose una fuerza hacia
arriba, por lo que la velocidad ascendente tiene que seguir incrementándose. Por
eso, cuando la bola roja pasa por la posición de equilibrio, la altura 0, podemos ver
48
en el vı́deo que la velocidad es la máxima, pues todo el tiempo ha ido recibiendo
fuerza.
A partir de allı́ las cosas se invierten, pues la combinación del peso y de la fuerza
de restauración del muelle apunta hacia la posición de equilibro y se opone, por lo
tanto, a la velocidad ascendente que lleva la bola. Ası́, la velocidad ascendente de
la bola va siendo frenada hasta llegar a la altura 1, la simétrica a la altura -1.
En ese punto justo la bola se detiene y su velocidad se hace 0. Pero esta pausa
es instantánea, pues la fuerza que la ha frenado sigue apuntando hacia abajo,
por lo que inmediatamente la bola comienza a descender. Y va ganando de nuevo
velocidad, ya que ahora, al apuntar la fuerza en la misma dirección que va la bola,
no la frena, sino que la acelera, hasta pasar de nuevo por la posición de equilibrio,
la altura 0, a la misma velocidad máxima con la que habı́a pasado al subir.
Una vez superada la posición de equilibrio, la bola comienza a ser frenada hasta
llegar a la altura -1, donde otra vez se detiene instantáneamente. Y de nuevo
comienza a ascender. Y ası́ sucesivamente.
Este movimiento continuarı́a eternamente si no fuera por las fuerzas de fricción,
entre otras la del aire, que progresivamente van atenuando la oscilación de la
bola.
b) Panel izquierdo
El panel izquierdo ilustra la conexión del Movimiento Armónico Simple con el

Movimiento Circular Uniforme y muestra que el Movimiento Armónico Simple
es la proyección unidimensional del Movimiento Circular Uniforme. Este
relación nos permite entender el concepto de fase instantánea de la oscilación y
nos muestra que la altura que alcanza la bola en cada instante es el seno de esta
fase.
En este panel de la izquierda vemos otra bola roja que va recorriendo una circun-
ferencia. El radio de esta circunferencia es igual a la altura máxima que alcanza
el desplazamiento de la bola del panel central. Además, ambas bolas, la que se
desplaza por la circunferencia y la del muelle, están sincronizadas: la altura ins-
tantánea de la bola que gira uniformemente alrededor de la circunferencia es la
misma que la altura de la bola que oscila en el muelle. Dicho de otro modo, la
altura de la bola es la proyección en el eje vertical de la posición de la bola en la
circunferencia.
Pero, a diferencia de la bola que oscila en el muelle, la celeridad del movimiento
de la bola que se traslada por la circunferencia en el panel de la izquierda se
49
mantiene constante: en cada unidad de tiempo recorre un arco de circunferencia
de la misma longitud. Si lo expresamos en medidas angulares vemos que, en este
ejemplo, recorre 90o en cada segundo, por lo que tarda 4 segundos en realizar una
vuelta completa, como podemos comprobar en el propio reloj del vı́deo.
De esta manera, la posición de la bola en la circunferencia nos permite expresar
utilizando medidas angulares el estado en el que en ese momento se encuentra la
oscilación. Este estado, cuantificado ası́, recibe el nombre de fase instantánea de
la oscilación.
En nuestro ejemplo el estado inicial de la oscilación coincide con el momento en el
que la bola está desplazada a su posición más baja, y por eso decimos que la fase
en ese instante inicial es de 270o . En el segundo 1 el estado de la bola alcanza en su
movimiento ascendente la posición de equilibro y la fase instantánea es 0o . En el
segundo 2 el estado de la bola ha alcanzado la altura máxima y su fase instantánea
es 90o . En el segundo 3 la bola vuelve a la posición de equilibrio, pero ahora en un
movimiento descendente, y la fase instantánea es 180o .
Dicho de otro modo, la fase instantánea es el ángulo que expresa la posición de
la bola sobre la circunferencia. Observamos también que la altura en la que
se encuentra la bola en cada instante es el seno de este ángulo, como
podemos apreciar en la siguiente figura:
Figura 4.3: Altura de la bola cuando la fase de la oscilación es 60o .
50
La figura muestra el momento en el que la fase de la oscilación es 60o . Puesto que
el radio es 1, la altura (h) es el seno de 60o , que es igual a 0,866.
c) Panel derecho
El panel derecho sirve para ilustrar que el Movimiento Armónico Simple es

una función sinusoidal del tiempo.
La gráfica del panel de la derecha va describiendo las sucesivas alturas por las que
pasa la bola al oscilar a lo largo del tiempo. De hecho, si seguimos con el dedo
esta gráfica, podemos verificar de manera intuitiva la descripción del Movimiento
Armónico Simple que he presentado al comentar el desplazamiento de la bola en el
panel central. En efecto, podemos apreciar, entre otras cosas, cómo el movimien-
to aumenta su velocidad conforme se acerca a la posición de equilibrio; cómo la
disminuye cuando se aleja de ésta; cómo se detiene instantáneamente y cambia de
sentido al alcanzar los desplazamientos máximos en los segundos 0, 2, 4, 6, 8, 10,
12.
Como hemos visto, la altura de la bola es la proyección en el eje vertical de su
posición en la circunferencia. Esta proyección es el seno del ángulo que define
la posición de la bola en la circunferencia, la fase de la oscilación. Dado que la
celeridad de la bola al recorrer la circunferencia es constante —con independencia
de que su movimiento pueda ser más o menos rápido—, este movimiento giratorio
depende linealmente del tiempo, es decir, es la misma imagen del tiempo, como
si fuera un reloj. Por ello la descripción de la evolución temporal del Movimiento
Armónico Simple que realiza la bola en su ascender y descender es una función
sinusoidal que depende del tiempo.
4.3.2. Parámetros del Movimiento Armónico Simple
Ahora, con ayuda del vı́deo, voy a explicar brevemente los parámetros que in-
tervienen en el Movimiento Armónico Simple: amplitud, fase inicial, periodo y
frecuencia.
a) Amplitud
La amplitud es el valor absoluto del desplazamiento máximo que alcanza

la oscilación desde la posición de equilibrio. En el vı́deo del ejemplo vemos
51
que este valor es 1, tanto cuando la bola del muelle va hacia arriba, como cuando
va hacia abajo.
b) Fase inicial
La fase inicial de la oscilación es la fase instantánea en la que se encuen-

tra la oscilación en el tiempo 0. En nuestro ejemplo la fase inicial es 270o ,
pues ésta es la fase instantánea en la que se halla la bola en el momento en el que
se inicia la oscilación, como podemos comprobar en el panel de la izquierda del
vı́deo.
c) Periodo y frecuencia
El periodo de la oscilación es el tiempo que tarda un movimiento oscila-

torio en realizar una oscilación completa. En nuestro vı́deo podemos observar
que la bola tarda 4 segundos en completar una oscilación. Ası́ pues, el periodo de
esta oscilación es 4 segundos.
La frecuencia de la oscilación es el número de oscilaciones completas que
se producen en un segundo. La unidad de frecuencia es el hercio. Un hercio
equivale a una oscilación completa por segundo. En este ejemplo la frecuencia es
0,25 Hz. En efecto, puesto que una oscilación tarda 4 segundos en completarse, en
un segundo sólo habrá realizado la cuarta parte de la oscilación.
Vemos que periodo y frecuencia son recı́procos. Ambos nombran la misma
realidad, pues decir cuántos segundos se tarda en completar un ciclo equivale a
decir cuántos ciclos se producen en un segundo.
Por otra parte, hay que tener en cuenta que el desplazamiento inicial no influye en
la frecuencia de la oscilación. Podrı́amos haber alejado la bola al inicio a cualquier
distancia —dentro de los márgenes en los que el muelle trabaja bien— y la fre-
cuencia de la oscilación hubiera sido la misma. La frecuencia depende únicamente
de dos valores: en este caso, de la elasticidad del muelle y de la masa de la bola.
Es decir, para ese sistema concreto de bola y muelle la frecuencia será siempre la
misma. Es su frecuencia natural de oscilación. Podemos decir que este conjun-
to de bola y muelle —o, generalizando, de masa y resorte— tiene una frecuencia
natural de oscilación de 0,25 Hz.
52
4.4. El Movimiento Armónico Simple en el sonido
El sonido simple es una vibración mecánica que se comporta según el modelo
oscilatorio que acabamos de estudiar. En efecto, el sonido simple es un caso
particular del Movimiento Armónico Simple. Ahora bien, para ser percibida
por nosotros como sonido, la oscilación debe ser lo suficientemente rápida, en
concreto, debe realizar entre 20 y 20.000 oscilaciones completas por segundo, que
es aproximadamente el rango en el que se mueve nuestro sistema auditivo.
Ası́ pues, el movimiento oscilatorio que he descrito con detenimiento en el ejemplo
de la bola y el muelle nos puede servir para entender cómo es la vibración de
un sonido simple. En lugar de la bola oscilante pensemos ahora en un pequeño
volumen de aire que se comprime y se expande de la manera más sencilla posible,
es decir, con un Movimiento Armónico Simple.
Cuando se emite un sonido simple, los valores que va tomando la oscilación de la
presión del aire en un punto del espacio a lo largo del tiempo describen una gráfica
sinusoidal similar a la del panel derecho que aparece en el vı́deo de la figura 4.2.
En efecto, en el sonido simple la presión del aire oscila según una función
sinusoidal del tiempo.
Examinemos ahora los parámetros del Movimiento Armónico Simple en el caso
concreto de la vibración sonora.
4.4.1. Parámetros del sonido simple
Veamos los parámetros del sonido simple en una gráfica que muestra las primeras
50 milésimas de segundo de la señal de audio correspondiente a la nota la4 que
hemos observado en el osciloscopio de la figura 4.1.
53
Figura 4.4: Gráfica de los 50 ms iniciales de un sonido simple, la4 a 440 Hz, con la
amplitud y el periodo.
Esta gráfica representa la variación, respecto a su valor medio, de la presión del

aire en un punto del espacio a lo largo del tiempo o, lo que podemos considerar
equivalente, el desplazamiento de la membrana de un micrófono situado en ese
punto del espacio que hubiera recogido esa variación de la presión del aire.
a) Amplitud
La amplitud es la variación máxima que alcanza la presión del aire res-

pecto a su valor medio como consecuencia del movimiento vibratorio
del sonido en el punto del espacio elegido como referencia. Si pensamos
que este punto es el lugar en el que hemos colocado el micrófono, podemos inter-
pretar la amplitud como el desplazamiento máximo que alcanza la membranita del
micrófono cuando está recogiendo el sonido.
En la gráfica la amplitud está señalada en color rojo. El 0 representa el valor
medio de la presión del aire. Es costumbre utilizar el valor 1 y -1 para representar
la variación máxima de la presión del aire que el sistema de grabación tendrı́a
capacidad de registrar. En este ejemplo la amplitud tiene un valor de 0,2. Esto
quiere decir que el valor máximo de la oscilación de la presión del aire debida
a la vibración de este sonido es el 20 % del valor máximo que el sistema podrı́a
registrar.
La amplitud de un sonido dependerá del punto del espacio que tomemos como refe-
rencia, pues disminuirá conforme mayor sea la distancia de la fuente sonora.
54
b) Fase inicial
La fase inicial es el estado en el que se encuentra la oscilación de la

presión del aire en el tiempo 0 en el punto del espacio elegido como
referencia. En la gráfica vemos que en el tiempo 0 la oscilación pasa por la
posición de equilibrio en sentido ascendente, es decir, la fase inicial es 0o .
La fase instantánea cambia también con la posición espacial, pues en función de
la velocidad con la que se propaga la vibración, el estado en el que se encuentra la
oscilación en un mismo instante varı́a de un lugar a otro.
c) Periodo y frecuencia
El periodo es el tiempo que tarda la vibración sonora en realizar una

oscilación completa. Fijémonos, por ejemplo, en el primer pico de la oscilación
y sigamos la evolución de la señal, primero hacia abajo y luego hacia arriba, hasta
completar una vuelta entera y llegar al siguiente pico. Éste es el periodo de la
vibración. Si en lugar del primer pico, comenzamos en cualquier otro punto de la
oscilación y realizamos el mismo proceso completando una vuelta entera, obten-
dremos el mismo valor. En la gráfica he indicado el periodo mediante una lı́nea de
color azul que une alternativamente los picos y valles de la señal de audio.
La frecuencia es el número de oscilaciones completas que se producen en
un segundo. En el caso de nuestro ejemplo sabemos que la frecuencia de la nota
es 440 Hz, por lo tanto, en nuestra gráfica, que tiene una duración de 50 milésimas
de segundo, tendremos que encontrar 22 ciclos completos (440 × 0, 05 = 22), como
ası́ sucede.
Como ya hemos dicho periodo y frecuencia son recı́procos, por lo tanto el pe-
riodo de esta vibración, redondeando, será 2,3 milésimas de segundo (1 ÷ 440 =
0, 0023).
La frecuencia de la vibración, ası́ como su recı́proco el periodo, es independiente
del lugar del espacio que tomemos como referencia. Esto hace de la frecuencia un
parámetro idóneo para transmitir la información musical.
4.5. Conclusión
El sonido simple es la forma sonora del Movimiento Armónico Simple, la osci-
lación más sencilla y elemental, que resulta de la proyección unidimensional del
55
Movimiento Circular Uniforme. El sonido simple no sólo es en sı́ mismo un sonido
musical, sino que es también el elemento constitutivo de todo sonido musical.
56
Capı́tulo 5
Altura tonal, intervalos y volumen

sonoro
5.1. Introducción
Al margen del carácter convencional y arbitrario de los diversos lenguajes musica-
les, carácter que es inherente a cualquier creación del espı́ritu humano, todos los
sistemas musicales se construyen sobre unos condicionantes previos que se derivan
tanto de la naturaleza fı́sica del sonido en sı́ mismo, como de la manera en la
que nosotros percibimos los fenómenos sonoros. Por ello, para entender la Teorı́a
Musical es necesario estudiar las relaciones que se producen entre los parámetros
fı́sicos de la vibración sonora y las sensaciones auditivas que nosotros experimen-
tamos.
Dado que el sonido simple es sencillo y estable, y además puede ser considerado
como el paradigma de todo sonido musical, resulta muy adecuado para examinar
cómo afecta a nuestra sensación la variación de sus parámetros fı́sicos.
A lo largo de este capı́tulo analizaremos la manera en la que percibimos la fre-
cuencia y la amplitud en el caso de un sonido simple. Veremos que la frecuencia
determina la altura tonal que apreciamos y, por lo tanto, la nota musical que
reconocemos, y que la amplitud guarda relación con el volumen sonoro que perci-
bimos.
Sin embargo, no nos vamos a ocupar de la fase inicial, pues, aunque es un parámetro
importante para la localización espacial de la fuente sonora y puede provocar
diferentes efectos en la reunión simultánea de varios sonidos, no tiene un correlato
directo en nuestras sensaciones. En efecto, si escuchamos un sonido simple de
57
frecuencia y amplitud determinadas cuya fase inicial es de 0o , y luego escuchamos
otro sonido de la misma amplitud y frecuencia, pero cuya fase inicial sea, pongamos
por caso, 180o , no apreciaremos ninguna diferencia.
5.2. Relación entre estı́mulo y sensación: la Ley de Weber-

Fechner
Puesto que nuestra sensación auditiva se comporta de manera similar al resto
de nuestros sentidos, comenzaremos estudiando las relaciones matemáticas que se
establecen entre los estı́mulos fı́sicos y nuestras sensaciones. Me refiero al carácter
logarı́tmico de nuestro sistema sensorial, tal como ha quedado definido mediante
la llamada Ley de Weber-Fechner.
En la segunda mitad del siglo XIX Gustav Fechner, basándose en los trabajos
previos de Ernst Weber, expresó una ley que relacionaba los estı́mulos fı́sicos con
las sensaciones que experimentamos al recibirlos. Al margen de matizaciones y
excepciones, la Ley de Weber-Fechner establece que el estı́mulo debe crecer en
progresión geométrica para que la intensidad de la sensación crezca en progresión
aritmética. Esto significa que la relación entre la variación de los parámetros
fı́sicos que actúan de estı́mulo y la de nuestras sensaciones no es lineal,
sino logarı́tmica.
Veamos con un ejemplo qué significa que nuestra sensación responda logarı́tmi-
camente al incremento o disminución de los estı́mulos. Imaginemos que recibimos
cuatro estı́mulos sucesivos, a los que llamamos a, b, c y d. El parámetro fı́sico
asociado al estı́mulo a tiene una intensidad de 100; el de b, de 200; el de c, de
400; y el de d, de 800. Podemos comprobar que cada uno de ellos es el doble del
anterior, es decir, que crecen manteniendo una progresión geométrica cuya razón
es 2 y cuyo primer término es 100:
100; 100 × 2 = 200; 100 × 2 × 2 = 400; 100 × 2 × 2 × 2 = 800; ...
Cuando pasamos del estı́mulo a al b, entre los cuales hay una distancia aritmética
de 100, nuestra sensación aprecia una diferencia. Tomemos para nuestro ejemplo
esa diferencia sensorial como unidad y consideremos a partir de ahora que nuestra
sensación se ha incrementado en un grado al pasar del estı́mulo a al estı́mulo
b.
Examinemos ahora lo que sucederá al pasar del estı́mulo b al c. La diferencia
aritmética entre los parámetros fı́sicos del estı́mulo b y del estı́mulo c es de 200
58
(400-200), es decir, el doble de la diferencia aritmética que hay entre los estı́mulos
a y b. Si nuestra sensación respondiera de forma lineal al incremento del parámetro
fı́sico, cuando pasáramos del estı́mulo b al c tendrı́amos que percibir un incremen-
to de dos grados. Sin embargo, esto no sucede ası́, sino que experimentamos un
incremento de un grado, el mismo que hemos percibido al pasar del estı́mulo a al
b. Y este mismo incremento de un grado es también el que percibiremos cuando
pasemos del estı́mulo c al d, aunque la diferencia aritmética entre sus parámetros
sea de 400 (800-400).
La explicación reside en que nuestra sensación reconoce como incremento
de un grado el cociente entre las intensidades de los estı́mulos, no su
diferencia aritmética. Por eso, aunque en nuestro ejemplo hayamos tomado
como unidad sensitiva el paso del estı́mulo a al b, lo significativo no ha sido la
diferencia aritmética que hay entre ambos estı́mulos (es decir, 100), sino la razón
b/a que se establece entre ellos, que es la misma que c/b y que d/c. En este caso,
se trata de la razón doble, la representada por el número 2:
200 400 800 2

= = =
100 200 400 1
Esto quiere decir que cada vez que el parámetro fı́sico se multiplique por 2, nuestra
sensación se incrementará un grado.
Imaginemos ahora que tenemos un nuevo estı́mulo al que llamaremos e, cuya in-
tensidad es de 3200, y queremos saber cuántos grados sensoriales de incremento
percibirá nuestra sensación al pasar del estı́mulo a a ese estı́mulo e.
La razón entre el estı́mulo e y el estı́mulo a es 3200/100, es decir, la representada
por el número 32. Puesto que en nuestro ejemplo hemos tomado como unidad de
grado sensorial la razón 2/1, representada por el número 2, la pregunta que nos
tenemos que hacer ahora es: ¿cuántas veces tenemos que multiplicar el número
2 por sı́ mismo para obtener el número 32? O, dicho de otra manera, ¿a qué
exponente hay que elevar el número 2 para obtener el número 32?
La respuesta es el logaritmo en base 2 del número 32, el cual es 5: 25 = 32. Esto
significa que si la intensidad del parámetro fı́sico pasa de 100 a 3200, nosotros
sentiremos un incremento de 5 grados. Ası́ pues, el paso del estı́mulo a al estı́mulo
e provocará una sensación 5 veces más intensa que la que hemos experimentado
al pasar del estı́mulo a al estı́mulo b.
Generalizando, para saber cuántos grados sensoriales experimentamos
cuando el estı́mulo cambia de intensidad, basta obtener el logaritmo
del cociente entre el estı́mulo final y el inicial, logaritmo que ha de
59
tener como base la razón numérica que hemos elegido como unidad
sensorial.
En efecto, el logaritmo, como su nombre indica, es el número que mide la razón
(la palabra logaritmo procede del griego lógos, razón, y arithmós, número) y, por
ello, el logaritmo realiza la conversión de los valores de los parámetros fı́sicos a
las unidades en las que se miden nuestras sensaciones. Por eso se dice que nuestra
percepción es logarı́tmica.
Con todas las matizaciones, excepciones y limitaciones que serı́a necesario hacer en
cada caso, la Ley de Weber-Fechner tiene especial interés para conocer cómo oı́mos
la música, pues, como veremos enseguida, nuestra audición percibe las diferencias
de frecuencia y de amplitud de modo logarı́tmico.
5.3. Frecuencia y altura tonal: notas e intervalos

La altura tonal que percibimos al oı́r un sonido periódico y con ella la nota musical
que reconocemos está determinada por el parámetro fı́sico de frecuencia (o por su
inversa, el periodo). Conforme mayor es la frecuencia de un sonido, más aguda es
la altura tonal que apreciamos, y viceversa.
A continuación vamos a analizar el modo en el que las notas y los intervalos musica-
les están vinculados con la frecuencia de los sonidos. Comenzaremos comprobando
que, dado el carácter logarı́tmico de nuestro sistema perceptivo, los intervalos se
definen por las razones numéricas que se establecen entre las frecuencias. Luego
examinaremos las unidades musicales que habitualmente utilizamos para comparar
intervalos entre sı́: el intervalo de octava y sus divisiones. Y finalmente estudiare-
mos cómo se establece mediante los intervalos una correspondencia directa entre
las frecuencias de los sonidos y las notas musicales.
5.3.1. El intervalo musical como razón numérica
Aunque la altura tonal de una nota tiene un valor musical por sı́ misma, lo cierto es
que los elementos que definen las escalas y los acordes musicales no son las alturas
absolutas de los sonidos, sino los intervalos que se producen entre ellas.
Igual que ocurre con la mayor parte de nuestro sistema sensitivo, en lo que con-
cierne a la percepción del intervalo musical también está presente la Ley de Weber-
Fechner : la manera en la que percibimos las variaciones de la frecuencia no respon-
de a una escala lineal, sino a una escala logarı́tmica. Esto explica que el intervalo
60
musical no sea la diferencia aritmética entre sus frecuencias, sino su razón numéri-
ca, el cociente que se establece entre ellas.
He fabricado un vı́deo que nos va a permitir comprobar cómo percibimos las va-
riaciones de la frecuencia y por qué las magnitudes de los intervalos musicales
son razones numéricas. El vı́deo está formado por una sucesión de sonidos simples
agrupados de dos en dos para que se pueda distinguir con facilidad el intervalo que
hay entre ellos. Consta de dos partes separadas por una pausa larga. En la primera
parte se oyen en primer lugar dos sonidos seguidos, cuyas frecuencias son 220 Hz
y 440 Hz, y tras una breve pausa, se oyen otros dos sonidos seguidos de 440 Hz y
660 Hz. En la segunda parte del vı́deo se oye primero otra vez la pareja de sonidos
de 220 Hz y 440 Hz, y luego otra nueva pareja que tiene como frecuencias 440 Hz
y 880 Hz. A medida que se van sucediendo los sonidos, se muestra en un recuadro
la frecuencia y la nota musical correspondiente.
Figura 5.1: Vı́deo con una sucesión de sonidos simples agrupados por parejas que
forman distintos intervalos.
Podemos apreciar con claridad que percibimos mayor altura tonal en aquellos
sonidos que presentan las oscilaciones más apretadas, es decir, los que tienen un
periodo menor y, por lo tanto, una mayor frecuencia. Pero, sobre todo, lo que
nos interesa experimentar mediante este vı́deo es que el intervalo que percibimos
entre dos notas musicales no está definido por la diferencia aritmética entre sus
frecuencias, sino por el cociente entre ellas.
En la primera parte del vı́deo vemos que entre el primer sonido, el de 220 Hz, y
el segundo, el de 440 Hz, hay una diferencia aritmética de 220 Hz. Apreciamos
al oı́rlos un salto de altura tonal que es un intervalo de octava, en concreto, el
61
que existe entre el la3 y el la4 . Ahora bien, cuando escuchamos el salto entre los
sonidos de la segunda pareja —entre el tercero, de 440 Hz, y el cuarto, de 660 Hz—
no percibimos un intervalo de octava, a pesar de que su diferencia aritmética es
también de 220 Hz. Nuestra sensación nos dice que el salto ha sido bastante más
pequeño que el que se producı́a entre el sonido de 220 Hz y el de 440 Hz. En efecto,
ahora no reconocemos el la5 , sino el mi5 , que está a una distancia interválica de
quinta respecto al la4 .
Sin embargo, al oı́r los cuatro sonidos de la segunda parte del vı́deo apreciamos
la misma diferencia interválica entre la altura tonal de las dos parejas: entre el
primer sonido, cuya frecuencia es de 220 Hz, y el segundo, de 440 Hz, oı́mos un
intervalo de octava, que es el mismo que oı́mos entre el tercer sonido, de 440 Hz, y
el cuarto, de 880 Hz. Pero la diferencia aritmética entre las frecuencias es distinta:
mientras que entre los dos primeros sonidos es de 220 Hz, entre los dos segundos
es de 440 Hz.
Comprobamos que lo que ocurre es que la razón entre las frecuencias que definen
los dos intervalos de esta segunda parte del vı́deo es la misma: el segundo sonido
respecto al primero mantiene la misma razón numérica que el cuarto respecto
al tercero, exactamente la razón doble, 2/1, la cual es la propia del intervalo de
octava:
440 880 2
= =
220 440 1
Hemos podido experimentar que reconocemos el mismo intervalo, la misma dis-
tancia perceptiva, cuando entre los sonidos se mantiene la misma razón numérica.
Esto se debe a que lo que define el intervalo musical no es la diferencia
aritmética entre sus frecuencias, sino la razón que hay entre ellas, su
cociente.
En el vı́deo, además de los dos intervalos de octava, oı́mos un intervalo de quinta,
el que hay entre la segunda pareja de sonidos, la4 (440 Hz) y mi5 (660 Hz). Si
atendemos a la relación que se establece entre sus frecuencias vemos que están en
razón 3/2, que es la razón que define el intervalo de quinta natural:
660 3
=
440 2
Ası́ mismo, aunque no las oigamos seguidas, podemos ver que el intervalo que hay
entre la última nota de la primera parte, mi5 (660 Hz), y la última nota de la
segunda parte, la5 (880 Hz), es de una cuarta. Si nos fijamos en sus frecuencias
62
veremos que mantienen la razón 4/3, que es la que define el intervalo de cuarta
natural:
880 4
=
660 3
Los intervalos que podemos considerar estructurales en nuestro sistema musical
tienen una razón simple entre sus frecuencias: dos sonidos están a un intervalo de
octava cuando sus frecuencias mantienen la razón doble, 2/1; están a un intervalo
de quinta cuando mantienen la razón 3/2, la llamada razón sesquiáltera; y están a
un intervalo de cuarta cuando mantienen la razón 4/3, la llamada razón sesquiter-
cia. Ahora bien, en nuestra música habitualmente no oı́mos los intervalos naturales
de cuarta y quinta, sino los intervalos temperados, los cuales están ligerı́simamente
desviados.
Finalmente, del hecho de que el intervalo sea una razón numérica se deduce que
el intervalo que se obtiene de la composición de otros intervalos es el
resultado de multiplicar sus respectivas razones. Por ejemplo, de la com-
posición del intervalo de quinta y el de cuarta surge el intervalo de octava, como
podemos apreciar si unimos el intervalo que hay entre las notas la4 y mi5 (3/2)
con el que hay entre mi5 y la5 (4/3):
3 4 2
× =
2 3 1
De manera inversa, la diferencia entre dos intervalos es la división de sus razones.
Ası́ entre el intervalo de octava —por ejemplo, el que hay entre la4 y la5 (2/1)— y
el intervalo de quinta —por ejemplo, entre la4 y mi5 (3/2)— existe una diferencia
interválica de una cuarta (4/3) —la que hay entre mi5 y la5 —, lo cual se obtiene
dividiendo entre sı́ ambas razones:
2 3 4
÷ =
1 2 3
5.3.2. Unidades interválicas
Como acabamos de ver, los intervalos se definen mediante las razones entre sus
frecuencias, pero, en tanto que el intervalo es un elemento de nuestra percepción
musical, necesitamos una unidad perceptiva que nos permita comparar unos in-
tervalos con otros. En la música disponemos de una unidad natural. Esta unidad
63
natural es el intervalo de octava, la razón 2/1 entre las frecuencias de los soni-
dos.
Sonidos que distan un intervalo de octava poseen una especial afinidad reconocida
en la práctica totalidad de los sistemas musicales de las diferentes culturas. Hay
que tener presente que cuando dos sonidos que forman una octava son emitidos
simultáneamente, el más ligero alejamiento de la relación doble es percibido inme-
diatamente como desafinación. Ası́ pues, la octava es una unidad interválica
de carácter universal y en referencia a ella establecemos las restantes
unidades que utilizamos para medir los intervalos.
Veamos cómo podemos expresar cualquier intervalo en número de octavas. Ima-
ginemos dos sonidos cuyas frecuencias sean a y b. El intervalo será la razón b/a.
Si aplicamos lo que hemos estudiado con carácter general en el apartado sobre la
Ley de Weber-Fechner para medir las distancias perceptivas, concluiremos que el
número de octavas que mide este intervalo será el logaritmo en base 2 del número
b/a (recordemos que 2 es la razón de la octava). Ası́ pues, para expresar la
medida de un intervalo en octavas bastará tomar el logaritmo en base
2 del número que define la razón entre las frecuencias de los sonidos
que lo delimitan, sin que el resultado tenga que ser necesariamente un número
entero.
Por ejemplo, el intervalo que hay entre el último sonido del vı́deo, el la5 de 880 Hz,
y el primero, el la3 de 220 Hz, está definido por la razón 880/220, es decir, 4/1.
Por lo tanto, el número de octavas de este intervalo será el logaritmo en base 2 del
número 4, que es 2. Efectivamente, entre el la5 y el la3 hay dos octavas.
Pero en la mayor parte de las ocasiones la octava es un intervalo demasiado grande
para medir las diferencias entre las alturas tonales de los sonidos. Por eso se recurre
a divisiones de la octava. Una unidad interválica habitual es el semitono
temperado, que se define como la doceava parte de la octava. Por eso
la razón que representa el semitono temperado es el número que multiplicado 12
veces por sı́√mismo da como resultado el número 2, la razón de la octava. Este
número es 12 2, que expresado con 15 decimales es: 1,059463094359295.
Cuando se trata de medir las sutilezas de la afinación el semitono sigue siendo
una unidad muy grande, por lo que es común también utilizar como unidad
interválica la centésima parte del semitono temperado, la cual recibe
el nombre de cent. Como el cent es la 1/1200 parte de la octava, la razón que
define el intervalo de cent es√aquella que multiplicada por sı́ misma 1200 veces da el
número 2. Esta razón es 1200 2, que con 15 decimales es: 1,000577789506555.
64
De las propiedades de los logaritmos se deduce que para expresar un intervalo
cualquiera en semitonos o en cents basta con tomar el logaritmo en base 2 de la
razón de las frecuencias de sus notas y multiplicar el resultado respectivamente
por 12 o por 1200.
A modo de ejemplo veamos cómo podemos expresar en semitonos temperados el
intervalo de quinta natural definido por la razón 3/2. Basta simplemente calcular
el logaritmo en base 2 del número 3/2 y multiplicarlo luego por 12. El resultado
redondeado a centésimas de semitono es 7,02.
3
log2 × 12 = 7, 02
2
Comprobamos que el intervalo de quinta natural, definido por la razón 3/2, es 2
centésimas de semitono —es decir, 2 cents— mayor que el de quinta temperada,
que por definición consta de 7 semitonos temperados.
Ası́ mismo, si queremos expresar en semitonos el intervalo de cuarta natural, la
razón 4/3, calcularemos el logaritmo en base 2 del número 4/3 y lo multiplicaremos
por 12. El resultado será 4,98 semitonos.
4
log2 × 12 = 4, 98
3
Este resultado nos indica que el intervalo de cuarta natural es 2 cents menor que
el de cuarta temperada, que por definición consta de 5 semitonos.
Una vez realizadas estas comparaciones, nos daremos cuenta de que el sistema
temperado se caracteriza porque acorta muy ligeramente las quintas y alarga las
cuartas, exactamente 2 cents en ambos casos.
5.3.3. Las frecuencias de las notas musicales
Para determinar las frecuencias de las notas musicales de la escala, además de

conocer los intervalos que las separan, es necesario también elegir la frecuencia de
una nota que sirva de punto de partida para calcular todas las demás. La elección
de la frecuencia de esta nota determina la altura absoluta de toda la escala.
Aunque el intervalo es el elemento más relevante para el lenguaje musical, lo cier-
to es que la altura absoluta también tiene un importante valor en sı́ misma. Es
evidente que el efecto musical que produce una melodı́a es muy distinto cuando
se interpreta en un registro grave que cuando se hace en un registro agudo. Ası́
65
mismo, también resultan claras las diferencias entre una pieza interpretada, pon-
gamos por caso, en la tonalidad de do mayor o la misma pieza transportada a la
tonalidad de mi mayor. Y hay todavı́a otras diferencias más sutiles: por ejemplo,
una pieza de Händel ejecutada en la afinación que se considera propia de su músi-
ca, con el la4 en torno a 422 Hz, no suena igual que esa misma pieza interpretada
en la afinación estándar actual, con el la4 a 440 Hz.
Veamos cómo se determinan las frecuencias de las notas de nuestra escala tempera-
da. Supongamos que elegimos como nota de referencia el la4 a 440 Hz y queremos
hallar la frecuencia a la que debe estar afinada la nota do6 . La cantidad de semi-
tonos temperados que separan ambas notas es 15 (12 semitonos de la octava la4
a la5 , más 3 de la5 a do6 ). El número que define el intervalo de 15 semitonos será
el resultado de multiplicar
√ 15 veces por sı́ misma la razón del semitono, que como
12
hemos visto es 2:
√
12
215 = 2, 378414230005442
El número 2,378414230005442 es, ası́ pues, la razón que define el intervalo de 15

semitonos. Nos bastará ahora con multiplicar este número por la frecuencia de la
nota que hemos tomado como referencia inicial, en este caso 440 Hz, para obtener
la frecuencia de la nota do6 en la escala temperada estándar. Su valor será 1046,5
Hz.
√
12
440 × 215 = 1046, 5
A continuación presento una tabla con las frecuencias de las notas musicales en
la escala temperada estándar. Los números de la fila superior indican la octava a
la que corresponde cada nota. Aunque no hay unanimidad en la asignación de los
números de octava, he seguido el criterio que me parece más acertado, el que hace
corresponder el do central del piano con el inicio de la octava número 4.
Sobre fondo amarillo está destacada la frecuencia de la nota utilizada como refe-
rencia, el la4 . Las notas cuyo fondo está en color naranja coinciden con la extensión
completa de un piano moderno, que va del la0 al do8 . Las notas sobre fondo lila son
completamente excepcionales en la práctica musical: resulta muy difı́cil reconocer
la altura tonal de las más agudas, mientras que las más graves –algunas de las
cuales se pueden encontrar en algún tubo de órgano– casi no se perciben como
sonido, sino más bien como un zumbido sordo.
66
0 1 2 3 4 5 6 7 8
do 16,4 32,7 65,4 130,8 261,6 523,3 1.046,5 2.093,0 4.186,0
do# 17,3 34,6 69,3 138,6 277,2 554,4 1.108,7 2.217,5 4.434,9
re 18,4 36,7 73,4 146,8 293,7 587,3 1.174,7 2.349,3 4.698,6
mib 19,4 38,9 77,8 155,6 311,1 622,3 1.244,5 2.489,0 4.978,0
mi 20,6 41,2 82,4 164,8 329,6 659,3 1.318,5 2.637,0 5.274,0
fa 21,8 43,7 87,3 174,6 349,2 698,5 1.396,9 2.793,8 5.587,7
fa# 23,1 46,2 92,5 185,0 370,0 740,0 1.480,0 2.960,0 5.919,9
sol 24,5 49,0 98,0 196,0 392,0 784,0 1.568,0 3.136,0 6.271,9
lab 26,0 51,9 103,8 207,7 415,3 830,6 1.661,2 3.322,4 6.644,9
la 27,5 55,0 110,0 220,0 440,0 880,0 1.760,0 3.520,0 7.040,0
sib 29,1 58,3 116,5 233,1 466,2 932,3 1.864,7 3.729,3 7.458,6
si 30,9 61,7 123,5 246,9 493,9 987,8 1.975,5 3.951,1 7.902,1
Tabla 5.1: Frecuencia de las notas musicales (Hz) en las diferentes octavas.
5.4. Amplitud y volumen sonoro

El mayor o menor volumen sonoro, que es una sensación subjetiva, está en relación
directa con la intensidad de las ondas sonoras que llegan a nuestros oı́dos. La
intensidad es una magnitud fı́sica que mide la potencia sonora que transmite la
onda por unidad de superficie y se expresa en vatios por metro cuadrado (W/m2).
Es decir, la intensidad sonora es la cantidad de energı́a que, como consecuencia
67
del movimiento vibratorio que transmiten las ondas, fluye en un instante dado a
través de un área del espacio, como puede ser el tı́mpano de nuestro oı́do.
Puesto que la intensidad de las ondas sonoras cuando se propagan por el aire es
independiente de la frecuencia y, en el caso de un sonido simple, es directamente
proporcional al cuadrado de la amplitud con la que la presión oscila, el volumen
sonoro que percibimos al escuchar un sonido simple viene determinado
por el cuadrado de su amplitud.
Igual que ocurre con la altura tonal, también ahora está presente la Ley de Weber-
Fechner, de modo que el cambio en el volumen sonoro que percibimos guarda una
relación logarı́tmica con la variación de la intensidad o, lo que viene a ser lo mismo,
con la variación del cuadrado de la amplitud, a la que la intensidad es directamente
proporcional. Por ello, lo que nuestro sistema perceptivo interpreta como
un grado en la variación del volumen sonoro es el cociente entre las
intensidades de los sonidos, no su diferencia aritmética.
5.4.1. Unidades interválicas de intensidad sonora: el belio y el decibe-

lio
El rango de intensidades que podemos oı́r es mucho más amplio que el de fre-
cuencias. Mientras el sonido más agudo que oı́mos tiene una frecuencia de unas
mil veces la del sonido más grave (recordemos que el rango frecuencial de nuestra
audición va aproximadamente de 20 Hz a 20.000 Hz), el sonido más fuerte que
podemos escuchar es por lo menos un billón de veces más intenso que el más débil.
En efecto, el rango de intensidades de la audición humana va desde un picovatio
por metro cuadrado (1 pW/m2=0,000000000001 W/m2), donde se sitúa el umbral
de audición, hasta un vatio por metro cuadrado (1 W/m2), donde la sensación
auditiva se transforma en dolorosa.
Además, para medir la percepción de la intensidad sonora no existe una unidad
objetiva que cumpla una función similar al intervalo de octava en el caso de la
percepción de las alturas tonales en la música. Pero, puesto que se ha comprobado
de una manera estadı́stica que un incremento en la intensidad del sonido de 10
veces es percibido por nuestra sensación auditiva como si se hubiera doblado el
sonido, se ha establecido como unidad convencional la razón 10:1.
Por eso, para poder comparar las diferentes intensidades de los sonidos de una
manera acorde con la forma en la que percibimos el volumen sonoro se utiliza la
relación 10:1. Esta unidad recibe el nombre de bel o belio (B) en honor del cientı́fico
Alexander Graham Bell. El belio, que sirve también como unidad logarı́tmica
68
para otras magnitudes relativas, es el logaritmo en base 10 de la razón entre
las magnitudes que se quieren comparar. En lo que concierne al sonido,
podrı́amos decir que el belio es una medida interválica de las intensidades sonoras
y cumple una función similar a la que realiza la octava en la percepción de la
frecuencia.
Pero como en la mayor parte de las ocasiones el belio resulta en la práctica una
unidad demasiado grande, para medir la intensidad sonora habitualmente
se utiliza el decibelio (dB), que es la décima parte del belio. Ası́ pues, para
saber cuántos decibelios de diferencia hay entre dos sonidos, se toma el logaritmo
en base 10 de la razón entre sus respectivas intensidades —o de la razón entre los
cuadrados de sus amplitudes— y se multiplica el resultado por 10.
Veamos con ayuda de un ejemplo cómo se puede expresar en decibelios la diferen-
cia de volumen sonoro entre dos sonidos cuyas amplitudes son una el doble de la
otra. Dado que la intensidad es directamente proporcional al cuadrado de la am-
2
plitud, las diferencias entre sus intensidades estarán en razón cuádruple: 21 = 41 .
Calculamos el logaritmo en base 10 de 4 y multiplicamos el resultado por 10. Re-
dondeando, obtenemos el número 6,02. Ası́ pues, el intervalo de intensidades, la
diferencia de volumen sonoro que percibimos entre dos sonidos cuya amplitud es
una el doble que la otra, es aproximadamente de 6 dB.
Podemos aprovechar las propiedades de los logaritmos para simplificar el cálculo
(el logaritmo de un número elevado al cuadrado es igual al logaritmo de ese número
multiplicado por 2), por lo que es suficiente multiplicar por 20 el logaritmo en base
10 de la razón 2/1 que hay entre las amplitudes:
2
2 2

10 × log10 = 20 × log10 = 6, 02
1 1
Resumiendo, para expresar en decibelios las diferencias de volumen so-
noro entre dos sonidos simples basta tomar el logaritmo en base 10 del
cociente entre sus amplitudes y multiplicarlo por 20.
69
5.4.2. Correspondencia entre la amplitud normalizada y la intensidad
en decibelios
Los editores de sonido ofrecen la posibilidad de acompañar las gráficas que repre-
sentan la evolución temporal de la amplitud de la presión sonora —cuyos valores
están generalmente normalizados entre 1 y -1— con una escala logarı́tmica en de-
cibelios que indica la intensidad a la que corresponden. Esto nos permite comparar
entre sı́ las amplitudes de varios sonidos de una manera más próxima a la sensación
de volumen que percibimos.
Para obtener los valores de intensidad relativa en una escala expresada en deci-
belios, se aplica la fórmula anterior, es decir, se calcula el logaritmo en base 10
del valor de cada amplitud y se multiplica por 20. Ası́, el valor de amplitud 1
equivale a 0 dB de intensidad (el logaritmo en base 10 de 1 es 0); el valor 0,5 de
amplitud corresponde a -6,02 dB de intensidad relativa; y ası́ sucesivamente. Los
valores negativos se deben a que el logaritmo de los números inferiores a la unidad
es negativo, de modo que 0 dB se corresponde con la amplitud máxima.
A continuación presento una tabla de correspondencias entre los valores de am-
plitud normalizados y su intensidad expresada en decibelios. En la columna de la
izquierda se muestran una serie de valores de amplitud normalizada que cubren el
rango que un sistema de 16 bits es capaz de digitalizar. Los valores van decreciendo
de modo que cada uno de ellos es la mitad del anterior, hasta llegar al valor mı́ni-
mo que es posible representar con 16 bits. En la columna de la derecha se expresa
en decibelios los correspondientes valores de intensidad. Podemos observar que las
intensidades van decreciendo de manera lineal, disminuyendo 6,02 dB cada vez que
la amplitud se reduce a la mitad.
70
Amplitud Intensidad
normalizada normalizada (dB)
1,000000 0,00
0,500000 -6,02
0,250000 -12,04
0,125000 -18,06
0,062500 -24,08
0,031250 -30,10
0,015625 -36,12
0,007813 -42,14
0,003906 48,16
0,001953 -54,19
0,000977 -60,21
0,000488 -66,23
0,000244 -72,25
0,000122 -78,27
0,000061 -84,29
0,000031 -90,31
0,000015 -96,33
Tabla 5.2: Equivalencias entre amplitudes y decibelios de intensidad.
5.4.3. Valores absolutos de intensidad sonora
Por razones prácticas, hay algunas ocasiones en las que es conveniente referirse a
la intensidad del sonido en términos absolutos, como por ejemplo para determinar
si el nivel sonoro de un lugar está dentro de la normativa legal. En estos casos
71
es útil establecer una escala logarı́tmica de intensidades absolutas adecuada a la
manera en la que nosotros percibimos el volumen sonoro.
Dado que el belio o el decibelio son unidades que miden intervalos entre intensida-
des, para expresar con ellas valores absolutos es necesario tomar una intensidad de
referencia con la que comparar las que queremos medir. Como sonido de referencia
al que se asigna el valor 0 dB, se ha elegido lo que se considera el umbral mı́nimo
de la audición humana: un sonido simple de 1 pW de intensidad, a una frecuencia
de 1000 Hz.
Para hacernos una idea de las intensidades que corresponden al volumen que per-
cibimos en distintos ambientes sonoros, pongo debajo una escala de intensidades
absolutas y su correspondiente valor en dB, acompañada de unos ejemplos orien-
tativos. En la columna de la izquierda se muestra la intensidad en W/m2 y en la
del medio la intensidad en dB, a partir del valor de referencia inicial de 0 dB para
1 pW/m2. El valor de cada intensidad es 10 veces mayor que el de la fila anterior,
por lo que el incremento en dB es de 10. Como la intensidad depende de la proxi-
midad o lejanı́a de la fuente sonora, se indica la distancia o el lugar en el que se
deberı́a hacer la medición. Hay que insistir en el carácter meramente orientativo
de cada ejemplo, dada la gran variedad de intensidades que pueden darse en cada
situación sonora.
72
Intensidad Intensidad
Ejemplo sonoro orientativo
W(m2) (dB)
- Umbral de audición para un sonido simple de 1000 Hz.

0,000000000001 0
- Suave aleteo de una mariposa a 1 m.
- Zumbido de un mosquito a 1 m.
0,000000000010 10
- Suave murmullo de hojas de árbol a 10 m.
- Respiración tranquila de una persona a 1 m.

0,000000000100 20
- Ordenador silencioso a 1 m.
- Murmullo de un arroyo en el campo a 1 m.

0,000000001000 30
- Susurro a 2 m en una biblioteca silenciosa.
- Oleaje junto a la orilla de una playa tranquila.

0,000000010000 40
- Piano vertical en un pasaje pianissimo (pp) a 3 m.
- Ruido de lluvia moderada en una calle sin tráfico.

0,000000100000 50
- Piano vertical en un pasaje piano (p) a 3 m.
- Conversación entre dos personas a volumen medio a 1 m.

0,000001000000 60
- Piano vertical en un pasaje mezzoforte (mf ) a 3 m.
- Autobús urbano de gasóleo a 10 m.

0,000010000000 70
- Piano vertical en un pasaje forte (f ) a 3 m.
- Ruido de tráfico intenso a 10 m.

0,000100000000 80
- Piano vertical en un pasaje fortissimo (ff ) a 3 m.
- Moto de gran cilindrada a 10 m.

0,001000000000 90
- Orquesta sinfónica a pleno volumen en sala de conciertos.
- Sirena de una ambulancia a 20 m.

0,010000000000 100
- Tren suburbano llegando a la estación en el andén.
- Avión de pasajeros despegando a 100 m.

0,100000000000 110
- Música a gran volumen en el interior de una discoteca.
- Martillo neumático a 0,5 m.

1,000000000000 120
- Umbral de molestias serias.
Tabla 5.3: Niveles de volumen sonoro de diferentes sonidos.
73
5.4.4. La percepción del volumen sonoro
He confeccionado un vı́deo que nos va a permitir experimentar cómo percibimos

el mismo grado de disminución del volumen sonoro cuando la amplitud se reduce,
manteniendo la misma razón. En él podemos oı́r seis veces el sonido simple la3
a 220 Hz con una amplitud que es cada vez la mitad de la anterior. En la parte
superior del vı́deo va apareciendo el valor de la amplitud normalizada de la nota
que está sonando y su correspondiente intensidad en decibelios. La primera nota
tiene una amplitud de 0,5 y las siguientes notas reducen su amplitud sucesivamente
a la mitad, coincidiendo con los valores de la tabla.
Figura 5.2: Vı́deo con la nota la3 a 220 Hz repetida con una amplitud que se reduce
cada vez a la mitad.
Para apreciar que los valores de amplitud e intensidad son relativos, nos basta
con subir o bajar el volumen del reproductor de sonido. Al hacer esto, aumenta
o disminuye la presión sonora que el altavoz origina y, con ello, la intensidad que
llega a nuestros oı́dos. Ahora bien, si escuchamos de nuevo todo el vı́deo con el
nuevo volumen, comprobaremos que percibimos el mismo grado de disminución
del volumen sonoro al pasar de nota en nota. En efecto, el intervalo entre las
intensidades sonoras, lo que nosotros percibimos como un grado en el volumen
sonoro, sigue siendo el mismo: cada vez que la amplitud se reduce a la mitad
nosotros percibimos el mismo descenso de volumen sonoro, el que corresponde
aproximadamente a 6 dB.
Hemos podido comprobar que nuestra percepción del volumen sonoro guarda mu-
chas similitudes con nuestra percepción de la altura tonal. Sin embargo, hay varias
74
diferencias que conviene tener presente, debidas tanto a las peculiaridades fı́sicas
del sonido, como a las de nuestro sistema auditivo.
A diferencia de la frecuencia que, salvo situaciones excepcionales, se mantiene in-
variable en su transmisión a través de las ondas, la amplitud y la intensidad
disminuyen progresivamente conforme el sonido se aleja de la fuente: la
amplitud de forma lineal y la intensidad según el cuadrado de la distan-
cia. Además, ambas magnitudes son muy sensibles a las múltiples incidencias que
las ondas pueden encontrase en su camino.
Por otra parte, nuestra sensación no responde de igual manera a todos los
sonidos de la misma intensidad, sino que el grado de volumen sonoro
que percibimos depende en buena medida de la frecuencia. Para permitir
comparar el volumen sonoro en función de la frecuencia se ha establecido una
unidad de referencia: el fon o fonio. Hay que tener en cuenta que el fonio no es
una unidad fı́sica objetiva, sino que se trata de una unidad establecida a partir
de criterios psicoacústicos estadı́sticos. El número de fonios de un sonido
simple es la sensación de volumen sonoro que experimenta un oyente
medio cuando escucha un sonido de 1000 Hz de ese número de decibelios
de intensidad absoluta.
Por ello la escala de fonios coincide con el valor de intensidad sonora de un sonido
a 1000 Hz. Por ejemplo, cuando hablamos de un sonido que provoca una sensación
de volumen sonoro de 50 fonios, estamos refiriéndonos a un sonido simple de 1000
Hz cuya intensidad sonora expresada en decibelios absolutos es de 50 dB. Si la
frecuencia del sonido fuera de 200 Hz, para provocar la misma sensación de volumen
sonoro —es decir, 50 fonios— serı́a necesario que tuviera una intensidad de 60 dB,
expresada en unidades absolutas.
Podemos verlo en las gráficas que habitualmente se establecen con los valores psi-
coacústicos de la percepción del volumen sonoro en función de la frecuencia.
75
Figura 5.3: Gráficas de la percepción del volumen sonoro en las diferentes frecuencias.
La raya azul marca los 1000 Hz, la frecuencia de referencia donde el número de
fonios coincide con el valor de la intensidad sonora absoluta. Podemos observar que
en torno a los 4000 Hz es donde, con la misma intensidad sonora, la percepción del
volumen es mayor, tal vez debido a la resonancia de nuestra canal auditivo. Por
otra parte, las zonas extremas, tanto graves como agudas, requieren una intensidad
mucho mayor para que el oyente experimente el mismo número de fonios, es decir,
la misma sensación de volumen sonoro.
5.5. Conclusión
A lo largo de este capı́tulo hemos podido comprobar que nuestra percepción musical
de los parámetros fı́sicos del sonido es logarı́tmica. Percibimos razones interválicas,
no diferencias aritméticas. Mientras la altura tonal es el correlato perceptivo de la
frecuencia, el volumen sonoro está en relación directa con el cuadrado de la ampli-
tud. En ambos casos, nuestra sensación se incrementa de grado en grado cuando
se mantiene la misma razón en la variación de los parámetros fı́sicos. El intervalo
melódico entre dos notas musicales queda determinado por la razón entre sus fre-
cuencias y puede ser expresado utilizando como unidad la octava —la razón 2/1—
o cualquiera de sus subdivisiones, como el semitono o el cent. Ası́ mismo, también
podemos definir el “intervalo” de volumen sonoro entre dos sonidos como la razón
entre el cuadrado de sus amplitudes y utilizar para medirlo el belio —la razón
76
10/1— o el decibelio. El hecho de que, a diferencia de la amplitud, la frecuencia
permanezca invariable a lo largo de la transmisión ondulatoria ha posibilitado su
codificación en las notas y escalas del lenguaje musical.
77
Capı́tulo 6
Mezcla e interferencia de dos sonidos

simples
6.1. Introducción
Los sonidos que oı́mos todos los dı́as, sean o no musicales, no suelen ser sonidos
simples, sino el resultado de la superposición de un conjunto de vibraciones que
coinciden en un momento dado. En el caso de la música, que es lo que nos interesa
ahora, estas superposiciones se pueden producir en cualquier lugar: en el cuerpo
mismo de los instrumentos, en el espacio por el que se transmiten las ondas sonoras
o en el interior de nuestro oı́do.
Cuando se mezclan las vibraciones sonoras se producen diversos fenómenos acústi-
cos, fenómenos que dan lugar a las diferentes cualidades sonoras que oı́mos. Estas
mezclas, dependiendo de sus caracterı́sticas, pueden ser combinaciones armónicas
que percibimos como notas musicales o pueden ser otro tipo de combinaciones en
las que apreciamos simplemente ruido. En efecto, los fenómenos acústicos deriva-
dos de las distintas combinaciones de sonidos simples (es decir, de componentes
sinusoidales) generan buena parte de la riqueza sonora de nuestro entorno. En lo
que concierne a la música, los fenómenos que se crean al combinarse las vibraciones
de distintos sonidos o de distintos componentes de un mismo sonido constituyen
buena parte del fundamento acústico de nuestro sistema musical.
Como se estudia en el capı́tulo siguiente, el sonido armónico o musical, hablando
en general, está formado por una serie de componentes simples cuyas vibraciones
se superponen de una manera especial. Las caracterı́sticas de las mezclas y com-
binaciones de sonidos simples que dan lugar al sonido musical son la causa de su
78
particular naturaleza sonora. Estas caracterı́sticas explican, además, los principios
fı́sicos que rigen las consonancias, los pilares del lenguaje musical.
En este sentido, este capı́tulo prepara el estudio del sonido armónico, es decir,
de la estructura armónica creada por la combinación de componentes simples que
mantienen entre sı́ unas determinadas relaciones. Puesto que los principios que
rigen la superposición de dos componentes simples son los mismos que los que están
detrás de la mezcla de cualquier número de componentes, conviene experimentar
cómo son los fenómenos que se crean cuando interfieren entre sı́ las vibraciones
de dos sonidos simples y analizar a qué se deben esos fenómenos. Después será
sencillo entender las especiales relaciones de conmensurabilidad que se establecen
entre las frecuencias de un número cualquiera de componentes simples cuando se
superponen unos con otros para formar un sonido armónico.
Ası́ pues, en este capı́tulo vamos a comprobar que los fenómenos acústicos que se
crean en las diferentes tipos de mezclas de sonidos simples son el resultado bien
de la diferencia aritmética entre las frecuencias de los sonidos que se superponen
o bien de la razón numérica que hay entre esas frecuencias, y que estos fenómenos
están condicionados por la anchura de la banda crı́tica correspondiente a sus res-
pectivas frecuencias. Además, vamos a atender a los fundamentos acústicos de las
consonancias musicales, es decir, a los fenómenos que se producen cuando se mez-
clan dos sonidos simples cuyas frecuencias mantienen unas especiales relaciones de
conmensurabilidad.
Por otra parte, al estudiar todos estos fenómenos, vamos a entender el mecanismo
acústico que permite la afinación de los instrumentos musicales. Comprenderemos
cómo, a lo largo de la historia, de manera natural y sin recurrir a ninguna herra-
mienta externa, ha sido posible afinar con precisión los instrumentos y, a partir de
esas afinaciones, han sido establecidas las diferentes escalas musicales. En efecto,
podremos experimentar que las interferencias que se crean cuando se mezclan entre
sı́ los sonidos permiten determinar de manera empı́rica las alturas tonales que dan
lugar a los intervalos y a las escalas, y que eso se hace con tanta exactitud que
muy ligeras variaciones son interpretadas por nuestra percepción como extrañas a
esa escala o desafinadas.
Experimentaremos también los lı́mites de nuestra capacidad para discernir indi-
vidualmente sonidos simultáneos, comprobando que estos lı́mites dependen de la
anchura de la banda crı́tica correspondiente a cada zona frecuencial.
Y, por último, mediante la introducción de una distorsión artificial en la señal,
comprobaremos los efectos que ésta puede ocasionar en la mezcla de sonidos sim-
ples, al dar lugar a la aparición de componentes espurios. Esta es la razón de
que, para poder apreciar correctamente las caracterı́sticas sonoras que se mues-
79
tran en los vı́deos, sea necesario que la distorsión del equipo de audio en el que los
reproduzcamos sea pequeña, como he indicado en el Prólogo de este libro.
A mi juicio, el modo más sencillo que tenemos hoy en dı́a para estudiar los fenóme-
nos acústicos y psicoacústicos que se crean al mezclarse los sonidos es observar
como se comportan dos sonidos fabricados por ordenador. El hecho de utilizar so-
nidos artificiales nos garantiza su estabilidad y permite que sus parámetros estén
perfectamente controlados. Mediante vı́deos que simulan un osciloscopio creados
a partir de Matlab, a lo largo de este capı́tulo vamos a escuchar cómo suenan las
diferentes mezclas de interés musical de dos sonidos simples y observar la forma
de la vibración de la señal resultante, atendiendo tanto a los fenómenos acústicos
en sı́ mismos, como a la manera en la que nosotros los percibimos.
6.2. El Principio de Superposición Lineal de Ondas

Antes de analizar cada uno de los casos de interés musical que se producen cuando
se mezclan dos sonidos simples, vamos a prestar atención brevemente al principio
general que rige toda mezcla de sonidos. Puesto que el sonido es un movimiento
vibratorio que se transmite en forma de ondas, cuando se mezclan dos sonidos
en las situaciones habituales se cumple el Principio de Superposición Lineal de
Ondas. El Principio de Superposición Lineal de Ondas dice que cuando
en un tiempo dado coinciden en un punto dos o más ondas la alteración
total que se produce en ese punto es igual a la suma de las alteraciones
que cada onda individual habrı́a producido. Es decir, cuando dos ondas
interfieren, el comportamiento individual de cada una de ellas no se ve afectado
por el de la otra.
Si pensamos en términos de señal de audio, podemos decir que la señal que resulta
de la reunión de dos señales independientes es una nueva señal cuyas muestras son
simplemente la suma de las muestras de cada una de ellas.
Hay que tener en cuenta que para que se cumpla el Principio de Superposición
Lineal de Ondas es necesario que el medio por el que se transmite el sonido no
altere la forma de la vibración, es decir, que no distorsione la señal de audio. Si
esto no se cumple (por ejemplo, si el equipo reproductor de sonido presenta una
distorsión significativa) surgirán componentes extraños no presentes en la señal
original. Un ejemplo de los efectos de tales distorsiones son los llamados Tonos
de Tartini, que no son componentes reales que pertenezcan a la vibración sonora
en sı́ misma, sino el resultado de la pequeñı́sima distorsión que introduce nuestro
propio oı́do.
80
A continuación vamos a estudiar una serie de fenómenos fı́sicos, todos ellos de in-
terés musical, que surgen al mezclarse dos sonidos simples. Todos estos fenómenos,
ası́ como la forma en la que nosotros los percibimos, dependen de tres factores: la
distancia aritmética entre las frecuencias de los sonidos que se mezclan; la razón
numérica que se establece entre sus frecuencias; y la región frecuencial a la que
pertenecen. Generalizados a la mezcla de cualquier número de componentes, estos
fenómenos y la forma en la que nosotros los percibimos constituyen el fundamento
acústico sobre el que se ha construido nuestro Sistema Musical.
6.3. Mezcla de dos sonidos simples de la misma frecuencia:

Unı́sono
Empecemos analizando lo que ocurre cuando se superponen en el mismo espacio y
tiempo dos sonidos simples que tienen exactamente la misma frecuencia, es decir,
que forman un unı́sono.
He confeccionado un vı́deo que nos va a permitir observar que el resultado de la
superposición de dos sonidos simples de igual frecuencia es siempre otro
sonido simple de la misma frecuencia, cuya amplitud depende no solo
de la de cada sonido, sino también del desfase que hay entre ellos.
En el vı́deo se emiten cinco veces dos sonidos simultáneos que tienen la misma
frecuencia, 220 Hz, un la3 en la afinación estándar. En cada emisión oı́mos el
sonido resultante de la mezcla de ambos componentes.
Para reconocer con facilidad la forma de la señal de cada componente en el si-
mulador del osciloscopio, he generado los sonidos con una ligera diferencia entre
sus amplitudes. Si fueran exactamente iguales, las gráficas de ambas señales se
superpondrı́an y no podrı́amos distinguirlos, particularmente en el momento en el
que están en fase. La amplitud de la señal azul es 0,20 y la de la señal magenta
0,22.
En cada repetición los sonidos componentes se van desfasando entre sı́: la primera
vez que suenan tienen la misma fase inicial; luego la fase inicial del sonido re-
presentado por la señal azul se adelanta un poco, de modo que los dos sonidos
quedan desfasados entre sı́ 45o ; a continuación la señal azul se adelanta todavı́a
más, siendo el desfase entre los componentes de 90o ; luego el desfase es de 135o ; y,
finalmente, de 180o , es decir, ambos sonidos están en oposición de fase.
81
Figura 6.1: Vı́deo con dos sonidos unı́sonos que van incrementando su desfase.
Podemos ver en el osciloscopio dos señales finas sinusoidales de amplitudes muy

parecidas, una magenta y otra azul, que representan los sonidos simples compo-
nentes. Vemos también una señal más gruesa de color verde, que es la resultante de
la mezcla y que corresponde al sonido que estamos escuchando en el vı́deo.
En cada una de las cinco repeticiones percibimos un solo sonido simple. Com-
probamos, ası́ pues, que la mezcla de dos sonidos simples de la misma frecuencia
produce un sonido simple que conserva el mismo periodo y, por lo tanto, la misma
frecuencia que los componentes, en este caso 220 Hz. En efecto, en el osciloscopio
vemos que la gráfica de la señal resultante, de color verde, es también una señal
sinusoidal. Al escuchar como suenan podemos apreciar que la mezcla ha sido tan
perfecta que los sonidos que la han compuesto han sido fundidos, de modo que
oı́mos un solo sonido simple.
Veamos ahora en qué se diferencian las distintas repeticiones de esa nota. Ensegui-
da nos damos cuenta de que el volumen sonoro que percibimos es diferente en cada
caso. No voy a explicar ahora cómo se puede calcular la amplitud y la fase inicial
del sonido resultante de la mezcla, pues no es relevante para nuestro objetivo; nos
basta comprobar en el osciloscopio que la amplitud de la señal verde, la del sonido
que oı́mos, disminuye conforme aumentan los desfases en las sucesivas emisiones.
Como casos especiales podemos observar que cuando los dos sonidos están en fase
—la primera emisión, desfase de 0o —, la amplitud del sonido resultante es la suma
de las amplitudes de cada uno de los componentes (0,20 + 0,22 = 0,42), mientras
que cuando ambas señales están en oposición de fase —la última emisión, desfase
de 180o —, la amplitud de la señal resultante es la diferencia de las amplitudes de
los componentes (0,22 – 0,20 = 0,02).
82
Para ver en detalle lo que sucede, la figura de abajo presenta una instantánea de
la forma de la vibración en cada una de las cinco emisiones, de modo que cada
gráfica corresponde a uno de los desfases que hemos visto en el vı́deo.
Figura 6.2: Formas de la vibración de dos sonidos simples unı́sonos con diferentes
desfases.
Puesto que cada muestra de la señal resultante es, según el Principio de Superposi-
ción Lineal, la suma de las correspondientes muestras de las señales componentes,
vemos que, conforme se van incrementando los desfases, la pérdida de sincronı́a da
lugar a que la amplitud resultante vaya disminuyendo. En la gráfica de la quinta
fila, en la que ambas señales están en oposición de fase, podemos apreciar que los
valores de todas las muestras son prácticamente opuestos, de modo que resulta
fácil deducir que si ambos componentes hubieran tenido la misma amplitud, el
sonido resultante hubiera tenido una amplitud de 0, es decir, hubiera desaparecido
por completo.
Ası́ pues, en este vı́deo hemos podido observar que el resultado de la mezcla de
dos sonidos simples de igual frecuencia siempre es otro sonido simple de la mis-
ma frecuencia y que el cambio en la fase inicial sólo modifica la amplitud del
sonido simple resultante y, por lo tanto, solo repercute en el volumen sonoro que
apreciamos, sin que afecte a la cualidad sonora que percibimos.
83
Los cambios en el volumen sonoro derivados de los desfases entre dos sonidos
unı́sonos explican algunos problemas que pueden surgir al realizar una grabación
en un estudio. En el caso de que la misma fuente sonora sea recogida por dos
micrófonos, pudiera suceder que algunos componentes llegaran a cada micrófono
casi en oposición de fase, lo que podrı́a dar lugar a que, al realizarse la mezcla,
esos componentes quedaran significativamente atenuados. Si esto ocurre se puede
percibir una especie de agujero acústico en el sonido grabado. Para evitar este
problema las mesas de mezclas suelen llevar un dispositivo que permite invertir
la fase de cada señal de entrada. En la audición directa este problema queda
minimizado por el hecho de que disponemos de dos oı́dos y porque los sonidos
habitualmente llegan hasta nosotros con múltiples desfases, debido a que, por
regla general, provienen de diversos lugares, como consecuencia de las reflexiones
en las paredes, techos y suelos.
6.4. Mezcla de dos sonidos simples de frecuencias muy próxi-

mas: Batidos de primer orden
Vamos a estudiar ahora lo que ocurre cuando se mezclan dos sonidos simples cuyas
frecuencias están separadas entre sı́ por una pequeña distancia, menos de 15 Hz
aproximadamente. El fenómeno acústico que se produce se denomina “batidos de
primer orden” y ha sido empleado desde tiempos muy antiguos para la afinación
de los instrumentos musicales y la determinación de las escalas.
6.4.1. Los batidos de primer orden
Para experimentar cómo son los batidos o pulsaciones, he fabricado un vı́deo en el

que se oyen sucesivamente seis sonidos, cada uno de los cuales es el resultado de la
mezcla de dos componentes simples de frecuencias muy próximas. En cada nuevo
sonido las frecuencias de los dos componentes están cada vez más cercanas.
84
Figura 6.3: Vı́deo con diferentes casos de batidos de primer orden.
En el osciloscopio se representan dos señales finas, que pertenecen a cada uno de

los dos componentes que se mezclan y una señal más gruesa, que es la del sonido
resultante de la mezcla y que es el que oı́mos. La señal de color magenta es la del
componente más grave y la de color azul es la del componente más agudo, mientras
que la de color verde pertenece al sonido resultante. Para poder distinguir bien cada
uno de los dos componentes y para que la profundidad del batido no sea excesiva,
he elegido amplitudes diferentes para cada componente: la amplitud del primero
es 0,2 y la del segundo es 0,1.
En cada uno de los seis sonidos que escuchamos, la frecuencia del primer compo-
nente es de 220 Hz (un la3 en la afinación estándar) mientras que la del segundo
va cambiando, de modo que la diferencia entre los dos componentes es cada vez
más pequeña, hasta llegar a coincidir en el último sonido: en el primer sonido la
frecuencia del componente agudo es de 228 Hz, por lo que la diferencia respecto
al componente grave es de 8 Hz; en el segundo, el componente agudo tiene una
frecuencia de 224 Hz, de modo que tiene una diferencia de 4 Hz respecto al grave;
en el tercero, la frecuencia del componente agudo es de 222 Hz, por lo que están
a 2 Hz de distancia del grave; en el cuarto caso la frecuencia del agudo es de 221
Hz, estando sólo a 1 Hz del primer componente; en el quinto sonido la frecuencia
del agudo es de 220,5 Hz, por lo que solo están separados 0,5 Hz; y, finalmente, en
el último caso, los dos componentes tienen la frecuencia de 220 Hz,de modo que
suenan al unı́sono.
A excepción del último sonido, en todos los casos oı́mos una especie de sonido
tremolado, es decir, unos batidos o pulsaciones que se repiten de manera periódica
y que coinciden con la oscilación de la amplitud de la señal verde que vemos en
el osciloscopio. Si prestamos atención al vı́deo comprobamos que el número de
85
batidos por segundo que oı́mos (es decir, la frecuencia de los batidos) coincide
con la diferencia que hay entre la frecuencia de los dos componentes que han
intervenido en la mezcla. En efecto, en el primer caso oı́mos 8 batidos por segundo;
en el segundo 4; en el tercero 2; en el cuarto 1; en el quinto 1 batido cada dos
segundos (es decir, 0,5 cada segundo); y en el último los batidos desaparecen y
los dos componentes se quedan fundidos plenamente en un solo sonido estable y
continuo.
Ahora bien, si detenemos el vı́deo en cualquier momento, con independencia de
que haya o no batidos, observaremos que en todos los casos la vibración sigue
teniendo una forma sinusoidal. Esto explica que en todos esos sonidos, incluso
cuando están formados por dos componentes de diferente frecuencia, oı́mos un
solo sonido simple, con una altura tonal bien definida.
En resumen, cuando se producen los batidos de primer orden la amplitud
del sonido oscila periódicamente, pero su frecuencia permanece estable
durante toda su duración.
Si tenemos un oı́do muy fino podremos apreciar que la altura tonal desciende
ligerı́simamente de un sonido a otro, conforme se van aproximando más las fre-
cuencias de los dos sonidos componentes. La frecuencia del sonido resultante
depende de la frecuencia y la amplitud de los componentes que lo for-
man. Si la amplitud de ambos componentes hubiera sido la misma, la frecuencia
resultante de la mezcla hubiera sido la media aritmética de las frecuencias de los
dos componentes; pero como en todos los casos de este vı́deo el componente más
grave tiene mayor amplitud, la frecuencia resultante se aproxima más a la de este
componente. Por ello la frecuencia de los seis sonidos que oı́mos desciende ligera-
mente de un caso a otro: desde 222 Hz en el primero, hasta 220 Hz en el último
cuando desaparecen los batidos y ambos componentes suenan al unı́sono.
6.4.2. Causas de los batidos de primer orden
Para ver en detalle a qué se debe este fenómeno, vamos a centrar nuestra aten-
ción en las señales del primer caso del vı́deo, cuando las frecuencias de los dos
componentes están a una distancia de 8 Hz. Veamos una gráfica que corresponde
a 2 décimas de segundo de este primer sonido, en concreto, las que están entre
los segundos 1 y 1,2. En esta gráfica las señales están más comprimidas que en la
ventana del osciloscopio, donde se representan sólo 50 milésimas de segundo, con
lo que ahora podremos apreciar la forma de los batidos.
86
Figura 6.4: Detalle de un batido de primer orden.
La gráfica representa algo más de un batido y medio. En ella podemos ver que la
ligera diferencia entre las frecuencias de los dos componentes provoca unos desfases
que van cambiando durante toda la emisión del sonido. Ası́, vemos que la señal azul
y la señal magenta (que, recordemos, corresponden respectivamente al componente
de 220 Hz y al de 228 Hz) pasan alternativamente por momentos en los que están
en fase y por momentos en los que están en oposición de fase. En el primer caso
la señal resultante tiene la máxima amplitud y en el segundo, la mı́nima.
Por ejemplo, podemos observar que en torno a los segundos 1,07 y 1,20 las señales
magenta y azul coinciden en sus fases, con lo que en ese momento, al sumarse la
amplitud de ambos componentes, la señal verde adquiere su máxima amplitud (0,2
+ 0,1 = 0,3). Por el contrario, en torno a los segundos 1,00 y 1,13 ambas señales se
encuentran en oposición de fase, por lo que en ese momento la amplitud resultante
es la diferencia entre la amplitud de ambos componentes, teniendo su valor más
bajo (0,3 – 0,2 = 0,1). La profundidad del batido es la diferencia entre la amplitud
máxima y mı́nima de la señal resultante, por lo que en este caso es de 0,2 (como
en el resto de los sonidos del vı́deo en los que hay batidos).
La variación en los desfases entre los componentes es la causa de que la amplitud
de la señal resultante vaya modificándose a lo largo del tiempo, oscilando también
de una forma sinusoidal. Ese cambio periódico de la amplitud es lo que origina
los batidos que escuchamos. El ritmo de los batidos o pulsaciones es la diferencia
aritmética entre las frecuencias de los componentes.
Para entenderlo mejor podemos imaginarnos la señal de cada componente simple
como si fuera el resultado de un movimiento circular uniforme, similar al del panel
87
de la izquierda del vı́deo de la figura 4.2 del capı́tulo 4. En un segundo el com-
ponente de color magenta dará 220 vueltas, mientras que el componente de color
azul dará 228 vueltas. Por lo tanto, como si se tratara de una carrera de coches, en
un segundo el componente magenta habrá “doblado” 8 veces al componente azul.
Y cada vez que lo “doble” sus fases volverán a sincronizarse, de modo que en la
vuelta de después de la sincronización, en la que ambos componentes irán casi a
la vez, se producirá la máxima amplitud del sonido resultante; por el contrario,
como consecuencia de los desfases, cuando ambos componentes estén en oposición,
el sonido resultante alcanzará su amplitud mı́nima.
En resumen, cuando se mezclan dos sonidos de frecuencias muy próximas,
el resultado es un solo sonido simple, cuya frecuencia se encuentra entre
la de los dos componentes y cuya amplitud oscila de forma sinusoidal
tantas veces por segundo como la diferencia que hay entre la frecuencia
de los dos componentes, dando lugar a los batidos de primer orden.
Hay que tener en cuenta que para que se perciban los batidos la diferencia entre las
frecuencias de los componentes debe ser inferior a 15 Hz, aproximadamente, pues
nuestro sistema perceptivo no tiene capacidad para distinguir con nitidez cambios
más rápidos en la variación de los parámetros sonoros.
6.4.3. Batidos y afinación
Cualquier músico que tiene que afinar su instrumento está habituado a “poner
el oı́do”, es decir, a prestar atención y escuchar las pequeñas oscilaciones en el
volumen sonoro que se producen cuando las frecuencias de dos sonidos distintos
que se emiten simultáneamente están muy próximas, pero no son idénticas. En
efecto, como el fenómeno de los batidos se produce de manera natural siempre
que se mezclan sonidos de frecuencias muy próximas, su observación ha sido el
método habitualmente utilizado para afinar los instrumentos musicales: si se conoce
la frecuencia de un sonido que se utiliza de referencia, este método permite la
determinación precisa de la frecuencia de otro.
El vı́deo de la figura 6.3 nos sirve para entender cómo se utilizan los batidos para
la afinación. Por ejemplo, para afinar la cuerda de una guitarra, tomando como
referencia la nota ya afinada de una cuerda inferior, empezaremos tensándola de
manera aproximada para acercarla al sonido de referencia y, una vez en ese rango,
iremos ajustando su tensión hasta que los batidos desaparezcan por completo.
En el vı́deo vemos que, conforme las frecuencias de los componentes están más
próximas, el ritmo de los batidos va disminuyendo, hasta desaparecer cuando los
sonidos están completamente afinados.
88
Incluso cuando no se busca una coincidencia exacta, el número de batidos que
se produce cada cierto tiempo proporciona al músico una medida precisa de la
diferencia entre las frecuencias de los dos sonidos. El número de batidos que se
produce por segundo (es decir, la frecuencia de los batidos) es un medio para
determinar con precisión el grado de desafinación.
Este procedimiento no sólo es válido para afinar notas unı́sonas, sino también para
determinar la afinación de las principales consonancias musicales y, a partir de ahı́,
la escala entera. Aunque en este capı́tulo estamos estudiando el modelo de dos so-
nidos simples cuyas frecuencias se superponen en un momento dado, tenemos que
tener presente que la mayorı́a de los sonidos que emiten los instrumentos musica-
les no son simples, sino que están formados por muchos componentes armónicos,
como se estudia en el capı́tulo 7. Por ello, en la afinación natural la frecuencia de
algún importante componente armónico de una nota coincidirá exactamente con
la frecuencia de otro armónico de la otra nota. En la afinación temperada, donde
ya no se produce esa coincidencia exacta, el número de batidos permite bajar con
precisión las quintas, exactamente en la pequeña cantidad requerida. Éste es el
método habitualmente utilizado por los afinadores de pianos.
6.5. Mezclas de dos sonidos simples en función de la distan-

cia entre sus frecuencias y de la anchura de su banda
crı́tica
Debido a las caracterı́sticas de nuestro sistema auditivo, cuando se mezclan dos
sonidos simples de diferente frecuencia es necesario que entre ellos exista suficiente
distancia frecuencial para que podamos percibirlos individualmente. Esta separa-
ción mı́nima, a la que llamamos “anchura de la banda crı́tica”, no es igual en todas
las regiones frecuenciales, pues la capacidad de resolución de nuestra percepción
auditiva depende de la zona frecuencial en la que están situados los sonidos que se
mezclan.
En efecto, según la separación entre las frecuencias de dos sonidos simples emitidos
simultáneamente, se pueden producir cuatro situaciones diferentes:
a) Cuando la diferencia es menor de unos 15 Hz oı́mos un solo sonido tremo-

lado, los batidos de primer orden que acabamos de ver.
b) A partir de 15 Hz, aproximadamente, de distancia entre ellos, dejamos de
oı́r un solo sonido tremolado y empezamos a escuchar una especie de zumbi-
89
do áspero, sin que todavı́a seamos capaces de distinguir dos alturas tonales
diferenciadas.
c) Cuando la separación está cerca de la anchura de la banda crı́tica corres-
pondiente a la zona frecuencial en la que se hallan los dos componentes que
se mezclan, comenzamos a distinguir ya dos sonidos, pero la cualidad sonora
de la mezcla sigue siendo áspera y rugosa.
d) Conforme aumenta la distancia entre las frecuencias de los dos componen-
tes, la cualidad sonora se va haciendo cada vez menos rugosa, hasta que, una
vez superada holgadamente la anchura de su banda crı́tica, llega un momento
en el que percibimos con nitidez los dos sonidos.
Para experimentar esto, he fabricado, a partir de fotogramas construidos mediante
Matlab, un vı́deo con cuatro sonidos en los que se mezclan dos componentes simples
de la misma amplitud. Las frecuencias de los dos componentes se van distancian-
do progresivamente: en todos los casos la frecuencia del componente grave es 220
Hz, un la3 temperado; en el primer sonido, la frecuencia del componente agudo es
233,1 Hz, que corresponde al sib3 de la escala temperada habitual, de modo que
la distancia frecuencial respecto al componente grave es de 13,1 Hz; en el segundo
sonido, la frecuencia del componente agudo es 246,9 Hz, el si3 de la escala tempe-
rada, con lo que la distancia respecto al grave es de 26,9 Hz; en el tercer sonido,
la frecuencia del componente agudo es 261,6 Hz, el do4 de la escala temperada,
con lo que la distancia respecto al grave es de 41,6 Hz; y en el cuarto sonido la
frecuencia del componente agudo es 311,1 Hz, el mib4 de la escala temperada, de
modo que la diferencia con el componente grave es de 91,1 Hz.
Figura 6.5: Vı́deo que muestra la importancia de la banda crı́tica en la percepción

individual de dos sonidos próximos.
90
En el primer sonido, donde los componentes están separados 13,1 Hz, oı́mos una
nota simple tremolada, con unos batidos muy rápidos y muy profundos, similares
a los que hemos oı́do en los primeros casos del vı́deo de la figura 6.3. En efecto,
como la distancia frecuencial es menor de 15 Hz, estamos ante un caso de una
mezcla en la que se percibe un solo sonido, pero en la que se producen batidos de
primer orden, como hemos visto en el apartado anterior. Lo he incluido aquı́ para
que podamos comparar su sonido con el de los siguientes casos. La altura tonal
que percibimos corresponde a una nota situada entre el la3 y el sib3 , pues, al ser
igual la amplitud de ambos componentes, la frecuencia del sonido resultante es la
media aritmética entre ellos, es decir, 226,6 Hz.
En el segundo sonido, cuando la distancia entre las frecuencias de los dos compo-
nentes es de 26,9 Hz, no oı́mos ya ninguna nota musical, ni una sola nota tremolada,
ni tampoco las dos notas por separado, sino un sonido áspero y rugoso, como un
zumbido. Ello se debe a que, cuando la diferencia aritmética entre las frecuencias
de los dos componentes supera los 15 Hz aproximadamente, la frecuencia de los
batidos es tan rápida que nuestro sistema auditivo es incapaz de seguirlos. Por
eso ya no podemos distinguir un solo sonido simple tremolado, sino que oı́mos un
sonido sucio y rugoso, un zumbido borroso en el que no oı́mos en absoluto los
componentes individuales de la mezcla.
En el tercer sonido, en el que la distancia entre las frecuencias es de 41,6 Hz,
podemos apreciar ya las dos notas por separado, el la3 y el do4 , aunque la cualidad
de la mezcla que oı́mos sea sucia y borrosa.
En el cuarto sonido, sin embargo, cuando la distancia entre las frecuencias es de
91,1 Hz, distinguimos con nitidez dos notas individuales, el la3 y el mib4 , y el
carácter rugoso de la mezcla anterior ha desaparecido, siendo sustituido por una
sonoridad mucho más clara y eufónica.
Estos fenómenos son de orden psicoacústico, es decir, se deben a las peculiaridades
de nuestro sistema auditivo, en concreto, a la fisiologı́a de nuestro oı́do interno.
Como consecuencia de ello, para poder distinguir dos sonidos simples simultáneos
es necesario que la separación entre ellos supere una distancia mı́nima. La an-
chura de la banda crı́tica varı́a en función de la zona frecuencial de los
sonidos que se superponen, incrementándose conforme los sonidos son
más agudos. En los casos del vı́deo la anchura de la banda crı́tica está en torno
a los 40 Hz. Ello explica que no hayamos sido capaces de distinguir en el vı́deo
los componentes simples cuando la distancia entre sus frecuencias era inferior a
esta cantidad y, sin embargo, en el último caso, cuando la separación excede en
mucho a la anchura de la banda crı́tica de esta región frecuencial los oı́mos con
claridad.
91
Es oportuno aclarar que, si en lugar de sonidos simples, se hubieran superpuesto
notas normales —es decir, compuestas por varios armónicos—, hubiéramos podido
distinguirlas con facilidad, pues la distancia entre sus armónicos superiores hubiera
excedido la anchura de su banda crı́tica correspondiente.
6.6. Mezcla de dos sonidos simples cuyas frecuencias están

en relación de conmensurabilidad próxima: Consonan-
cias
Cuando las distancias entre las frecuencias de dos sonidos simples que se super-
ponen sobrepasan holgadamente la anchura de la banda crı́tica, de modo que ya
no percibimos zumbidos o rugosidades, hay ocasiones en las que se produce una
mezcla tan bien amalgamada que los dos sonidos casi parecen fundirse en uno.
Esta mezcla recibe el nombre de consonancia.
Antes de continuar, conviene hacer una aclaración. El concepto de consonancia
que vamos a estudiar en estos capı́tulos no hace referencia al carácter más o me-
nos eufónico que resulta de la mezcla de los sonidos, sino al especial acoplamiento
fı́sico entre las vibraciones sonoras que se produce cuando sus frecuencias son cer-
canamente conmensurables. Por ejemplo, el acorde de séptima disminuida puede
perfectamente ser considerado hoy en dı́a eufónico, pero nunca será una combina-
ción consonante.
Si bien las consonancias entre los sonidos reales de la música, cada uno de ellos
formado habitualmente por muchos componentes armónicos, se estudiarán más
adelante (en el capı́tulo dedicado al modo en el que reconocemos el sonido musi-
cal), primero es conveniente entender en qué consiste la consonancia entre sonidos
simples. Ası́ pues, a continuación vamos comprobar, mediante nuestra experiencia
auditiva directa, que cuando se superponen dos sonidos simples cuyas fre-
cuencias mantienen entre sı́ una relación de conmensurabilidad próxima
se produce una consonancia.
6.6.1. Conmensurabilidad próxima
Empecemos puntualizando qué es la conmensurabilidad próxima. Dos cantidades

son conmensurables cuando tienen una medida común, es decir, cuando la relación
entre ellas puede ser expresada mediante un número racional o, lo que es lo mismo,
mediante el cociente de dos números enteros. Por ejemplo, 11/7 ó 23/12.
92
Ahora bien, en fı́sica, astronomı́a, otras ciencias en general y en la música en
particular, hay circunstancias en las que es relevante que esa razón sea sencilla.
Podemos considerar que una razón es sencilla cuando, expresada como fracción
irreducible, sus términos están comprendidos entre los primeros números enteros
positivos. Diremos en ese caso que su conmensurabilidad es próxima. Ası́ pues,
dos números están en razón de conmensurabilidad próxima cuando los
términos de la fracción irreductible que los relaciona son alguno de los
primeros números enteros positivos. Conforme menores sean los términos de
la fracción irreducible, más sencilla será la razón y más próxima la conmensurabi-
lidad. En este sentido, 2/1 es una razón más sencilla que 3/2, y ésta más sencilla
que 4/3.
En lo que concierne a la música, esta sencillez tiene que ver con los lı́mites de
nuestro sistema auditivo. La proximidad de los términos de la razón entre las
frecuencias de dos sonidos simples va a permitir que nuestro oı́do perciba su su-
perposición como una buena mezcla y los reconozca como consonantes: cuando
las dos frecuencias que se superponen son cercanamente conmensura-
bles, las vibraciones de los sonidos coinciden de modo periódico cada
pocos ciclos, lo que hace que el patrón de repetición de las coincidencias
sea lo suficientemente sencillo como para que nuestro sistema percepti-
vo sea capaz de seguirlo. De ese modo podemos oı́r la mezcla como un sonido
perfectamente amalgamado.
Cuando las frecuencias de los dos sonidos componentes están en una relación doble,
2/1, sucede que mientras una vibración completa un ciclo entero, la otra comple-
ta exactamente dos; cuando están en una relación sesquiáltera, 3/2, ocurre que
mientras una vibración realiza dos ciclos, la otra hace exactamente tres. Por eso
conforme más próxima es la conmensurabilidad, más unitaria resulta la mezcla de
las vibraciones de los dos sonidos simples, hasta el punto de que en la octava, 2/1,
la más perfecta de las consonancias, prácticamente oı́mos un solo sonido.
Ası́ pues, la consonancia, más que un hecho fı́sico externo, viene dada
por la capacidad de nuestro oı́do para reconocer un sonido unitario
cuando se combinan dos vibraciones cuya periodicidad coincide cada
pocos ciclos. Por eso, conforme la conmensurabilidad se aleja, percibimos un
sonido cada vez más complejo: cada vez oı́mos menos el resultado de la mezcla y
los componentes individuales van adquiriendo más presencia.
La cuestión serı́a precisar hasta dónde podemos considerar que una razón expresa
una conmensurabilidad próxima. La teorı́a musical creada por los antiguos, que
realizaba los cálculos atendiendo a la longitud de la cuerda y no al valor de la
frecuencia, consideraba que sólo los intervalos formados por razones cuyos términos
93
estaban comprendidos entre los cuatro primeros números enteros eran consonantes.
De acuerdo a este criterio, dentro del rango de la octava, serı́an consonantes las
mezclas de sonidos que están en razón doble (2/1), es decir, que están a distancia
interválica de una octava; en razón sesquiáltera (3/2), los que están a distancia de
un intervalo de quinta; o en razón sesquitercia (4/3), en un intervalo de cuarta.
No en vano estos intervalos son los que han estructurado las escalas musicales de
Occidente.
Desde el punto de vista de nuestra percepción musical, la relación 5/4 podrı́a
incluirse también entre las razones simples, pero lo cierto es que el intervalo de
tercera mayor (al que, en principio, corresponderı́a en nuestras escalas) queda ya
bastante alejado de esta razón: el intervalo de 5/4 está 14 cents por debajo de la
tercera mayor temperada y 22 cents por debajo del dı́tono que surge en la afinación
por quintas justas de 3/2.
6.6.2. Consonancias entre sonidos simples
Una vez entendido qué es la conmensurabilidad próxima en acústica y por qué da

lugar a las mezclas consonantes, vamos ahora a experimentar cómo son las señales
de audio de las mezclas de dos sonidos simples cuyas frecuencias, expresadas como
fracción irreducible, son uno de los cuatro primeros números enteros positivos.
Siguiendo el procedimiento habitual, he fabricado varios vı́deos mediante los cuales
podremos comprobar que en esos casos nuestro oı́do reconoce con claridad la buena
mezcla, lo que llamamos la consonancia.
En el vı́deo de la figura 6.6 podemos escuchar las consonancias que se pueden
establecer entre los cuatro primeros números enteros positivos: la consonancia de
octava, la de doble octava, la de octava y quinta, la de quinta y la de cuarta.
En todos los ejemplos del vı́deo la frecuencia del componente grave es 220 Hz
(la3 ). En el primer caso la frecuencia del componente agudo es 440 Hz (la4 ), por
lo que ambos sonidos mantienen la razón 2/1, que es la que define el intervalo de
octava. En el segundo, el componente agudo tiene una frecuencia de 660 Hz (mi5
natural), por lo que los dos componentes están entre sı́ en razón 3/1, la que define
el intervalo de octava y quinta natural. En el tercero, el sonido agudo es de 880
Hz (la5 ) y la razón respecto al componente grave es 4/1, por lo que entre ambos
forman un intervalo de doble octava. En el cuarto, el componente agudo es de 330
Hz (mi4 natural) y forma respecto al grave una razón de 3/2, que corresponde al
intervalo de quinta natural. En el quinto caso, la frecuencia del sonido agudo es
293,3 Hz (re4 natural) y su razón respecto al grave es 4/3, con el que forman un
intervalo de cuarta natural. Para que se distingan mejor los dos componentes, la
94
amplitud de cada uno de ellos es diferente: la del componente grave es 0,2 y la del
agudo 0,1.
Figura 6.6: Vı́deo con las consonancias definidas por los cuatro primeros números
enteros.
Si ponemos un poco de atención, en todos estos ejemplos, además del sonido re-
sultante de la mezcla, también podemos oı́r cada uno de los dos componentes
por separado. Solamente en el primer caso, cuando las frecuencias están en razón
2/1, predomina la tendencia a percibir un solo sonido, en lugar de dos sonidos
simultáneos distintos que se mezclan bien. Pero incluso ahı́, si orientamos un po-
co nuestra escucha para hacerla más analı́tica, podemos apreciar las dos notas
individuales.
Para entender por qué percibimos en todos los casos la superposición de los dos
sonidos componentes como una mezcla consonante, vamos a fijarnos en la forma
de la vibración de cada uno de los ejemplos que vemos en el osciloscopio del vı́deo.
Para poder comparar unas formas con otras, la figura 6.7 representa un fragmento
de la señal de audio de cada uno de los ejemplos del vı́deo.
95
Figura 6.7: Formas de la vibración de las consonancias entre los cuatro primeros núme-
ros enteros.
En los tres primeros casos podemos observar que cada vez que el componente grave,
el de color magenta (el sonido de 220 Hz, que es común a todos ellos) realiza un
ciclo completo, el componente agudo, el de color azul, completa exactamente un
número entero de ciclos: dos ciclos en el caso de la octava (de ahı́ la razón 2/1);
tres en el caso de la octava y quinta natural (de ahı́ la razón 3/1); y cuatro en el
caso de la doble octava (de ahı́ la razón 4/1). Ello hace que en todos estos casos el
sonido resultante de la mezcla tenga el mismo periodo que el del componente más
grave, como podemos comprobar en las gráficas.
En la cuarta gráfica, en el caso de la quinta natural, vemos que cada dos ciclos
del componente grave, el componente agudo completa exactamente tres (de ahı́
la razón 3/2). Por ello, el periodo del sonido resultante es el doble que el del
componente más grave o, lo que es lo mismo, el triple del periodo del componente
más agudo.
En la última gráfica, en el caso de la cuarta natural, observamos que cada tres
ciclos del componente grave, el componente agudo completa exactamente cuatro
(de ahı́ la razón 4/3). De esta forma, el periodo del sonido resultante es el triple
del periodo del componente más grave y el cuádruple del más agudo.
Ası́ pues, en este vı́deo y en las gráficas correspondientes, hemos podemos observar
que la conmensurabilidad es la causa de la aparición de una periodicidad
en la mezcla resultante.
96
Podrı́a parecer que esta periodicidad deberı́a haber dado lugar a la percepción de la
altura tonal correspondiente a la mezcla. Si esto hubiera sido ası́, en el cuarto caso,
por ejemplo, deberı́amos haber oı́do la nota la2 , que corresponderı́a al periodo de
la mezcla resultante, en lugar de las notas individuales la3 y mi4 bien amalgamadas
y formando la consonancia de quinta. Sin embargo, esto no ocurre ası́, salvo que
el equipo de música en el que estemos oyendo los ejemplos distorsione y provoque
la aparición de componentes espurios, como veremos un poco más adelante. La
explicación de ello reside en que nuestra percepción es frecuencial, de modo que,
como estudiaremos en el capı́tulo correspondiente, oı́mos dos notas y no una sola
nota más grave correspondiente a la señal resultante.
6.6.3. De la consonancia a la disonancia
Pero, debido a los márgenes de nuestra percepción, las fronteras entre lo que nos
suena consonante y lo que nos parece disonante son algo difusas.
Para observar donde acaba la consonancia y donde empieza la disonancia, he fa-
bricado un vı́deo con varios casos en los que se mezclan dos sonidos simples cuya
distancia interválica está en torno a la quinta: la quinta natural o quinta justa (la
que propiamente está en razón 3/2), la quinta temperada, la quinta disminuida y
una quinta desafinada. He elegido el ámbito interválico de la quinta por dos razo-
nes: primero porque la quinta justa es la consonancia en la que se pueden distinguir
con más facilidad los dos componentes; y, segundo, porque en nuestro sistema mu-
sical también se encuentran la quinta temperada y la quinta disminuida, por lo
que estamos familiarizados con ellas y podemos compararlas. He añadido la quinta
desafinada para permitir apreciar la diferencia.
En todos los ejemplos la frecuencia de la nota grave es 220 Hz (la3 ). En el primer
caso la frecuencia de la nota aguda es 330 Hz (mi4 natural), por lo que están
exactamente en razón 3/2 y forman el intervalo de quinta natural o justa. En el
segundo caso la frecuencia de la nota aguda es de 329,6 (mi4 temperado) por lo que
forman un intervalo de quinta temperada (700 cent) con la nota grave (la quinta
temperada está solamente 2 cent por debajo de la quinta justa). En el tercer caso
la frecuencia de la nota aguda es 325,8 Hz (mi4 desafinado) y forman un intervalo
de quinta que está 20 cent por debajo del que formarı́a con el mi4 temperado. Y
en el cuarto caso la frecuencia de la nota aguda es 311,1 Hz (mib4 ) y forma un
intervalo de quinta disminuida (600 cent) con la nota grave. Para permitir que se
distingan la amplitud del componente grave es 0,2 y la del agudo 0,1.
97
Figura 6.8: Vı́deo que ilustra el paso de la consonancia a la disonancia.
En todos los casos oı́mos los dos sonidos de forma independiente, pues la distancia
entre ellos excede con mucho la anchura de la banda crı́tica de esa zona frecuen-
cial, que está en torno a los 55 Hz, lo cual, como hemos visto en los apartados
anteriores, es una condición necesaria para que podamos reconocer con claridad
ambos sonidos. Analicemos con un poco de detenimiento lo que ocurre en cada
caso.
a) En el primer caso, cuando las frecuencias de los componentes están exac-
tamente en razón 3/2 y forman la consonancia de quinta natural, oı́mos una
mezcla muy bien amalgamada y observamos en el osciloscopio que la forma
de la vibración resultante permanece totalmente estable. En efecto, el máxi-
mo común divisor de las frecuencias de los dos componentes (220 y 330) es
110. Esto quiere decir que la forma de la vibración de la mezcla resultante se
repite 110 veces por segundo y que, por lo tanto, su periodo es 1/110 s, o sea,
redondeando, 9 milésimas de segundo. Ası́ pues, cada 9 ms aproximadamente
ambos componentes se sincronizan: el sonido grave completa 2 ciclos mientras
que el sonido agudo completa 3, como podemos comprobar en el osciloscopio
si detenemos el vı́deo. Este periodo de 9 ms está dentro del rango temporal
en el que nuestro sistema auditivo es capaz de detectar periodicidades en la
forma de la vibración. Por eso, aunque seguimos oyendo los dos componentes
por separado, percibimos que se combinan muy bien, por lo que obtenemos
una clara sensación de buena mezcla, una mezcla sin perturbaciones que no
varı́a a lo largo del tiempo.
b) En el segundo caso, en el que se mezclan dos sonidos que están en intervalo
de quinta temperada, la razón entre sus frecuencias, redondeadas a décimas
de hercio, es 3296/2200. Esta razón expresada como fracción irreducible es
98
412/275, la cual no es para nada una razón sencilla, por lo que las frecuencias
de los componentes están muy lejos de mantener una relación de conmensura-
bilidad próxima. Sin embargo, la diferencia entre la frecuencia del componente
agudo (329,6 Hz) y la del componente agudo del caso de la consonancia de
quinta natural (330 Hz) es solamente de cuatro décimas de hercio. En efecto,
bastarı́a con subir 0,4 Hz la frecuencia de la nota aguda para obtener la razón
simple 3/2. Por ello también ahora oı́mos un intervalo de quinta cuyas notas
se mezclan bien, lo que coincide con la cuasi-periodicidad que observamos en
la señal verde del vı́deo. Ahora bien, la mezcla que oı́mos ya no es totalmente
estable como en el caso anterior, sino que, si prestamos atención, podremos
oı́r que va acompañada de una lenta y periódica evolución de la cualidad so-
nora, lo cual también se refleja en la cı́clica evolución de la forma de la señal
resultante que observamos en el osciloscopio, una forma que parece estirarse
y encogerse como si se tratara de una goma elástica. En el siguiente apartado,
en el que se estudian los batidos de segundo orden, se explica a qué se debe
este fenómeno.
c) En el tercer caso, en la superposición de dos sonidos que forman un interva-
lo de quinta desafinada (20 cent menos que la quinta temperada), vemos que
la razón entre sus frecuencias es 3258:2200, que expresada como fracción irre-
ducible es 1629:1100, la cual está muy alejada de ser una razón simple y, por
lo tanto, de mantener una conmensurabilidad próxima. El sonido agudo, el de
325,8 Hz, es 4,2 Hz más grave que el sonido agudo de la mezcla consonante
justa, que tiene 330 Hz. Es decir, le faltan 4,2 Hz para mantener, respecto
al sonido grave, la razón simple más cercana, en este caso la razón 3:2. Y
esta diferencia es ya significativa. Por ello ahora percibimos que esta mezcla
nos produce una sensación de inestabilidad. El ritmo de las modificaciones de
la cualidad sonora es ya tan rápido que dificulta la buena amalgama de los
dos componentes y percibimos ahora claramente los batidos de segundo or-
den. Podemos apreciar también esa inestabilidad en el osciloscopio del vı́deo,
donde la señal resultante modifica constantemente su forma.
d) En el cuarto caso, en el que se superponen dos sonidos que están en un
intervalo de quinta disminuida, oı́mos una disonancia. Percibimos con claridad
cada uno de los sonidos componentes, pero ahora ya no tenemos la sensación
de que se amalgamen el uno con el otro. Ası́ mismo vemos en el osciloscopio
que la forma de la vibración cambia constantemente. Si atendemos a sus fre-
cuencias (220 Hz y 311,1 Hz), vemos que la razón entre ellas es 3111:2200,
que es ya una fracción irreducible, por lo que su conmensurabilidad es muy
alejada: el sonido grave tendrı́a que completar 2200 ciclos y el agudo 3111
para que sus fases volvieran a sincronizarse y se repitiera de nuevo la forma
99
de la vibración. El periodo de la señal resultante serı́a, por lo tanto, de 10
segundos, lo que, a efectos de nuestra percepción, es equivalente a decir que
no hay ningún periodo. Con la finalidad de expresar este intervalo como una
razón más simple, podrı́amos bajar la afinación del sonido agudo 1,1 Hz y
atribuirle una frecuencia de 310 Hz. En ese caso la razón simple entre las
frecuencias expresada como fracción irreducible serı́a 31:22, por lo que cada
22 ciclos del sonido grave, el sonido agudo completarı́a 31. Pero, incluso en
este caso, la conmensurabilidad seguirı́a siendo muy alejada —el periodo de la
señal resultante serı́a ahora un segundo— por lo que percibirı́amos esa mezcla
también como una disonancia.
En resumen, en el intervalo de quinta natural oı́mos una mezcla perfecta y to-

talmente estable; en el de quinta temperada el ritmo con el que se producen las
alteraciones de la cualidad sonora es tan lento que no apreciamos ninguna inesta-
bilidad, por lo que la sensación de mezcla es casi perfecta, e incluso notamos que
esa pequeña inexactitud dulcifica y da calor al sonido resultante; en el intervalo de
quinta desafinada la mezcla está perturbada por un cierta inestabilidad provocada
por unas rápidas y periódicas alteraciones de la cualidad sonora; y en el intervalo
de quinta disminuida no tenemos para nada la sensación de que los componentes
se hayan mezclado entre sı́.
Mediante este vı́deo hemos podido experimentar que, si bien solo percibimos exac-
tamente como una buena mezcla la superposición de dos sonidos simples cuyas
frecuencias están en conmensurabilidad próxima, nuestra percepción auditiva per-
mite ciertos márgenes de tolerancia dentro de los cuales se encuentran los ajustes
propios de las escalas temperadas. Hemos comprobado que, más allá de esos márge-
nes, cuando no se produce una razón matemática simple entre las frecuencias de
los componentes, los periodos de ambas vibraciones solo se sincronizan tras un
periodo de tiempo demasiado largo como para que nuestro oı́do sea capaz de re-
conocerlo, por lo que no oı́mos una buena mezcla, sino dos sonidos independientes
que van cada uno por su lado y su combinación nos resulta disonante.
Ası́ pues, hemos podido experimentar que la consonancia entre sonidos sim-
ples se debe al reconocimiento de una periodicidad en la vibración resul-
tante. Esta periodicidad no da lugar a la desaparición de los sonidos individuales
en la mezcla resultante, pues nuestra audición es principalmente frecuencial, pero
en el caso de los sonidos simples es la única razón que explica que percibamos la
especial buena mezcla a la que llamamos consonancia.
100
6.6.4. Grados de consonancia según la conmensurabilidad
Nuestra percepción auditiva no es igual para todas las consonancias, sino que el
grado de perfección de la consonancia disminuye conforme la conmensurabilidad
entre las frecuencias de los dos sonidos simples que se mezclan se hace más lejana.
Para experimentar este fenómeno he confeccionado un vı́deo con cinco ejemplos
en los que se mezclan dos componentes simples, dentro del rango de una octava.
En todos los casos sus frecuencias están en una razón simple próxima y, por lo
tanto, forman una consonancia, pero su conmensurabilidad se va alejando, desde
el unı́sono (1/1) hasta la consonancia de tercera mayor natural (5/4).
En todos los ejemplos la frecuencia del componente grave es 440 Hz, un la4 en
la afinación habitual. La frecuencia del componente agudo va cambiando: en el
primer caso es también 440 Hz, por lo que ambas notas forman un unı́sono (1/1);
en el segundo, es 880 Hz, un la5 , por lo que forman una octava (2/1); en el tercero
es 660 Hz, un mi5 , formando un intervalo de quinta natural (3/2); en el cuarto
caso, redondeando a décimas de hercio, es 586,7 Hz, un re5 , por lo que forman
un intervalo de cuarta natural (4:3); y en el quinto caso la frecuencia aguda es
550 Hz, un do#5 , formando una tercera mayor natural (5:4). En este vı́deo he
elegido como nota grave la4 , una nota que está en una octava más aguda que la
de los vı́deos anteriores, para evitar que en la consonancia de tercera mayor las
frecuencias de los dos sonidos se aproximaran a la anchura de la banda crı́tica y se
generara alguna rugosidad en la mezcla resultante. Como referencia para nuestro
oı́do, a fin de facilitar la escucha individualizada de los componentes del intervalo
de octava, he incluido también el unı́sono.
Figura 6.9: Vı́deo con las consonancias de unı́sono, octava, quinta, cuarta y tercera
mayor.
101
En el osciloscopio del vı́deo podemos apreciar que la forma de la vibración per-
manece totalmente estable en todos los casos y que en cada uno de ellos oı́mos
con claridad una mezcla consonante. En efecto, al mantener las frecuencias de los
dos sonidos una relación de conmensurabilidad próxima, el periodo de la señal re-
sultante está dentro de los márgenes en los que nuestro sistema auditivo es capaz
de detectar la sincronización de ambas vibraciones, de modo que percibimos una
buena mezcla.
Pero si escuchamos con un poco de atención nos damos cuenta de que no todas
las mezclas son igualmente armoniosas, sino que, a medida que avanza el vı́deo y
la conmensurabilidad entre las frecuencias se va alejando, se produce una pérdida
progresiva de la sensación de “buena mezcla”. Conforme la conmensurabili-
dad de las frecuencias es más alejada, el periodo de su sincronización
es mayor y la forma de la vibración resultante adquiere mayor comple-
jidad, por lo que cada vez se hace más difı́cil percibir las coincidencias
periódicas entre los dos sonidos. Ello da lugar a la progresiva disminución
de la sensación de buena mezcla: desde la octava, en la que la amalgama de los
dos componentes es tan fuerte que se hace difı́cil su escucha individualizada, has-
ta la tercera mayor natural, donde la sensación de buena mezcla es ya bastante
débil.
6.6.5. La fase inicial en la mezcla consonante
Veamos ahora cómo afecta la fase inicial a las consonancias. En el caso de la

mezcla unı́sona hemos visto que la diferencia de fase entre los componentes modifica
notablemente la amplitud del sonido resultante y, en consecuencia, el volumen
sonoro que percibimos. Pero, a diferencia del unı́sono, los desfases entre dos
componentes consonantes, si bien modifican la forma de la vibración
resultante, no alteran el volumen sonoro que oı́mos, ni ninguna otra
cualidad sonora, al menos de un modo claramente perceptible.
Para observar que la forma de la vibración viene determinada por la fase inicial de
los sonidos componentes y experimentar que nuestro oı́do no aprecia diferencias
significativas, he confeccionado un vı́deo con seis ejemplos en los que se mezclan dos
sonidos simples, todos ellos en consonancia de octava, pero con diferentes desfases
entre sus componentes.
En todos los casos las frecuencias de los sonidos son las mismas: 220 Hz (la3 ) y
440 Hz (la4 ). La fase inicial del componente grave es siempre 0o , pero el sonido
agudo se va adelantando sucesivamente 60o respecto al caso anterior: en el primero
es también de 0o ; en el segundo es 60o ; en el tercero, 120o ; en el cuarto, 180o ; en
102
el quinto, 240o ; y en el sexto, 300o . La amplitud del componente agudo es 0,3 y la
del grave 0,1.
Figura 6.10: Vı́deo de dos sonidos en consonancia de octava con diferentes desfases.
Podemos ver en el osciloscopio que la forma de la vibración es diferente en cada

caso. Pero, ¿hasta qué punto las diferencias en la forma de la vibración que aparecen
en el osciloscopio pueden ser percibidas por nuestro oı́do? Comprobamos que no es
sencillo reconocer diferencias. Si prestamos mucha atención y oı́mos repetidas veces
los diferentes ejemplos, puede que apreciemos alguna sutil diferencia entre ellos,
pero se trata de algo que es prácticamente irrelevante. Como mucho, podemos
reconocer un pequeño cambio de volumen o una ligerı́sima modificación en la
cualidad sonora.
Lo mismo hubiera sucedido si hubiéramos elegido cualquier otra consonancia. La
conclusión, ası́ pues, es que las diferencias de fase entre los sonidos componentes de
una mezcla consonante no son reconocidas por nuestra percepción auditiva.
6.7. Mezcla de dos sonidos simples cuyas frecuencias se alejan

un poco de la conmensurabilidad próxima: Batidos de
segundo orden
Cuando las frecuencias de dos sonidos simples que se superponen se alejan lige-
ramente de las que deberı́an tener para estar en una razón de conmensurabilidad
103
próxima y ser, por lo tanto, consonantes se produce una modificación periódica
de la forma de la vibración resultante, la cual es percibida por nuestro oı́do como
una oscilación regular de la cualidad sonora. Este fenómeno recibe el nombre de
“batidos de segundo orden”. Estos fenómenos recuerdan mucho a las interferencias
que se producen entre sonidos muy próximos al unı́sono (es decir, los batidos de
primer orden), pero sus causas y sus efectos no son exactamente los mismos.
He fabricado un vı́deo que nos va a permitir experimentar cómo se producen los
batidos de segundo orden cuando se mezclan dos sonidos cuyas frecuencias están
muy próximas a la consonancia de octava. En todos los casos la frecuencia del
componente más grave es de 220 Hz (la3 ). En el primer caso la frecuencia del
componente agudo es de 446 Hz, con lo que la diferencia respecto a la frecuencia
que deberı́a tener para estar en razón doble (440 Hz) es de 6 Hz; en el segundo caso
la frecuencia del componente agudo es de 444 Hz, es decir, tiene una diferencia
respecto a la consonancia de octava de 4 Hz; en el tercer caso la frecuencia aguda es
de 442 Hz con lo que su diferencia es de 2 Hz; y en el cuarto caso la frecuencia del
sonido agudo es de 440 Hz, con lo que la razón que mantiene con el sonido grave es
exactamente la de octava. Para que se distingan bien los dos componentes y para
que se aprecie mejor el fenómeno de los batidos de segundo orden, la amplitud de
cada componente es diferente: la del primero es 0,3 y la del segundo 0,1.
Figura 6.11: Vı́deo con los batidos de segundo orden de dos sonidos cuyas frecuencias
están muy próximas a la octava.
En los tres primeros sonidos podemos observar que la forma de la vibración resul-
tante cambia periódicamente, como si se tratara de una goma elástica, mientras
que su amplitud, al margen de los cambios de posición que acompañan la evolución
104
de la forma, permanece prácticamente constante. En el último caso, por el contra-
rio, cuando son perfectamente consonantes, la señal permanece totalmente estable.
En todos ellos, el ritmo con el que la forma de la vibración evoluciona coincide
con la variación periódica en la cualidad del sonido que oı́mos. Estas variaciones
periódicas dan lugar a los batidos de segundo orden. Los batidos de segundo orden
se repiten tantas veces por segundo como la diferencia que hay entre la frecuencia
que tiene el sonido agudo y la que deberı́a tener para mantener la razón exacta de
octava (440 Hz): en el primer caso, 6 veces por segundo; en el segundo caso, 4 veces
por segundo; y en el tercero, 2 veces por segundo. En el último caso, al mantener
la frecuencia de los dos sonidos la razón 2:1 exacta, desaparecen los batidos y los
dos sonidos se funden perfectamente.
Veamos la explicación de este fenómeno. En el vı́deo de la figura 6.10, donde los dos
sonidos mantienen exactamente la razón 2/1, hemos visto que los desfases entre los
sonidos dan lugar a diferentes formas en la vibración resultante, pero, puesto que
esos desfases permanecen constantes durante la emisión de cada sonido, la forma
de la vibración resultante se mantiene estable en todos los casos. Pero ahora las
frecuencias de los dos sonidos que se mezclan no están exactamente en la razón
2/1, sino que el sonido agudo difiere en algunos hercios del que deberı́a tener para
que la mezcla fuera exactamente una octava.
Esta ligera diferencia da lugar a que el desfase entre ambas señales vaya aumen-
tando, haciendo que la forma de la vibración resultante no permanezca constante,
sino que vaya cambiando a lo largo del tiempo. Estas modificaciones en la forma
de la vibración se repiten cı́clicamente, pues el progresivo incremento de los desfa-
ses hace que cada cierto periodo de tiempo ambos sonidos vuelvan a estar en fase
y comience un nuevo ciclo. Los batidos de segundo orden son los cambios
cı́clicos en la forma de la vibración que nuestro oı́do percibe como una
periódica oscilación en la cualidad sonora.
Ası́ pues, la razón por la que se producen tanto los batidos de primer orden como los
de segundo orden es la misma: la evolución en el desfase entre los dos componentes
cuando se alejan ligeramente de los números que definen las razones exactas del
unı́sono (1/1) o de las consonancias (2/1, 3/2, 4/3).
Sin embargo, la naturaleza de los batidos de primer orden (que se producen en
lo que podrı́amos llamar cuasi-unı́sono) y los de segundo orden (que se dan en lo
que podrı́amos llamar cuasi-consonancia) es distinta. Los primeros provocan una
evolución cı́clica de la amplitud y son percibidos por nuestro oı́do como un trémolo
en el sonido resultante, mientras que los batidos de segundo orden no afectan a
la amplitud de la señal resultante, sino que producen una modificación, también
cı́clica, de la forma de la vibración y son percibidos por nuestro oı́do como una
105
variación periódica de la cualidad sonora. En el capı́tulo dedicado a la fisiologı́a
de la audición estudiaremos la causa de que, siendo nuestra audición frecuencial,
percibamos estos batidos de segundo orden.
En el caso de la cuasi-consonancia de octava, el número de batidos por segundo

es la diferencia entre la frecuencia que tiene el sonido más agudo y la que deberı́a
tener para mantener la relación exacta 2/1, como hemos podido apreciar en el
vı́deo de la figura 6.11.
En lo que respecta a la cuasi-consonancia de quinta, el número de batidos por
segundo es el doble de la diferencia que hay entre la frecuencia del sonido agudo y
la que deberı́a tener para mantener la razón exacta de 3/2. En efecto, si volvemos
al vı́deo de la figura 6.8, podemos apreciar que la desafinación del intervalo de
quinta provoca batidos de segundo orden. Donde se perciben más claramente es
en el ejemplo en el que la quinta está bajada 20 cent. Allı́ el componente agudo
tiene una frecuencia de 325,8 Hz, cuando deberı́a tener 330 Hz para mantener la
razón exacta de quinta, 3/2, con el componente grave de 220 Hz. La diferencia es
de 4,2 Hz y el número de batidos que percibimos por segundo es 8,4, el doble de
esa diferencia. En el caso de la quinta temperada la diferencia es de 0,4 Hz y el
número de batidos por segundo de 0,8.
En el caso de la cuasi-consonancia de cuarta el número de batidos por segundo que
percibimos es el triple de la diferencia entre la frecuencia que tiene el componente
y la que deberı́a tener para mantener la razón exacta de la cuarta, 4/3.
6.8. Distorsión y componentes espurios en la mezcla de dos

sonidos simples
Por último, para concluir este capı́tulo quiero explicar, aunque sea brevemente, lo
que puede suceder en la mezcla de dos sonidos simples si el equipo de sonido que
los reproduce presenta una distorsión significativa.
En un sentido amplio, distorsión es cualquier modificación que sufre la señal de
audio al pasar por un sistema, como ocurre, por ejemplo, en un equipo de música
provisto de ecualizador, donde la intensidad de las diferentes bandas de frecuencia
puede ser amplificada a voluntad. De hecho, toda señal que pasa por un sistema que
no sea idealmente plano sufre algún tipo de distorsión, pues algunos componentes
son amplificados más que otros. Por ejemplo, mediante un ecualizador, podemos
reforzar la presencia de los graves o de los más agudos, o bien de los medios, y
todo ello ocasionará modificaciones en la forma de la vibración y en la cualidad del
106
sonido que oı́mos. Sin embargo, en otras ocasiones la alteración de la importan-
cia de las bandas de frecuencia puede ser un problema, como cuando la acústica
de una sala de conciertos refuerza en exceso unos determinados componentes en
detrimento de otros.
Pero ahora vamos a referirnos a la distorsión en un sentido más limitado: aquellas
deformaciones de la señal de audio que provocan la aparición de nuevos compo-
nentes frecuenciales que no estaban en la señal original. Esta distorsión es muy
importante, pues no se limita a teñir o matizar los componentes de la señal origi-
nal, sino que introduce en ella componentes espurios.
Cuando la señal de audio consta de un solo componente sinusoidal esta distor-
sión provoca que surjan en la señal nuevos componentes que son armónicos del
componente original, por lo que recibe el nombre de distorsión armónica. Se lla-
ma armónica porque los componentes que se introducen son armónicos del sonido
simple original, es decir, sus frecuencias son múltiplos de éste. Como veremos en
el capı́tulo dedicado al sonido armónico, esto quiere decir que si el sonido original
es un sonido simple de 220 Hz, por ejemplo, el sonido resultante será un sonido
que, además de este componente original, tendrá otro u otros componentes cuyas
frecuencias sean múltiplos de la de ese componente original. Es decir, será la suma
del componente original de 220 Hz, más otro en 440 Hz, y tal vez otro en 660 Hz,
y ası́ sucesivamente en función de la importancia de la distorsión.
En el caso de que la señal de audio esté compuesta por dos o más sonidos simples,
el resultado de la señal distorsionada estará formada no sólo por los armónicos
correspondientes a la distorsión de cada uno de los sonidos que intervienen en la
mezcla, sino también por nuevos componentes que serán la suma y la diferencia
de las frecuencias de los componentes originales. Esta distorsión recibe el nom-
bre de distorsión de intermodulación y altera considerablemente la señal original,
de tal modo que, a partir de cierto nivel, dificulta seriamente la audición de la
música.
Si bien las razones de esta distorsión exceden nuestro objetivo, a continuación voy
a mostrar un caso particular de distorsión de intermodulación, la cual ha dado
lugar a que en ocasiones se haya interpretado mal el fenómeno de la mezcla de
dos sonidos simples. Vamos a ver lo que puede suceder si el equipo reproductor
presenta cierta cantidad de distorsión cuando los dos componentes que se mezclan
forman un intervalo de quinta natural (3/2). En los vı́deos de la figura 6.6 y de
la figura 6.8 hemos podido apreciar que ambos se oyen como una consonancia de
quinta. Sin embargo ahora vamos a poder experimentar que si el equipo presenta
una distorsión relevante pueden ser oı́dos como si se tratara de un solo sonido cuya
frecuencia fuera una octava más grave que la del más grave de los dos componentes.
107
He elegido este caso precisamente para mostrar hasta qué punto es fácil confundir
el resultado de un proceso producido por la distorsión con una propiedad derivada
de la mezcla entre sonidos.
En el vı́deo que vamos a ver a continuación se han mezclado dos componentes
simples cuyas frecuencias son de 440 Hz (la4 ) y 660 Hz (mi5 natural), ambos de
igual amplitud.
Figura 6.12: Vı́deo que ilustra el efecto de la distorsión en la mezcla de dos sonidos
simples.
En el osciloscopio podemos ver en color verde, en torno al valor de 0,4 la señal

resultante que oı́mos y debajo, en color azul, centrada en el valor -0,4, la señal
original tomada como referencia para apreciar el efecto de la distorsión. Si nuestro
reproductor de sonido no distorsiona (en caso contrario igual es buena idea probar
con unos auriculares), en el primer caso debemos oı́r dos notas consonantes muy
bien mezcladas. Vemos en el osciloscopio que la señal verde, la que estamos oyendo,
y la señal azul, la original, son totalmente idénticas.
En el segundo caso, en el que artificialmente he provocado una distorsión de in-
termodulación, oı́mos un solo sonido que está a una octava más grave que el la4 ,
es decir, oı́mos el la3 , pero con una cualidad sonora más rica que la de un sonido
simple. Si nos fijamos en la forma de la vibración (podemos parar el reproductor
de vı́deo) y comparamos la señal resultante, ahora distorsionada, con la referencia
original de color azul podremos apreciar que la señal verde no es capaz de continuar
hacia abajo cuando desciende, reproduciendo el movimiento de la señal azul, sino
que da lugar a una clara deformación respecto a la señal de referencia, la original.
108
Esta deformación provoca que la señal verde no esté ahora formada únicamente
por los dos componentes originales, sino que tenga nuevos componentes.
Los componentes más destacados han sido los que resultan de la suma y de la
diferencia de los componentes reales: un componente en 1100 Hz y otro en 220 Hz.
Luego, los que son el doble de los originales: uno de 880 Hz y el otro de 1320 Hz.
Si los reordenamos todos sucesivamente nos encontramos con que tenemos los si-
guientes componentes: 220, 440, 660, 880, 1100, 1320. Como veremos en el capı́tulo
dedicado al sonido armónico, estos componentes forman una serie armónica, pues
todos ellos son los sucesivos múltiplos de 220 Hz. Y ésta es la razón por la que
ahora oı́mos el la3 (220 Hz) como la nota fundamental y no oigamos ya los dos
componentes aislados, las notas la4 y mi5 formando una consonancia.
En el tercer caso tenemos la misma situación, pero ahora con una distorsión mucho
más exagerada. Vemos que incluso los movimientos descendentes han sido trans-
formados en gran medida en ascendentes. El resultado es similar al anterior, sólo
que ahora todavı́a apreciamos una cualidad sonora más plena. Esto explica por
qué, de una manera aparentemente paradójica, la distorsión nos puede dar lugar a
un resultado engañoso y nos puede hacer pensar que la mezcla de dos componentes
simples en relación de quinta ocasiona un nuevo sonido una octava más baja. Este
error aparece a veces incluso en algún libro de texto y por ello me ha parecido
oportuno explicarlo aquı́.
Cuando lleguemos al capı́tulo dedicado al análisis espectral podremos entender
mejor las causas de que la distorsión pueda alterar las propiedades de la mezcla de
los sonidos, ya que podremos observar con más detalle los componentes espurios
que surgen como consecuencia de esta distorsión de intermodulación.
6.9. Conclusión
En este capı́tulo hemos podido experimentar que cuando dos sonidos simples sue-
nan simultáneamente se producen diferentes fenómenos acústicos y psicoacústicos,
los cuales dependen de la diferencia aritmética entre sus frecuencias, de la anchura
de la banda crı́tica de nuestro oı́do en esas frecuencias y de la razón numérica
que hay entre ellas. Estos fenómenos, que fundamentan una parte importante de
nuestro lenguaje musical, pueden ser resumidos de la siguiente manera:
- Si los dos sonidos simples tienen la misma frecuencia, el resultado es un solo
sonido simple de esa frecuencia, cuya amplitud depende no sólo de la amplitud de
sus componentes, sino también del desfase que hay entre ellos.
109
- Si la diferencia aritmética entre la frecuencia de los dos sonidos simples es menor
de unos 15 Hz, percibimos un solo sonido simple, cuya amplitud oscila sinusoi-
dalmente dando lugar a un efecto de trémolo (batidos de primer orden) y cuya
frecuencia se sitúa entre la de los dos componentes, aproximándose más a la del
que tiene mayor amplitud. La frecuencia con la que se repite la oscilación de la
amplitud (el número de batidos por segundo) es la diferencia aritmética entre las
frecuencias de los dos sonidos componentes. Estos batidos, al permitir determinar
con precisión la diferencia entre la frecuencia de los dos componentes, posibili-
tan afinar con facilidad los instrumentos musicales y establecer con exactitud los
intervalos que dan lugar a las escalas.
- Cuando la diferencia aritmética entre las frecuencias de los dos sonidos simples
supera aproximadamente los 15 Hz, nuestro sistema auditivo no puede seguir el
ritmo de los batidos y dejamos de percibir un solo sonido simple tremolado. Si esta
diferencia está dentro de la anchura de la banda crı́tica correspondiente a esa zona
frecuencial, oı́mos un sonido áspero y rugoso, a modo de zumbido, en el que no
podemos distinguir individualmente los dos componentes. Cuando esta diferencia
se aproxima al lı́mite de la anchura de la banda crı́tica, aunque la cualidad del so-
nido siga siendo rugosa, progresivamente pasamos a reconocer los dos componentes
individuales. Y cuando la diferencia supera con cierta holgura esa anchura de la
banda crı́tica desaparece la sensación de rugosidad y percibimos ya nı́tidamente
los dos componentes por separado.
- Cuando las frecuencias de los dos sonidos simples mantienen una relación de
conmensurabilidad próxima (razones entre los primeros números enteros positi-
vos), la mezcla sonora resultante es periódica y la forma de la vibración es lo
suficientemente sencilla como para que nuestro sistema auditivo pueda reconocer
las coincidencias periódicas entre los dos componentes. A consecuencia de ello, si
las frecuencias de estos componentes superan la anchura de la banda crı́tica, per-
cibimos una sensación de buena mezcla que explica la consonancia musical entre
dos sonidos simples.
- Cuando las frecuencias de los dos sonidos simples se alejan ligeramente de una
razón de conmensurabilidad próxima, percibimos un cambio periódico en la cuali-
dad de la mezcla resultante (batidos de segundo orden). A diferencia de los batidos
de primer orden, los batidos de segundo orden no son el resultado de una oscilación
de la amplitud, sino que se producen porque nuestro sistema auditivo es capaz de
reconocer cambios cı́clicos en la forma de la vibración.
- La distorsión de intermodulación puede dar lugar a una mala interpretación de
los resultados de la mezcla de sonidos.
110
Capı́tulo 7
El sonido armónico
7.1. Introducción
La palabra griega harmonı́a originalmente designaba al conjunto que resulta del
buen ensamblaje de sus partes. Por ello, en la Antigüedad las escalas musicales,
estructuradas mediante consonancias, eran llamadas armonı́as y la música era
considerada el paradigma de lo armónico. En tanto que el sonido musical es un
conjunto formado por partes perfectamente ensambladas, hasta el punto de que es
percibido como un solo sonido, también es llamado sonido armónico.
Hasta ahora hemos estudiado la vibración de un sonido simple y los fenómenos
acústicos que se producen al superponerse dos vibraciones simples, pero la mayor
parte de los sonidos que oı́mos son bastante más complejos, pues en realidad son
el resultado de la combinación de muchos sonidos simples.
Los sonidos simples cuando forman parte de un sonido compuesto reciben el nom-
bre de parciales. Ahora bien, cualquier combinación de sonidos simples no genera
un sonido musical, es decir, el sonido resultante no siempre vibra de una manera
lo suficientemente periódica como para que nuestro sistema auditivo sea capaz de
reconocer una altura tonal. Para que se produzca un sonido musical es necesario
que las relaciones entre las frecuencias de los componentes simples que intervienen
en la mezcla sean armónicas, es decir, que sus frecuencias sean múltiplos de una
frecuencia fundamental. En ese caso se crea una estructura armónica y los soni-
dos simples que la constituyen se llaman componentes armónicos, o simplemente
armónicos. El sonido simple puede ser considerado como un caso particular de
sonido armónico, aquél que consta de un solo componente sinusoidal.
111
El sonido musical o armónico puede ser definido como el sonido for-
mado por la superposición simultánea de varios sonidos simples cuyas
frecuencias son múltiplos de una frecuencia fundamental, es decir, de
una frecuencia que es el máximo común divisor de todas ellas. La fre-
cuencia de ese sonido fundamental determina la periodicidad del sonido resultante
y, por lo tanto, la altura tonal que percibimos. Y ello es ası́ incluso si esa frecuencia
fundamental no está presente, siempre que el número de componentes armónicos
sea suficiente como para que podamos percibir la mezcla como un solo sonido. Por
el contrario, cuando las frecuencias de los componentes no son múltiplos de una
frecuencia fundamental se generan sonidos inarmónicos.
Los elementos mediante los que se producen los sonidos musicales en los instrumen-
tos —por ejemplo, las cuerdas o las columnas de aire de los tubos— habitualmente
son capaces de vibrar de diferentes modos a la vez, cada uno de ellos con su propia
frecuencia de vibración, generando diferentes sonidos simples. Esos instrumentos
emiten sonidos musicales porque, debido a su propia constitución fı́sica, las fre-
cuencias de todos esos modos de vibración son conmensurables entre sı́, es decir,
son todas ellas múltiplos de una frecuencia base, llamada fundamental o primer
armónico. El resultado es una vibración armónica, a la que podemos asignar una
altura tonal definida, por lo que reconocemos una nota musical.
En este capı́tulo vamos a limitarnos a estudiar el sonido armónico, dejando al
margen las mezclas inarmónicas de componentes parciales. Por razones didácti-
cas vamos a analizar el comportamiento de sonidos totalmente estables, es decir,
de sonidos formados por componentes cuyos parámetros de frecuencia y amplitud
permanecen sin cambios durante toda su duración. Esto nos va a facilitar la obser-
vación aislada de las diferencias en la cualidad sonora derivadas de la presencia o
ausencia de unos u otros componentes de la serie armónica, ası́ como de su mayor
o menor amplitud, dejando para más adelante el estudio de los rasgos sonoros que
dependen de la evolución temporal de los parámetros, es decir, de las envolventes
de frecuencia y de amplitud.
He confeccionado mediante Matlab varios vı́deos que nos van a permitir observar
con detenimiento qué es el sonido armónico. En la parte superior de todos ellos
podremos examinar la forma de la vibración, es decir, la señal de audio, como en
el osciloscopio virtual que hemos visto en los vı́deos de los capı́tulos anteriores,
y en la parte inferior podremos ver unas gráficas que representan la frecuencia
y la amplitud de cada uno de los componentes que constituyen ese sonido. El
color de cada componente en esas gráficas viene determinado por su amplitud,
siguiendo una escala que va del negro (el valor cero) al blanco (el valor máximo
que podrı́a representarse en el eje de ordenadas), pasando por los distintos colores
que adquiere el hierro al calentarse: negro rojizo, rojo oscuro, rojo claro, naranja,
112
amarillo y, finalmente, blanco, con todos sus matices intermedios. Este mapa de
color es el que se utilizará en las gráficas de los capı́tulos siguientes cuando sea
necesario representar mediante colores el valor de la amplitud.
7.2. Sonidos armónicos y sonidos inarmónicos

Empecemos diferenciando la forma de la vibración de los sonidos armónicos de
la de los inarmónicos. En el vı́deo de la figura 7.1 se presenta primero un sonido
inarmónico y luego un sonido armónico. Ambos están constituidos por cuatro com-
ponentes sinusoidales estables, pertenecen a la misma banda frecuencial y tienen
las mismas relaciones de amplitud entre ellos. En el primer caso las frecuencias de
los componentes son: 220 Hz, 311 Hz, 557 Hz y 929 Hz. Comprobamos que estas
cantidades no son conmensurables con ninguna otra que pudiera servir de funda-
mental (o, lo que es lo mismo, su máximo común denominador es la unidad). En
el segundo caso, sin embargo, todas las frecuencias son múltiples de la más grave:
220 Hz, 440 Hz, 660 Hz y 880 Hz. Todas estas cantidades son múltiplos sucesivos
de 220, que es su máximo común divisor: 220; 220 x 2 = 440; 220 x 3 = 660; 220
x 4 = 880.
Figura 7.1: Vı́deo que muestra la diferencia entre los sonidos armónicos y los inarmóni-
cos.
El color de cada componente en ambas gráficas viene determinado por su amplitud,

según la escala de color del hierro al calentarse, mientras que la señal resultante
de la mezcla está en color verde. Dada la proximidad de las amplitudes, los colores
113
son bastante similares, lo cual dificulta su visualización, pero he optado por man-
tenerlos ası́ para que coincidan con los valores de la gráfica de abajo y también
para que nos vayamos familiarizando con el mapa de color que se usará en los
capı́tulos siguientes, cuando se estudie el análisis frecuencial.
En la gráfica de abajo aparecen la frecuencia y la amplitud de cada componente
que interviene en la mezcla, representadas respectivamente en el eje de las abscisas
y en el de las ordenadas. Además, la leyenda indica la frecuencia de cada uno de los
componentes con el color correspondiente a su amplitud: 0,12; 0,10; 0,08; y 0,06.
Como vemos en el eje de las ordenadas, ahora el valor máximo de la amplitud
(al que le corresponderı́a el color blanco) es 0,15. Puesto que los componentes no
cambian en amplitud, esta gráfica no se modifica a lo largo de la duración del
sonido.
En el primer caso oı́mos un sonido que no es un ruido, pero del que para nada
podremos decir que se trate de una nota musical. Como mucho, algún experi-
mentado afinador de instrumentos o alguien con un oı́do analı́tico particularmente
bueno podrı́a detectar los componentes individuales, que aproximadamente son:
la3 , mib4 , do#5 , sib5 . En efecto, estamos ante un sonido que podrı́amos calificar
como inarmónico: no es ruido, pero tampoco es una nota musical.
En el segundo caso, por el contrario, todos oı́mos claramente una nota musical, en
concreto, el la3 a 220 Hz. Aunque un buen oı́do analı́tico muy entrenado podrı́a
identificar aisladamente cada componente, lo cierto es que los percibimos como un
único sonido musical, pues han amalgamado perfectamente bien. Se ha producido
la mezcla armónica.
Si nos fijamos en las gráficas de arriba, las del osciloscopio, comprobamos que hay
una evidente diferencia en la forma de la señal entre el primer sonido y el segundo.
En el caso del sonido inarmónico, vemos que la forma de la vibración no es estable,
sino que va cambiando constantemente, de modo que es imposible reconocer ningu-
na periodicidad en ella. En el caso del sonido armónico, por el contrario, la forma
de la vibración permanece constante, con lo que podemos apreciar la estabilidad
de su dibujo, es decir, su periodicidad.
En la gráfica de abajo apreciamos la disposición espacial de los componentes. Tam-
bién ahora las diferencias son claras. Vemos que en el caso del sonido inarmónico
los componentes mantienen entre sı́ distancias totalmente desiguales, sin que poda-
mos encontrar ningún patrón espacial, mientras que en el caso del sonido armónico
todos los componentes están igualmente espaciados. Conviene fijarnos en que, en
este segundo caso, la distancia entre los componentes armónicos es la misma que
la que hay entre 0 y la frecuencia del primer componente, es decir, 220 Hz.
114
Para entender lo que sucede podemos fijarnos en un pequeño fragmento de la
señal de la segunda parte del vı́deo, cuando se produce la superposición de cuatro
componentes parciales armónicos:
Figura 7.2: Forma de la vibración de un sonido armónico y sus componentes.
Vemos que, mientras el componente más luminoso y de mayor amplitud, repre-

sentado en amarillo claro (el de 220 Hz), realiza un ciclo completo, el componente
amarillo oscuro (el de 440 Hz) realiza exactamente dos ciclos, el naranja (el de 660
Hz), tres ciclos exactos, y el rojo (el de 880 Hz), cuatro ciclos. Todos los compo-
nentes se sincronizan con total precisión cada vez que el de 220 Hz empieza un
nuevo ciclo.
Esta sincronización hace que la señal verde, la resultante de la mezcla de los cuatro
componentes, se repita exactamente igual cada cierto tiempo. En efecto, esta señal
verde es periódica y su periodo, como podemos observar en la gráfica, es aproxima-
damente de 4,5 milésimas de segundo (1/220). Podemos apreciar que ese periodo
es la inversa de la frecuencia del componente más grave, el fundamental. Y puesto
que los componentes han amalgamado bien formando un solo sonido, una mezcla
armónica, podemos atribuirle una frecuencia. De ahı́ que en la segunda parte del
vı́deo oigamos una nota de 220 Hz, el la3 en nuestra afinación estándar.
Fijémonos ahora en la forma de la señal cuando se mezclan componentes sinusoi-
dales que no mantienen entre sı́ una relación armónica, como ocurre en la primera
parte del vı́deo.
115
Figura 7.3: Forma de la vibración de un sonido inarmónico y sus componentes.
En la figura 7.3 no apreciamos ninguna regularidad: al no haber ninguna sincroni-

zación entre los componentes individuales, sino que que cada uno lleva su propio
ritmo de repetición, en la señal verde resultante no existe ninguna forma que se
repita. Este sonido carece de periodicidad y, por lo tanto, no podemos asignarle
una frecuencia y no oı́mos una altura tonal concreta.
7.3. La serie armónica

En música se denomina serie armónica a la sucesión de sonidos simples
cuyas frecuencias son múltiplos enteros y sucesivos de una frecuencia
base, llamada fundamental o primer armónico. Esta frecuencia fundamental
es la que determina la nota musical que percibimos.
Los componentes armónicos se designan por el ordinal que le corresponde en la
serie armónica: primer armónico o fundamental; segundo armónico, el que tiene
una frecuencia que es doble de la fundamental; tercer armónico, el que tiene una
frecuencia que es triple de la fundamental, y ası́ sucesivamente. Por ejemplo, si
tomamos como frecuencia base un sonido simple de 100 Hz, la frecuencia del primer
armónico o fundamental será 100 x 1 = 100 Hz; la del segundo armónico será 100
x 2 = 200 Hz; la del tercero, 100 x 3 = 300 Hz; la del cuarto 100 x 4 = 400 Hz,
etc.
A continuación vamos a estudiar cómo influye en la cualidad del sonido resultante
el número y el peso de los componentes que constituyen su estructura armónica.
116
Los ejemplos que vamos a observar en los vı́deos nos servirán también para com-
prender que cualquier forma de vibración periódica, por compleja que sea, puede
ser generada a partir de componentes armónicos. Para ello he fabricado dos vı́deos
a partir de fotogramas creados mediante Matlab. En ambos vı́deos podemos ob-
servar que conforme se añaden armónicos al sonido la forma de la vibración se va
haciendo cada vez más compleja, alejándose de la forma sinusoidal, y la cualidad
sonora va adquiriendo cada vez más brillantez. El primer vı́deo muestra cómo se va
formando una señal en dientes de sierra y el segundo una señal rectangular. Igual
que en el vı́deo anterior, en la parte de arriba podemos ver la forma de la vibración
del sonido resultante, a modo de osciloscopio, y en la de abajo la frecuencia y la
amplitud de los componentes que lo constituyen. A medida que van apareciendo,
se muestra también el número de armónico del que se trata y su frecuencia.
En ambos vı́deos suena ocho veces la misma nota, un la3 a 220 Hz, lo que nos per-
mite apreciar cómo va cambiando la cualidad sonora conforme se van añadiendo
nuevos componentes armónicos. En los dos casos empieza sonando el componente
fundamental aislado, un sonido simple de 220 Hz. En el primer vı́deo se van in-
corporando uno detrás de otro todos los componentes de la serie armónica, tanto
pares como impares, hasta llegar al octavo armónico. En el segundo vı́deo sólo
se incorporan los armónicos impares, de modo que, puesto que también se van
añadiendo un total de ocho componentes, llegan hasta el decimoquinto armónico.
En los dos vı́deos la amplitud de cada armónico se decrementa proporcionalmen-
te al ordinal del armónico correspondiente: la amplitud del armónico quinto, por
ejemplo, es la quinta parte de la amplitud del fundamental. En todos los casos los
componentes simples tienen la misma fase inicial.
7.3.1. Sonido formado por componentes consecutivos de la serie armóni-

ca: Señal en diente de sierra
Empecemos escuchando y observando la forma de la señal cuando al sonido simple

fundamental se añaden uno tras otro componentes cuyas frecuencias siguen la serie
armónica.
117
Figura 7.4: Vı́deo que muestra la generación de una señal en diente de sierra a partir
de los componentes consecutivos de la serie armónica.
Podemos apreciar que el carácter puro, seco y más bien mate del sonido simple ais-
lado que oı́mos al inicio, se va perdiendo con la adquisición de nuevos componentes.
Observamos que progresivamente el sonido va adquiriendo más cuerpo y nos va
transmitiendo una sensación de mayor grosor y de mayor brillo. En efecto, la incor-
poración del segundo armónico elimina ya la sequedad del sonido simple y le otorga
una cualidad dulce y redondeada. Con el tercer armónico se introduce una clara
sensación de nasalidad. El cuarto armónico refuerza el carácter redondo y compac-
to, atenuando un poco la nasalidad que habı́a introducido el tercer armónico. El
quinto aporta plenitud al sonido, produciéndonos la sensación de una sonoridad
compacta y llena. El sexto añade de nuevo nasalidad. El séptimo introduce, por
primera vez, una sensación de aspereza. Y el octavo refuerza la coherencia total
del sonido, aumentando el brillo y la luminosidad del conjunto.
En lo que respecta a la forma de la señal que vemos en el osciloscopio, comproba-
mos que conforme se van añadiendo nuevos armónicos, va haciéndose más y más
compleja, adquiriendo nuevas ondulaciones y alejándose de la forma sinusoidal que
tenı́a al principio. El hecho de que todos componentes que introducimos estén en
fase y que la relación entre sus amplitudes se decremente proporcionalmente al
número del armónico, hace que esas ondulaciones tiendan a aproximarse a una
forma rectilı́nea, conforme aumenta el número de armónicos que se incorporan.
Aunque en este vı́deo para construir el sonido compuesto sólo he sumado ocho
armónicos, podemos darnos cuenta de que la incorporación de un número mayor
nos permitirı́a aproximarnos cada vez más a una señal que tuviera la forma de
dientes de sierra.
118
7.3.2. Sonido formado por los componentes impares consecutivos de
la serie armónica: Señal rectangular
Veamos ahora cómo suena y cómo es la forma de la señal de un sonido armónico

formado sólo por componentes impares.
Figura 7.5: Vı́deo que muestra la generación de una señal rectangular a partir de los
componentes impares de la serie armónica.
Podemos apreciar que la incorporación del tercer armónico hace que el sonido ten-
ga un carácter nasal muy destacado. Ası́ mismo, la ausencia del segundo armónico
nos produce un efecto de hueco. El quinto armónico aporta también ahora una
sensación de acabado, pero dentro de una cualidad sonora dominada por la nasa-
lidad. Los restantes armónicos que se van incorporando (el séptimo, el noveno, el
undécimo, el decimotercero y el decimoquinto) proporcionan cada vez más brillo
al sonido, pero el resultado es también progresivamente más áspero.
Respecto a la forma de la vibración, observamos que va evolucionando con la in-
corporación de nuevos armónicos, hasta adquirir un aspecto rectilı́neo, una señal
rectangular. Esta forma rectangular se debe a la concentración de las ondulaciones
en los tramos superior e inferior de la señal, unas ondulaciones que van aumen-
tando en número y atenuándose en amplitud con cada nueva incorporación de
armónicos. Igual que en el caso de la señal en dientes de sierra, también ahora
podemos imaginar que si se siguieran añadiendo componentes armónicos impares,
manteniendo la misma proporción en el decremento de la amplitud, podrı́amos
aproximarnos cuánto quisiéramos a una señal rectangular.
El predominio de los armónicos impares es un rasgo caracterı́stico del timbre de
algunos instrumentos como, por ejemplo, el clarinete.
119
7.3.3. Cualidad sonora derivada de los componentes de la serie armóni-
ca
Como hemos podido experimentar en los dos vı́deos anteriores, la presencia o

ausencia de unos u otros componentes influye decisivamente en la cualidad sonora
de la mezcla armónica. Pero hay que tener en cuenta que la coloración que añade
cada componente a la mezcla armónica se ve matizada por otras circunstancias,
en especial, la anchura de la banda crı́tica en la que está localizado o la existencia
o no de componentes vecinos dentro de su banda frecuencial con los que pueda
interferir.
Dejando al margen esto, podemos generalizar lo que hemos observado en los vı́deos
y deducir cómo afecta cada uno de los componentes de la serie armónica a la
cualidad sonora de la mezcla resultante:
a) En lı́neas generales, el incremento del número de armónicos aumenta la
brillantez del sonido.
b) Los armónicos segundo, cuarto, octavo, decimosexto, etc. —es decir, los que
mantienen una relación de octava con el fundamental— refuerzan la coherencia
tonal del sonido.
c) Los armónicos tercero, sexto, duodécimo, etc. —es decir, los que están
en relación de octava con el tercer armónico— aportan un carácter nasal
(llamado ası́ por recordar al que se produce en el habla al emitir los sonidos
nasales).
d) Los armónicos quinto y décimo añaden una sensación de plenitud.
e) El resto de los armónicos añaden cierto matiz de aspereza.
f) Un sonido con numerosas lagunas entre sus armónicos tiende a producir una
sonoridad hueca, mientras que un sonido más completo produce una sonoridad
plena y maciza.
Hay que tener presente que si hubiéramos alterado la fase inicial de los componentes
armónicos, hubiéramos cambiado la forma de la vibración, pero la cualidad del
sonido resultante no hubiera sufrido ninguna modificación relevante.
Por otra parte, mediante estos dos vı́deos podemos comprender que cualquier forma
de vibración periódica, por alejada que esté de la sinusoidal, puede ser generada a
partir de componentes armónicos. Y, a la inversa, podemos deducir también que
cualquier forma de vibración periódica puede ser descompuesta en sus componentes
armónicos, como los que aparecen en la ventana inferior de los dos vı́deos.
120
7.4. Componentes de la serie armónica y notas de la escala
temperada
Una vez que hemos visto que los sonidos musicales complejos se forman combi-
nando diversos componentes de la serie armónica, nos interesa conocer la corres-
pondencia entre esos componentes y las notas e intervalos de la escala musical
temperada, la habitual en nuestra música.
Muchos teóricos de la Armonı́a han considerado que los acordes imitan en cierta
manera la estructura armónica de los sonidos musicales, por lo que es común que los
tratados de Armonı́a comiencen enumerando los componentes de la serie armónica
e indicando las notas de la escala a las que más se aproximan. Aunque estas
consideraciones hoy en dı́a están en desuso, lo cierto es que existe una gran afinidad
entre los elementos de nuestro lenguaje musical y la organización interválica de la
serie armónica. Esta afinidad se debe a que la estructura cognitiva que posibilita
la percepción unitaria de un sonido armónico es la misma que la que está detrás
de la construcción de nuestro lenguaje musical.
Por otra parte, conocer la correspondencia entre los componentes de la serie
armónica y las notas de la escala musical nos va a permitir entender por qué
oı́mos consonancias o disonancias cuando se mezclan notas musicales. Puesto que
habitualmente las notas de las voces y de los instrumentos musicales constan de
múltiples componentes armónicos, cuando se emiten simultáneamente dos o más
notas se va a producir la mezcla e interferencia entre sus respectivos componen-
tes. La coincidencia o divergencia entre los armónicos de cada una de esas notas
determinará el grado de consonancia que se establezca entre ellas.
Para ver las correspondencias entre los componentes armónicos y las
notas de la escala temperada, primero debemos traducir a semitonos
temperados los intervalos que forman cada uno de los componentes de
la serie armónica con el fundamental o primer armónico. Las razones que
definen estos intervalos vienen dadas por las que se establecen entre sus respectivos
números de armónico: el intervalo del segundo armónico con el fundamental tiene
la razón 2/1 (o sea, 2); el del tercero con el fundamental, la razón 3/1 (o sea,
3); el del cuarto, la razón 4/1 (o sea, 4); y ası́ sucesivamente. Como hemos visto
en el capı́tulo 5, para expresar estas razones en semitonos temperados bastará
tomar el logaritmo en base 2 de los sucesivos enteros positivos que constituyen
la serie armónica y multiplicar el resultado por 12. Por ejemplo, para expresar en
semitonos temperados el intervalo que forma el tercer armónico con el fundamental,
tomaremos el logaritmo en base 2 del número 3 y multiplicaremos el resultado por
12, lo que nos dará, redondeado a centésimas de semitono, 19,02 semitonos.
121
En la tabla de abajo presento el número de semitonos temperados, redondeados
a cents, que tiene el intervalo que forma cada uno de los componentes de la serie
armónica con el fundamental.
Nombre del intervalo Número de Diferencia en

Armónico que forma el componente armónico semitonos cents entre el
con el fundamental temperados intervalo natural
y el temperado
1o Unı́sono 0 0
2o Octava 12 0
3o Octava más quinta natural 19,02 +2
4o Doble octava 24 0
5o Doble octava más tercera mayor natural 27,86 -14
6o Doble octava más quinta natural 31,02 +2
7o Doble octava más séptima menor natural 33,69 -31
8o Triple octava 36 0
9o Triple octava más tono de 9/8 38,04 +4
10o Triple octava más tercera mayor natural 39,86 -14
11o Triple octava más cuarta aumentada natural 41,51 -49
12o Triple octava más quinta natural 43,02 +2
13o Triple octava más sexta menor natural 44,41 +41
14o Triple octava más séptima menor natural 45,69 -31
15o Triple octava más séptima mayor natural 46,88 -12
16o Cuádruple octava 48 0
Tabla 7.1: Intervalos que se establecen entre los componentes de la serie armónica y el
fundamental.
En la primera columna se indica el número del armónico; en la segunda, el nombre

del intervalo que forma ese armónico con el fundamental, habitualmente adjetivado
122
con el calificativo “natural” para diferenciarlo del temperado; en la tercera, el
número de semitonos temperados que tiene ese intervalo natural redondeado a
cents; y en la cuarta, la diferencia en cents entre el intervalo natural y el intervalo
temperado más próximo.
Ası́, por ejemplo, en la quinta fila, el ordinal 5o indica que se trata del quinto
componente armónico y que, por lo tanto, la razón con el fundamental es 5/1.
En la segunda columna figura el nombre habitual de ese intervalo, en este caso,
“doble octava más tercera mayor natural”. En la tercera columna se presenta el
número de semitonos temperados de este intervalo, que es el resultado de tomar el
logaritmo en base 2 de 5 y multiplicarlo por 12, lo que nos da un valor, redondeado
a centésimas de semitono, de 27,86 semitonos. Esta cantidad será de utilidad para
averiguar cuál es la nota musical de nuestra escala temperada que más se aproxima
a ese componente en una serie armónica concreta, es decir, una serie armónica
con un componente fundamental determinado (por ejemplo, la serie armónica que
comienza en do2 que podemos ver en la figura 7.6. En la cuarta columna se presenta
la diferencia en cents entre el intervalo que forma ese componente armónico con el
fundamental y el intervalo temperado más próximo (recordemos que por definición
todo intervalo temperado tiene un número entero de semitonos). Puesto que en
este caso el valor en semitonos que forma el quinto armónico con el fundamental es
de 27,86, la diferencia con el intervalo temperado más próximo, el de 28 semitonos,
será de -14 cents, tal como aparece en la cuarta columna. Dicho de otra manera
el intervalo natural de 5/1 es 14 cents menor que el intervalo de 28 semitonos, el
intervalo de doble octava más tercera mayor temperada.
Una vez que hemos expresado en semitonos temperados el valor interválico de cada
armónico con el fundamental, es sencillo asignar el primer armónico a una nota
cualquiera y, a partir de ahı́, determinar la nota musical que más se aproxima a
cada uno de los componentes armónicos.
La figura que presento a continuación nos va a permitir observar que la frecuen-
cia de algunos componentes armónicos coincide exactamente con la frecuencia de
una nota de la escala temperada, que la de otros se aproxima mucho, pero que
la frecuencia de otros se aleja significativamente de la de cualquier nota de esa
escala. Estas coincidencias y divergencias entre las frecuencias de los componentes
armónicos y las de sus correspondientes notas de la escala temperada condicionan
el grado de consonancia que se establece entre las notas musicales, como se explica
en el capı́tulo que trata de la consonancia entre sonidos compuestos.
Para minimizar el número de bemoles y sostenidos, suele ser habitual presentar las
notas de la serie armónica tomando como referencia la nota do. He elegido como
fundamental el do2 , para evitar sobrepasar en exceso los lı́mites del pentagrama. La
123
serie armónica que presento a continuación se extiende hasta los primeros dieciséis
componentes armónicos.
Figura 7.6: Serie armónica con fundamental en do2 y diferencias entre las notas natu-
rales correspondientes a cada armónico y las temperadas.
Debajo del pentagrama vemos el número del armónico al que se asigna cada nota.
Los colores de las notas representan la cualidad sonora caracterı́stica que aporta
cada armónico a la mezcla: en negro están los que proporcionan coherencia al
sonido; en magenta, los que añaden una sensación de nasalidad; en azul, los que
aportan una impresión de plenitud; y en rojo, los que introducen cierto matiz de
aspereza.
En la fila que está situada inmediatamente encima del pentagrama se indica la fre-
cuencia de cada nota en la escala temperada estándar (la4 = 440 Hz), redondeada
a décimas de hercio. En la siguiente fila, se muestra la frecuencia del componente
armónico —al que podemos llamar la nota natural—, la cual es el resultado de
multiplicar la frecuencia de la nota do2 (130,8 Hz) por el número del armónico,
redondeada también a décimas de hercio. En la tercera fila se indica, cuando la hay,
la diferencia en hercios entre la frecuencia del componente armónico y la frecuen-
cia de la nota temperada, redondeada a décimas de hercio. Y en la fila superior,
destacada en color azul, se presenta, expresado en cents, el intervalo que hay entre
la nota natural —es decir, el componente armónico— y la nota temperada más
próxima. Puesto que este intervalo es el mismo que la diferencia que hay entre
124
el intervalo natural que forma el componente armónico con el fundamental y el
intervalo temperado más próximo, podemos ver que estos valores coinciden con los
de la cuarta columna de la tabla 7.1.
Por ejemplo, vemos que el quinto componente armónico se corresponde, aproxi-
madamente, con la nota mi4 temperada, cuya frecuencia es 659,3 Hz. Como la
frecuencia del quinto armónico es 654,1 Hz, comprobamos que es 5,2 Hz menos
que la de la nota mi4 temperada. El intervalo que hay entre la nota natural, es
decir, la correspondiente al componente armónico, y la nota temperada es de -14
cents (27,86 - 28 = -14). Podemos verificarlo también calculando el intervalo que
hay entre la frecuencia de la nota natural y la frecuencia de la nota temperada,
tomando el logaritmo en base 2 de la razón entre sus frecuencias (654,1/659,3) y
multiplicando el resultado por 12, con lo que obtendremos el mismo resultado de
-14 cents. Ası́ pues, el número -14 que está sobre la nota mi4 indica que la nota
correspondiente al quinto armónico de la serie está 14 cents por debajo del mi4 de
nuestra escala temperada.
7.5. Intervalos entre los sucesivos componentes de la serie

armónica
Dadas las afinidades entre la constitución de la serie armónica y la estructura
interválica que da lugar a las escalas y acordes de nuestro lenguaje musical, nos
interesa comparar las relaciones interválicas que se establecen entre los sucesivos
componentes armónicos con los intervalos de nuestra escala temperada. Para ello
vamos a utilizar la fila superior de la figura 7.6, en color azul, donde se indica,
redondeado a cents, el intervalo de diferencia que hay entre la nota de la serie
armónica y la nota temperada correspondiente. Ası́ mismo, para diferenciar con
claridad cuándo estamos refiriéndonos a la nota de la serie armónica y cuándo a la
nota correspondiente de nuestra escala temperada, utilizaré el adjetivo “natural”
para las notas de la serie armónica y el adjetivo “temperada” para las de la escala
temperada.
a) En los cuatro primeros armónicos están contenidas las consonan-

cias que estructuran todo nuestro sistema musical: la octava (2/1),
entre el segundo y el primer armónico; la quinta (3/2), entre el ter-
cero y el segundo; y la cuarta (4/3) entre el cuarto y el tercero. En la
serie armónica de la figura 7.6, cuyo fundamental es do2 , estas consonancias
corresponden a los intervalos que se establecen entre do3 —do2 , sol3 —do3 y
do4 —sol3 , todas ellas notas naturales. Hay que tener en cuenta que, si bien
125
estos intervalos exactos han constituido el fundamento sobre el que se ha
desarrollado nuestro lenguaje musical, a partir del desarrollo de la moderna
tonalidad las quintas y las cuartas han sido ligeramente matizadas para es-
tablecer el sistema temperado: la quinta temperada está aproximadamente 2
cents más baja que el intervalo de quinta natural y la cuarta temperada está
unos 2 cents más alta que la cuarta natural. Esto último lo podemos deducir
fácilmente, pues si la quinta natural es 2 cents mayor que la quinta temperada,
la cuarta natural ha de ser necesariamente 2 cents menor para que la octava
tenga los cents justos que le corresponden (1200 cents por definición, 12 semi-
tonos). Hay que tener presente que, al ser la octava el intervalo de referencia,
carece de sentido la distinción entre octava natural y octava temperada.
b) Entre el quinto y el cuarto armónico (5/4) hay una tercera mayor
natural que es sensiblemente más corta que la tercera temperada,
en concreto, 14 cents menos. En la serie armónica que estamos utilizando
como ejemplo corresponde al intervalo que se establece entre mi4 —do4 , ambos
naturales.
c) Entre el sexto y el quinto armónico (6/5) hay una tercera me-
nor natural que excede en 16 cents a la tercera menor temperada.
En nuestra serie armónica corresponde al intervalo que se establece entre
sol4 —mi4 , ambos naturales. En efecto, puesto que el quinto armónico (mi4
natural) es 14 cents más bajo que la nota temperada correspondiente (mi4
temperado) y el sexto armónico (sol4 natural), es 2 cents más alto que el sol4
temperado, la diferencia entre el intervalo que forman las notas naturales (la
tercera menor natural) y la que forman las correspondientes notas temperadas
(la tercera menor temperada) es de 16 cents.
d) Los intervalos entre los armónicos cuarto, quinto y sexto (5/4,
6/5) constituyen un acorde perfecto mayor. Si incluimos el séptimo
armónico forman un acorde de séptima de dominante, aunque su correspon-
diente séptima temperada está ya muy lejos de la séptima natural, en concreto
la séptima natural es 31 cents inferior a la séptima temperada. En la figura
7.6 corresponden a las notas do4 , mi4 , sol4 , sib4 , todas ellas naturales.
e) Entre el noveno y el octavo armónico se establece el tono de
9/8, también llamado tono pitagórico, que resulta de la composición
de dos quintas naturales a la que posteriormente se sustrae una octava. En
nuestra serie armónica corresponde al intervalo que se establece entre re5 —do5 ,
ambos naturales. Podemos construir este tono de 9/8 si añadimos a la quinta
natural que hay entre el cuarto y el sexto armónico (do4 —sol4 naturales), la
quinta natural que hay entre el sexto armónico y el noveno armónico (sol4 —re5
126
naturales), con lo que obtenemos un intervalo de octava más un tono diatónico.
Luego, al ascender una octava el sonido más grave del intervalo ası́ formado (el
do4 pasa a ser do5 ), dejamos solamente el tono diatónico. Como cada quinta
natural excede en 2 cents a la quinta temperada, este tono pitagórico será 4
cents mayor que el tono temperado.
f) Entre el décimo y el noveno armónico se forma un intervalo de
tono de 10/9, el llamado tono menor. En nuestra serie armónica corres-
ponde al intervalo que se establece entre mi5 —re5 naturales. Este intervalo
es 18 cents menor que el tono temperado. En efecto, puesto que el noveno
armónico (re5 natural) es 4 cents más alto que la correspondiente nota tem-
perada (re5 temperado) y el décimo armónico (mi5 natural) es 14 cents más
bajo que su correspondiente nota temperada (mi5 temperado), la diferencia
respecto al tono temperado es de 18 cents.
g) Entre el decimosexto y el decimoquinto armónico se produce un
intervalo de semitono de 16/15, el llamado semitono mayor que se
usaba en algunas escalas musicales antiguas. En nuestra serie armónica co-
rresponde al intervalo que se establece entre do6 —si5 naturales. Este intervalo
excede en 12 cents al semitono temperado, pues el si5 natural es 12 cents más
bajo que el si5 temperado.
h) El resto de los intervalos que se forman entre los sucesivos armóni-
cos quedan lejos de los intervalos usados en nuestras escalas musi-
cales.
7.6. Estructura armónica y reconocimiento de la altura to-

nal
La estructura armónica es el conjunto de componentes de la serie armóni-
ca que están presentes en un sonido concreto, cada uno de ellos con su
propia amplitud. Como hemos podido apreciar en los vı́deos anteriores, cuando
escuchamos un sonido formado por componentes armónicos, nuestro sistema per-
ceptivo reconoce la estructura armónica que forman esos componentes, lo que hace
que, de manera totalmente inconsciente, seamos capaces de reconocer una altura
tonal y, por lo tanto, una nota musical. En los vı́deos de este capı́tulo la estructura
armónica del sonido queda representada en las gráficas de abajo, donde aparecen
los componentes frecuenciales, cada uno con su amplitud.
127
Como hemos visto en los apartados anteriores, los componentes de la serie armónica
están separados unos de otros por la misma distancia frecuencial. Esta distancia
es el máximo común divisor de las frecuencias de todos ellos y coincide con la
frecuencia del primer componente de la serie. Cuando oı́mos un sonido, nuestro
sistema de reconocimiento auditivo intenta organizar sus componentes, intenta
buscar una distancia frecuencial que se repita, es decir, intenta reconocer una es-
tructura armónica. Si lo consigue, está ante un sonido armónico, de modo que
puede asignarle la altura tonal del componente fundamental de la serie armónica a
la que pertenece, incluso cuando ese componente fundamental no está presente en
la estructura armónica de ese sonido concreto. Ello es ası́ porque, como veremos
en el capı́tulo 13, nuestro cerebro unifica los componentes frecuenciales para re-
construir la unidad del objeto sonoro, con lo que puede identificar la nota musical
correspondiente en la escala. En definitiva, si somos capaces de oı́r notas musicales
es porque reconocemos el patrón armónico de un sonido concreto, aunque para
ello sea necesario rellenar los huecos de los componentes frecuenciales que faltan
en su estructura armónica, de modo que sea posible reconstruir la serie armónica
a la que pertenece.
A continuación vamos a comprobar experimentalmente que la altura tonal de
un sonido musical viene determinada por la frecuencia del componente
fundamental de su estructura armónica, con independencia de que ese
componente esté o no presente en ese sonido concreto. Veremos también
que el reconocimiento del patrón armónico se produce incluso cuando la estructura
armónica presenta un número importante de huecos, como hemos podido observar
en el caso de la señal rectangular formada únicamente por componentes impares
que aparece en el vı́deo de la figura 7.5.
Para apreciar cómo se produce el reconocimiento de la estructura armónica he
confeccionado un vı́deo en el que se presentan tres notas musicales cuyas alturas
tonales distan entre sı́ una octava. En lo tres casos la frecuencia del componente
más grave presente en la señal es 220 Hz; sin embargo, en el primero oı́mos un la3
a 220 Hz, en el segundo un la2 a 110 Hz, y en el tercero un la1 a 55 Hz.
128
Figura 7.7: Vı́deo que muestra que la percepción de la altura tonal del sonido armónico
no se ve afectada por la ausencia del componente fundamental o incluso de los primeros
componentes.
Como era de esperar, la primera nota que oı́mos es un la3 , pues esa es la frecuencia
del componente fundamental, tal como aparece indicado en la leyenda. Si aten-
demos a la gráfica de abajo y nos fijamos en su estructura armónica, vemos que
todos los componentes son múltiplos de 220 Hz y que están presentes los ocho
primeros armónicos de su serie. En la ventana del osciloscopio podemos ver que
la forma de la vibración es totalmente periódica. En efecto, si detenemos el vı́deo
en cualquier momento, y hacemos un cálculo aproximado, podremos ver que su
periodo ocupa un poco menos de la anchura de un rectángulo de la retı́cula, es
decir, un poco menos de 5 milésimas de segundo, lo cual es coherente con el perio-
do correspondiente a la frecuencia de 220 Hz, es decir, 4,5 milésimas de segundo
(1/220 = 0,0045).
La segunda nota que oı́mos es un la2 . La estructura armónica de esta nota está
formada también por ocho componentes consecutivos, pero ahora el primer com-
ponente de esa serie armónica está ausente. En efecto, vemos que las frecuencias
de todos los componentes son múltiplos de 110, y no de 220. O lo que es lo mismo,
el máximo común divisor de las frecuencias de todos los componentes de esta es-
tructura armónica es 110. Ası́ pues, deducimos que la frecuencia del componente
fundamental de la serie armónica a la que pertenece esta nota es 110 Hz y que
en este caso está ausente. En efecto, los componentes presentes en esta estructura
armónica comienzan con el segundo armónico, el de 220 Hz, y consecutivamen-
te llegan hasta el noveno, el de 990 Hz. En el osciloscopio vemos que la señal es
también claramente periódica, pero que el periodo es el doble del periodo del ca-
so anterior, aproximadamente, 9 milésimas de segundo, como corresponde a una
frecuencia de 110 Hz (1/110 = 0,009, redondeando a milésimas).
129
La tercera nota que oı́mos es el la1 . En este caso el máximo común divisor de
todos los componentes que forman la estructura armónica de ese sonido es 55, de
modo que la frecuencia del componente fundamental de la serie armónica a la que
pertenece es 55 Hz. Pero este componente no está. Podemos también observar que
el componente más grave que está presente en la estructura armónica de esta nota
musical es el cuarto armónico. A partir de él están los sucesivos componentes hasta
el undécimo, el de 605 Hz. Ası́ pues, en este caso, no sólo falta el fundamental,
sino que también faltan los tres primeros componentes. Pero nosotros oı́mos con
total claridad una nota que es una octava más grave que la anterior, es decir, un
la1 . Si nos fijamos en la periodicidad, vemos que también se corresponde con la
frecuencia del fundamental ausente. En el osciloscopio podemos observar que el
periodo de esta señal es el doble del de la anterior, aproximadamente 18 milésimas
de segundo (1/55 = 0,018, redondeando a milésimas).
Mediante este ejemplo hemos podido experimentar que la altura tonal que percibi-
mos en un sonido armónico es independiente de la existencia o no del componente
fundamental o incluso de los componentes más graves. Ello explica que seamos
capaces de oı́r notas graves con cualquier sistema de reproducción de sonido, por
muy deficiente que sea: aunque la calidad sonora saldrá perjudicada, la percepción
de la nota de la que se trata no se ve modificada. Por poner un ejemplo, la mayor
parte de los reproductores de sonido económicos son incapaces de dar frecuencias
inferiores a 100 Hz; sin embargo, en esos reproductores nosotros no oı́mos las notas
graves cambiadas de octava, sino que, incluso en el peor equipo de música, reco-
nocemos, pongamos por caso, el la1 del piano, cuya frecuencia fundamental está
en 55 Hz y no lo confundimos con el la2 , cuya frecuencia es 110 Hz. Ahora bien,
la cualidad, el color del sonido, no será el mismo si están o no están presentes los
componentes más graves.
7.7. Las fronteras de lo armónico. La inarmonicidad en el

sonido musical
A continuación me propongo mostrar que la estructura armónica del sonido
puede deformarse hasta cierto punto sin que desaparezca la percepción
de una altura tonal definida. Observaremos, además, que esa deformación,
debida al estiramiento progresivo de la distancia frecuencial entre los componentes,
produce una modificación de la cualidad sonora.
130
Como acabamos de ver, la altura tonal de un sonido musical queda definida por la
distancia frecuencial entre los componentes que constituyen su estructura armóni-
ca, al margen de los posibles huecos que pueda haber en ella. Ahora bien, en la
realidad, los sonidos de algunos instrumentos deforman esa estructura, incremen-
tando la distancia entre sus componentes. Y, además, lo hacen de una forma no
lineal: conforme mayor es el ordinal del armónico, mayor es el intervalo musical en
el que se alejan.
Por poner un ejemplo, en el caso del piano la deformación ocasionada por la rigidez
de sus cuerdas metálicas puede dar lugar en una nota grave a que la frecuencia
del armónico decimoquinto, pongamos por caso, sea 16 veces la frecuencia del
fundamental, es decir, la frecuencia que deberı́a tener el armónico decimosexto.
Ahora bien, la deformación de la estructura armónica, cuando se mantiene dentro
de unos lı́mites, no impide el reconocimiento de una nota musical, si bien es cierto
que la altura tonal que se percibe es ligeramente más aguda que la correspondiente
a la frecuencia del componente fundamental. Además esta inarmonicidad modifica
la cualidad sonora: cuando es muy ligera aporta un cierto grosor y hace que el
sonido sea más cálido; cuando el estiramiento es ya más pronunciado, el sonido
adquiere un color metálico y empieza a recordar al sonido de una campana.
He fabricado un vı́deo que nos va a permitir experimentar lo que sucede cuando la
estructura armónica se deforma dentro de ciertos márgenes. En los tres casos que
se presentan suena la nota la3 constituida por los ocho primeros armónicos. Pero
mientras que en el primer caso los componentes son equidistantes, lo que da lugar a
una estructura armónica perfecta, en los dos casos siguientes la estructura creada
por los ocho componentes se va deformando: en el segundo caso las distancias
entre ellos están ligeramente estiradas, lo que provoca una pequeña inarmonicidad,
mientras que en el tercero el estiramiento se acerca ya al lı́mite de lo que podemos
considerar una estructura armónica y, por lo tanto, también al lı́mite de nuestra
capacidad para percibir una altura tonal definida. La amplitud de cada uno de los
componentes es la misma en los tres casos.
131
Figura 7.8: Vı́deo que muestra que la introducción de una ligera inarmonicidad en un
sonido armónico no impide la percepción de una altura tonal.
La leyenda que aparece a la derecha de la ventana inferior del vı́deo muestra la

frecuencia de los componentes y su número de armónico, ası́ como la desviación
en hercios de cada uno de ellos respecto a la frecuencia que tendrı́a el armónico
sin deformar y su correspondiente distancia interválica expresada en cents.
En el primer caso oı́mos un sonido estable y claro, una nota musical, en concreto,
un la3 a 220 Hz. En la ventana del osciloscopio podemos apreciar que la forma de la
vibración permanece siempre idéntica a sı́ misma, totalmente estable. Si paramos
el vı́deo en cualquier momento y atendemos a la leyenda, comprobaremos que los
componentes de este sonido son los ocho armónicos consecutivos exactos, múltiplos
sucesivos de la frecuencia fundamental. Por eso en todos ellos la desviación es 0.
En resumen, la deformación de la estructura armónica en este caso es nula.
Si comparamos el segundo caso con el anterior, notamos que son muy similares.
Aunque tenemos una cierta sensación de que la altura se ha elevado muy ligera-
mente, seguimos oyendo sin ninguna duda una nota musical clara. Ahora bien,
si prestamos un poco más de atención, apreciamos que la cualidad sonora se ha
modificado sensiblemente respecto al sonido anterior: se ha hecho más cálida y ha
adquirido una coloración que nos recuerda algo al efecto producido por los bati-
dos de segundo orden cuando se mezclan dos sonidos consonantes que se apartan
ligerı́simamente de la conmensurabilidad exacta (poner enlace). En la ventana del
osciloscopio apreciamos que ahora la forma de la vibración cambia a cada momen-
to, si bien el periodo se mantiene constante.
Podemos parar el vı́deo y ver en la leyenda que ahora ya hay una desviación en la
frecuencia de los componentes, una desviación que es muy pequeña en los primeros
armónicos y que va creciendo, tanto en hercios como en cents, a medida que au-
132
menta su ordinal. Pero nos damos cuenta de que incluso en el último componente,
que es donde se produce la desviación máxima, el intervalo que se desvı́a respecto
al valor que le corresponderı́a al octavo armónico exacto es solo de 16 cents. Vemos,
ası́ pues, que en este sonido la estructura armónica se ha deformado ligeramente.
En efecto, cuando he generado este sonido, he elegido a propósito los valores de
deformación de cada componente para que simulara aproximadamente el estira-
miento que se suele producir en una cuerda media del piano. Para ello he usado
una variante de la fórmula habitualmente utilizada para calcular la frecuencia de
cada uno de los componentes de una nota de piano a partir de un coeficiente dado
de inarmonicidad.
En el tercer caso, si atendemos a nuestra percepción auditiva, comprobamos que
resulta todavı́a posible asignar al sonido una altura tonal, aunque ya de una forma
más confusa que en los dos casos anteriores. Observamos que esta altura tonal es
más elevada. Al poner un poco más de atención apreciamos que la cualidad cálida
del caso anterior ha pasado ahora a adquirir cierta aspereza y a transformarse en
un sonido metálico. En efecto, la cualidad sonora nos recuerda bastante al sonido
de una campana (aunque no esté presente la atenuación progresiva caracterı́stica
de la campana). Estamos en el lı́mite de la posibilidad de distinguir una altura
tonal estable y de reconocer que se trata de una nota musical.
Si prestamos atención a la ventana del osciloscopio, vemos que la periodicidad
resulta ya difı́cil de reconocer, incluso cuando detenemos el vı́deo. Podemos aven-
turar un cierto valor temporal que parece marcar la evolución de la vibración y
que, más o menos, coincidirı́a con el periodo de los dos casos anteriores, pero de
una manera bastante imprecisa.
En la leyenda podemos comprobar ahora que las desviaciones de los armónicos
son ya bastante importantes, tanto en hercios como en cents. También ahora la
desviación va creciendo conforme mayor es el ordinal, hasta el punto de que la
frecuencia del octavo componente está ya muy lejos de la que le corresponderı́a al
octavo armónico. En efecto, su desviación en cents es de 152, es decir, un semitono
y medio. Podemos ver que la frecuencia de este octavo componente (1921,5 Hz)
se aproxima a la frecuencia que le corresponderı́a al noveno armónico: teniendo en
cuenta que la frecuencia fundamental es 220 Hz, el noveno armónica tendrı́a una
frecuencia de 1980 Hz (220 x 9 = 1980). Ahora la estructura armónica ha sido
deformada, estirándose los componentes hasta casi romper la estructura armónica.
Un poco más allá de estas fronteras dejarı́amos ya de percibir una altura tonal
y el sonido dejarı́a de ser armónico. En efecto, para generar este tercer sonido
he utilizado la misma fórmula que en el caso anterior, pero con un coeficiente de
inarmonicidad diez veces mayor.
133
Para entender a qué se debe el cambio de cualidad sonora provocada por una ligera
inarmonicidad vamos a fijarnos en el segundo caso. Vemos en la ventana del oscilos-
copio que la forma de la vibración cambia constantemente, mientras se mantiene la
periodicidad. Este fenómeno es una generalización a múltiples componentes de lo
que observamos en el caso de los batidos de segundo orden (poner enlace) respecto
a la mezcla de dos componentes. La explicación del fenómeno es, pues, similar.
Las pequeñas diferencias de frecuencia provocan desfases, los cuales dan lugar a
modificaciones constantes de la forma de la vibración, que son las que dotan al
sonido de esa cualidad cálida. La forma de la vibración, no obstante, mantiene
su periodicidad y eso hace que tenga una frecuencia propia y, en consecuencia,
que tenga sentido atribuirle una altura tonal. La diferencia respecto a los batidos
de segundo orden reside en que la complejidad de los desfases, debida al elevado
número de componentes, evita una rotación repetida de la forma de la vibración,
por lo que no percibimos batidos, sino solamente un sonido más cálido.
Conforme la inarmonicidad aumenta la periodicidad tiende a desaparecer y se
complica la percepción de una altura tonal, pues nuestro sistema auditivo tiene
dificultades para organizar los componentes en un patrón armónico. En el último
ejemplo de este vı́deo, la deformación de la estructura es tan importante que el
patrón armónico es percibido ya de una manera difusa, totalmente alejada de la
percepción nı́tida con la que se percibe en el primer caso.
7.8. Conclusión
A lo largo de este capı́tulo hemos podido comprobar que la Armonı́a está presente
incluso en la constitución misma del sonido musical. Hemos visto que los soni-
dos armónicos o musicales son el resultado de la buena mezcla, mientras que los
inarmónicos son aquellos cuyos componentes no se mezclan bien, no amalgaman
unos con otros.
Hemos podido observar cómo al combinarse varias vibraciones que guardan entre
sı́ determinadas razones y proporciones se produce una nueva entidad, una nota
musical clara y diferenciada. Lo que hace musical a la vibración que resulta de esta
mezcla es la estructura armónica que posee, una estructura que en sı́ misma no
es otra cosa que unas determinadas relaciones de conmensurabilidad. Por eso los
componentes del sonido armónico no desaparecen, sino que pueden ser de nuevo
descompuestos, tal como hace nuestro sistema auditivo y como podemos realizar
mediante las herramientas matemáticas propias del análisis frecuencial. Es por
ello por lo que la rama de las matemáticas que se ocupa de la descomposición de
funciones en componentes sinusoidales se denomina Análisis Armónico.
134
Puesto que la estructura armónica, que es lo propio del sonido musical, se crea
por la conmensurabilidad de las frecuencias de todos los componentes respecto al
fundamental, y puesto que esa conmensurabilidad permite que amalgamen bien
unos componentes con otros, podemos considerar que el sonido armónico viene a
ser la generalización a un número indeterminado de componentes de la “buena
mezcla” que se produce entre dos sonidos simples consonantes. En ambos casos
la conmensurabilidad da lugar a la sincronización de las fases de los distintos
componentes, y esa sincronización posibilita su buena mezcla. En este capı́tulo
hemos visto que los intervalos que hay entre los primeros componentes de una
serie armónica son precisamente los principales intervalos consonantes (2/1, 3/1,
4/1, 3/2, 4/3), de modo que la estructura sonora que se crea mediante la mezcla
de cualquier número de componentes pertenecientes a la misma serie armónica da
como resultado un sonido en el que se ha producido la ”buena mezcla”, un sonido
musical.
Mediante los ejemplos que se presentan en los vı́deos de este capı́tulo hemos podido
experimentar que la vibración del sonido armónico o musical mantiene siempre
una periodicidad y que, por lo tanto, posee una frecuencia concreta, con lo que
se le puede atribuir una altura tonal. Dado que nosotros no somos capaces de
seguir al detalle el desarrollo temporal del movimiento vibratorio para captar su
periodicidad, sino que nuestro sistema auditivo extrae su estructura frecuencial,
podemos considerar que la estructura armónica sirve de puente entre la naturaleza
periódica del sonido y nuestra percepción de la altura tonal.
Nuestra especial facultad para reconstruir intuitivamente la serie armónica explica
la abundante presencia en las acciones de los hombres del sonido armónico: silbar,
gritar, cantar, vocalizar, todas estas acciones producen una vibración armónica a
la que dotamos de sentido y de significación. Esta facultad también pudiera tener
que ver con la invariabilidad de la frecuencia a lo largo de todo el recorrido de
la vibración sonora, desde la emisión hasta su recepción. El sonido puede perder
amplitud con la distancia, puede perder componentes frecuenciales por el camino,
pero en condiciones normales nunca modifica su periodo de vibración, o sea, su
frecuencia.
Las coincidencias que hemos podido observar entre los armónicos y las notas e
intervalos de nuestro lenguaje musical contribuyen a explicar que el mismo sis-
tema cognitivo que posibilita la percepción unitaria de un sonido compuesto por
varios componentes armónicos esté presente en la constitución de nuestro lenguaje
musical, tanto en la determinación de los elementos estructurales de las escalas,
como en la construcción de los acordes.
135
Capı́tulo 8
Ondas estacionarias y resonancia:

Generación del sonido armónico
8.1. Introducción
El material de la música, el sonido armónico, es un fenómeno tan frecuente que
forma parte de nuestra experiencia cotidiana en el reconocimiento del entorno. En
efecto, el sonido armónico está por todas partes: si ponemos un poco de atención,
podemos oı́r notas musicales en medio del ruido del tráfico, en el silbido del aire
cuando se filtra por los tubos de una chimenea o por las grietas de las rocas, en
el canto de los pájaros o incluso en el aullido de algunas fieras. Por otra parte, es
sencillo generar sonidos armónicos: basta soplar ligeramente en el cuello de una
botella vacı́a, frotar con suavidad el borde de una copa de cristal o pellizcar una
cuerda lo suficientemente tensa para que se produzcan sonidos musicales.
La pregunta es: ¿por qué es tan habitual la existencia de vibraciones cuyos compo-
nentes tienen frecuencias que son múltiplos enteros de una frecuencia fundamental?
La respuesta nos lleva a la geometrı́a: si el sonido armónico abunda tanto en la
naturaleza y en los utensilios de todo tipo que hemos fabricado los humanos es
porque es muy común la existencia de estructuras geométricas adecuadas para
la generación de ondas estacionarias armónicas y para su amplificación mediante
resonancias.
En cierto modo podemos decir que todo sonido armónico se produce median-
te un proceso de resonancia, un proceso por el cual la onda excitadora
se acopla con sus sucesivos reflejos, dando lugar a la aparición de ondas
estacionarias. A lo largo de este capı́tulo vamos a examinar por qué se produce
136
el sonido armónico. Para ello estudiaremos el mecanismo fı́sico mediante el cual
surgen las ondas estacionarias y el fenómeno de la resonancia. Comprenderemos
que determinadas propiedades fı́sicas y geométricas de los cuerpos que vibran po-
sibilitan la aparición de ondas estacionarias con unos modos de resonancia que son
armónicos entre sı́ y que cuando estos modos naturales de vibración son excitados
por algún agente surgen sonidos armónicos.
Mediante vı́deos ilustrativos que he elaborado con Matlab y que simulan el com-
portamiento de una cuerda tensada y fija en sus extremos, podremos experimentar
qué son las ondas estacionarias y en qué consiste el fenómeno de la resonancia. Los
vı́deos nos van a permitir observar cómo las ondas estacionarias surgen de la inter-
ferencia reiterada de una onda sinusoidal con su reflejo. Veremos también que la
cuerda tensada, como todo sistema vibratorio unidimensional, posee por naturale-
za unos modos de vibración que son armónicos. Observaremos que la resonancia se
produce cuando un sistema vibratorio es excitado por cualquier perturbación, por
pequeña que sea, que coincida con una de sus frecuencias naturales de vibración.
Y comprenderemos por qué, al ponerse a vibrar en las frecuencias de estos modos
naturales de vibración, la cuerda produce un sonido periódico y musical.
Finalmente, antes de entrar en materia, me gustarı́a señalar que el fenómeno de
la resonancia no sólo es importante para la acústica musical, sino que atañe a
toda la acústica e incluso a la fı́sica en su conjunto y, de una u otra manera, a
la ciencia en general. La noción de resonancia ha salido del campo estrictamente
acústico y ha servido para explicar multitud de fenómenos en todas las áreas
de las ciencias, desde fenómenos electromagnéticos hasta los que conciernen a la
fı́sica de partı́culas, a la astronomı́a, e incluso a la biologı́a molecular. Allı́ donde
está presente la vibración o la oscilación está también presente el fenómeno de la
resonancia.
8.2. La cuerda como paradigma de un sistema vibratorio uni-

dimensional
Para estudiar los fenómenos de las ondas estacionarias y de la resonancia vamos a
analizar lo que ocurre en una simple cuerda tensada y fija en sus extremos. Este
modelo puede ser considerado como paradigma de un sistema vibratorio unidimen-
sional. Dado que los sonidos musicales suelen ser producidos por sistemas vibra-
torios unidimensionales, si analizamos el comportamiento de una cuerda cuando
es inducida a vibrar podremos comprender los mecanismos mediante los cuales se
produce el sonido armónico.
137
En todo movimiento ondulatorio hay que distinguir entre el movimiento de propa-
gación de la onda y el movimiento oscilatorio que realiza cada una de las partı́culas
que se ven afectadas por el paso de la onda. Cuando la dirección de ambos movi-
mientos es la misma, decimos que las ondas son longitudinales, como vimos que
ocurre con las condensaciones y rarefacciones en el aire al transmitir un sonido.
Cuando la dirección del movimiento oscilatorio es perpendicular a la del movi-
miento propagatorio, decimos que las ondas son transversales.
Por otra parte, la propagación de las ondas puede producirse en las tres dimen-
siones del espacio, en dos dimensiones o solamente en una: las condensaciones y
rarefacciones que se producen al propagarse un sonido por el aire en un espacio
abierto son de carácter tridimensional, pues se extienden de forma radial por todo
el espacio circundante; la ondulación que se propaga por las aguas de un estanque
o por la membrana de un tambor es bidimensional, pues viaja a lo largo y ancho
de una superficie; y las perturbaciones que se propagan a través de una cuerda
tensada o en el aire contenido en el tubo de una flauta son unidimensionales, pues
viajan en una sola dirección del espacio.
Al margen de que sean transversales o longitudinales, los sistemas vibratorios uni-
dimensionales tienden a producir ondas estacionarias con modos normales de vi-
bración armónicos. Por eso los sonidos musicales son generados por sistemas vi-
bratorios unidimensionales, tales como los instrumentos de cuerda y los de viento.
Habitualmente las cuerdas de los instrumentos al excitarse dan lugar a ondas trans-
versales: el macillo en un piano golpea la cuerda y la desplaza transversalmente;
lo mismo sucede al ser frotada la cuerda de un violı́n con un arco o al ser pulsada
la cuerda de una guitarra con el dedo. En el caso de los instrumentos de viento,
sin embargo, las ondas que se producen son longitudinales, pues la oscilación de
las partı́culas de aire se produce en la misma dirección en la que se propagan las
variaciones de la presión, es decir, a lo largo de la propia longitud de la masa de
aire que está contenida en el tubo.
Para estudiar cómo se genera el sonido armónico me ha parecido oportuno to-
mar como ejemplo un sistema constituido por una cuerda tensada que está fija
en ambos extremos, como puede ser la cuerda de un piano, de una guitarra o de
cualquier otro instrumento similar. Se trata de un sistema vibratorio unidimen-
sional y transversal. Dado que en las ondas transversales las partı́culas oscilan de
forma perpendicular a la dirección de propagación, son más fáciles de observar que
las ondas longitudinales, donde la oscilación de las partı́culas tiende a camuflarse
con el movimiento de la onda que propaga la perturbación. Aunque al estudiar el
comportamiento de la cuerda tensada nos centraremos en las ondas transversales,
las ideas que vamos a examinar pueden ser generalizadas al caso de las ondas lon-
138
gitudinales unidimensionales, como las que se producen en el interior de los tubos
de los instrumentos de viento.
Ası́ pues, con el propósito de permitir entender con facilidad cómo se producen las
ondas estacionarias y en qué consiste el fenómeno de la resonancia, he fabricado
varios vı́deos en los que se simula a cámara lenta el movimiento de una cuerda
cuando se provocan en ella diversas perturbaciones transversales. Supondremos
que se trata de una cuerda de piano sin encorchar de un metro de longitud —como
podrı́a ser cualquiera de las cuerdas que dan una nota en la octava que va de do3
a do4 — y que ha sido extraı́da del instrumento y sujetada por sus extremos a
unos soportes que la mantienen tensada. Supondremos también que estos soportes
pueden ser desplazados arriba y abajo mediante algún artilugio mecánico para
inducir en la cuerda diversos tipos de perturbaciones. La perturbación se provocará
mediante el desplazamiento vertical del soporte izquierdo al que está unida la
cuerda o, en alguna ocasión, de los dos soportes. Una vez que la perturbación
haya sido introducida, los soportes volverán a quedar fijos. A fin de modelizar la
inercia y la elasticidad, podemos considerar que la cuerda está constituida por un
conjunto de bolitas unidas por pequeñas gomas o muellecillos que se estiran y se
encogen.
En el eje vertical de la gráfica que aparecen en los vı́deos se representa el despla-
zamiento vertical de las partı́culas que suponemos forman la cuerda. Como nos
interesa observar el detalle de la perturbación y de sus reflejos e interferencias, las
unidades del eje vertical están en milı́metros. En el eje horizontal se representan
las sucesivas posiciones de la cuerda a lo largo de su longitud. Las unidades en
este caso, sin embargo, están en metros. Esta diferencia en las unidades hace que
en los vı́deos resulten muy exageradas las deformaciones de la cuerda provocadas
por su vibración (tengamos en cuenta que la cuerda real mide un metro y que la
deformación máxima que va a sufrir es de dos milı́metros), pero nos va a permitir
ver con mucha más facilidad los fenómenos ondulatorios que se producen.
Por otra parte, como queremos observar con detenimiento el movimiento que se
genera en la cuerda, nos interesa que en nuestra simulación la velocidad de propa-
gación de las perturbaciones sea suficientemente lenta. La velocidad con la que se
transmite cualquier perturbación transversal en una cuerda real está determinada
por la tensión a la que está sometida y por la masa por unidad de longitud que
posee. En el caso de una cuerda de piano que emite una nota media (como puede
ser el la3 ) la velocidad de propagación de una perturbación transversal puede estar
en torno a los 400 m/s. En nuestra simulación, sin embargo, la velocidad con la
que se propaga la perturbación a lo largo de la cuerda es de 1 metro por segundo,
es decir, 400 veces más lenta que en la cuerda real. El movimiento vertical del so-
139
porte mediante el que se generan las perturbaciones está ralentizado en esa misma
proporción.
Hay que tener en cuenta también que la cuerda de nuestro modelo se comporta de
forma ideal. En las simulaciones de los vı́deos se ha prescindido del rozamiento con
el aire o con los soportes que la sujetan, por lo que no se produce ninguna amor-
tiguación en el movimiento de la cuerda. Ası́ mismo, supondremos que la cuerda
vibra siempre en el mismo plano —en concreto, en el plano vertical arriba/abajo—,
aunque las cuerdas de los instrumentos reales no se comportan siempre ası́ (por
ejemplo, en un piano de cola, como consecuencia de la acción del macillo que la
golpea desde abajo, la cuerda comienza a oscilar en la dirección arriba/abajo, pero
durante su vibración tiende a rotar su plano de oscilación y a oscilar también de
izquierda a derecha, en la dirección paralela al teclado).
Comenzaremos examinando cómo se propaga por la cuerda una perturbación trans-
versal y cómo esa perturbación se refleja cuando llega a los extremos fijos. Luego
analizaremos lo que ocurre cuando interfieren dos perturbaciones que viajan en
sentidos opuestos. Después comprobaremos que las ondas estacionarias surgen de
la interferencia de una onda sinusoidal con su reflejo, cuando, en el tiempo que
tarda una oscilación en completarse, la onda recorre exactamente una parte entera
del camino de ida y vuelta a lo largo de la cuerda. A continuación veremos que la
cuerda tensada, en función de la velocidad de propagación ondulatoria, posee unos
modos normales de vibración propios, cuyas frecuencias siguen la serie armónica.
Después podremos observar que, cuando una cuerda es excitada en cualquiera de
esos modos de resonancia naturales, basta una mı́nima perturbación para produ-
cir una gran ondulación. Y finalmente, podremos ver el movimiento de una cuerda
cuando resuena simultáneamente en varios de sus modos naturales de vibración,
como sucede habitualmente en las cuerdas de los instrumentos musicales.
8.3. Propagación y reflexión de una perturbación transversal

sobre una cuerda
Para estudiar cómo se propaga una perturbación transversal a lo largo de una
cuerda y cómo se refleja al llegar a un punto fijo que le impide seguir en el mismo
sentido, he fabricado un vı́deo en el que se simula el comportamiento de nuestra
cuerda cuando se introduce en ella una perturbación de 1,5 milésimas de segundo
de duración. Imaginemos que para iniciar la perturbación hemos desplazado, con
ayuda de un artilugio mecánico, 1 mm hacia arriba el soporte al que está sujeta
la cuerda por la izquierda y luego lo hemos hecho descender hasta su posición
140
original. Dado que la simulación está ralentizada 400 veces, la duración del impulso
en el vı́deo de nuestra simulación es de 0,6 segundos. Los 20 segundos que dura el
vı́deo corresponden a las primeras 50 milésimas de segundo del movimiento de la
supuesta cuerda real.
Para que se apreciara claramente en el vı́deo que la perturbación se invierte cuando
se refleja en los soportes fijos de los extremos, interesaba que el impulso inicial
fuera sólo hacia arriba, sin que al descender sobrepasara la posición de equilibrio
de la cuerda, de manera que antes de reflejarse por primera vez la perturbación
viajara sólo por la parte superior. Para ver cómo es el impulso que ha generado
la perturbación, es decir, el movimiento vertical que ha realizado el soporte de la
cuerda, presento una gráfica que muestra el desplazamiento del soporte en función
del tiempo.
Figura 8.1: Gráfica de la perturbación introducida.
Podemos apreciar que el desplazamiento del soporte es simétrico y que tiene forma
de campana de Gauss. Las unidades del eje horizontal corresponden al tiempo de
la simulación en el vı́deo.
Veamos ahora el vı́deo que simula el comportamiento de la cuerda.
141
Figura 8.2: Vı́deo que simula la propagación de una perturbación en una cuerda tensada
y su reflejo cuando alcanza un extremo fijo.
Podemos observar en el vı́deo que el movimiento vertical del soporte izquierdo

provoca una perturbación en la cuerda que se transmite a lo largo de ella por
la parte superior hasta alcanzar el soporte derecho. Allı́ la perturbación, al no
poder continuar, se refleja de modo invertido, regresando por la parte inferior
hasta alcanzar el soporte izquierdo, donde se vuelve a reflejar para invertirse de
nuevo y seguir por la parte superior. Dado que no hemos contemplado ningún tipo
de amortiguación, la propagación de la perturbación se repite constantemente,
reflejándose de modo invertido cada vez que alcanza un extremo.
La propagación de la perturbación es consecuencia de la elasticidad de
la cuerda. En nuestra simulación podemos apreciar que la elasticidad introduce
un retraso en la comunicación del movimiento de una bolita a la siguiente, de modo
que las bolitas van repitiendo sucesivamente, pero con su correspondiente demora,
el desplazamiento vertical del impulso inicial, como podemos apreciar en el vı́deo
si atendemos al movimiento individual de cualquiera de ellas. De esta manera el
movimiento temporal que ha realizado el soporte, la campana de Gauss que he-
mos visto en la figura 8.1, queda dibujado en el espacio. Ası́ mismo, la anchura
de la perturbación que dibuja la cuerda depende también de los retrasos que in-
troduce la elasticidad, los cuales determinan la velocidad con la que se propaga
cualquier perturbación a lo largo de esa cuerda. En la simulación ralentizada de
nuestro vı́deo, dado que la velocidad de transmisión es de 1 m/s y que el impulso
dura 0,6 segundos, la anchura de la deformación provocada en la cuerda es de 0,6
metros.
La reflexión se produce cuando la perturbación que se transmite a lo largo de la
cuerda encuentra un obstáculo que no puede mover. En nuestro caso, cuando la
142
perturbación llega al extremo derecho de la cuerda no puede desplazar el soporte.
Puesto que, según la Tercera Ley de Newton, la fuerza ejercida hacia arriba por
la cuerda sobre el soporte es la misma que la que el soporte ejerce hacia abajo
sobre la cuerda, el resultado es que el soporte, al no poder moverse, hace que la
cuerda rebote hacia abajo, con lo que la perturbación se invierte y retorna por
la parte inferior. La misma situación se repite cuando la cuerda llega de nuevo
al soporte izquierdo, el cual, una vez introducido el impulso inicial, ha quedado
también fijo. De nuevo la perturbación rebota y sigue su recorrido, ahora por la
franja superior.
Podemos también interpretar el fenómeno de la reflexión como el resultado de la
superposición de dos perturbaciones simétricas que viajaran en sentido opuesto a
lo largo de dos cuerdas virtuales. Esta forma de entenderlo es más intuitiva y nos
sirve para explicar los desplazamientos que sufre la cuerda en los momentos en los
que se solapa la perturbación incidente y la reflejada, lo cual nos va a facilitar el
estudio de las ondas estacionarias.
Estas dos cuerdas virtuales, que no estarı́an sujetas a ningún soporte, se prolon-
garı́an por un espacio imaginario que existirı́a más allá del obstáculo fijo en el que
se refleja la perturbación real. La prolongación serı́a igual a lo que mide la cuerda
real, por lo que las cuerdas imaginarias medirı́an el doble de ésta. Por una de estas
cuerdas imaginarias viajarı́a la perturbación incidente, que se prolongarı́a por el
espacio imaginario sin ser influida por la existencia del obstáculo; por la otra via-
jarı́a en sentido opuesto la perturbación reflejada, una perturbación idéntica a la
real, pero invertida, que se habrı́a originado simultánea y simétricamente en esta
segunda cuerda imaginaria. En todo momento el desplazamiento de cada punto
de la cuerda real serı́a el resultado de la superposición lineal de ambas cuerdas
virtuales.
Entenderemos mejor esta idea si imaginamos que en el punto del espacio en el que
se halla el obstáculo que la perturbación no puede mover —en nuestro caso, el
soporte derecho al que está fijada la cuerda— existiera una suerte de espejo que
separara el espacio real del espacio virtual. Veamos un vı́deo de carácter didáctico
en el que se ilustra lo que ocurre cuando la misma perturbación del vı́deo anterior
se refleja en el soporte derecho. Para poder apreciar los detalles, la velocidad del
vı́deo ha sido ralentizada 5 veces respecto al anterior.
143
Figura 8.3: Vı́deo que ilustra el reflejo especular de una perturbación que viaja por
una cuerda cuando alcanza un extremo fijo.
En el vı́deo podemos ver dos planos claramente diferenciados y separados por una
lı́nea blanca vertical que representa el espejo. A la izquierda aparece el plano de
la realidad, cuyo fondo está en color azul oscuro, el mismo color que el del resto
de los vı́deos que simulan el comportamiento de la cuerda, y a la derecha está el
plano virtual, el del otro lado del espejo, en color gris.
La cuerda está representada en el mundo de la realidad por las mismas bolitas y
gomillas que en el vı́deo anterior. Las dimensiones coinciden: la longitud es de 1
metro y la anchura de la perturbación es de 0,6 metros. Junto a la cuerda, por
encima y por debajo, vemos unas lı́neas de puntos que representan las cuerdas
imaginarias por donde viajan las perturbaciones virtuales. Ambas lı́neas deberı́an
coincidir exactamente con la cuerda, pero, para que resultara más fácil distinguir-
las, las he dibujado ligeramente por encima y por debajo de la cuerda real. Por
la lı́nea de arriba, en color amarillo, va la perturbación incidente, la que va de la
realidad al espejo, la cual continúa su camino cuando se encuentra con el soporte
fijo, como si no hubiera obstáculo alguno. Por la lı́nea de abajo, en color turquesa,
viaja la perturbación reflejada, la originada al otro lado del espejo y que se dirige
al plano de la realidad.
Observamos que, a la vez que se introduce una perturbación que afecta a la cuerda
real de nuestra simulación y a la lı́nea de puntos amarilla, al otro lado del espejo
se inicia la misma perturbación, pero invertida, una perturbación que viaja por
la lı́nea de puntos de color turquesa con la misma velocidad que la perturbación
original. Vemos que ambas perturbaciones siguen por su lı́nea de puntos como si
no hubiera ningún obstáculo, atravesando en el mismo instante la separación entre
la realidad y el mundo del espejo.
144
Vemos que la cuerda real, la que está formada por las bolitas, se comporta como
si fuera el resultado de sumar los desplazamientos de ambas perturbaciones vir-
tuales, la que va por la lı́nea de puntos amarilla y la que va por la lı́nea de puntos
turquesa. Esto es de especial interés para explicar lo que sucede en el tiempo en
el que la perturbación incidente y la reflejada se solapan. Podemos apreciar que
ambas perturbaciones, la incidente y la reflejada, alcanzan a la vez el soporte fijo
de la cuerda, es decir, la frontera entre el mundo imaginario y el real, y a partir
de ese momento empiezan a solaparse hasta que cada una termina de pasar total-
mente al otro lado. Esto ocurre porque ambas perturbaciones han sido producidas
simultáneamente a la misma distancia del punto del reflejo y viajan a la misma
velocidad. Ası́ mismo, puesto que una es la inversa de la otra, el valor de su super-
posición en el punto en el que se produce el reflejo (es decir, el valor de la suma de
sus desplazamientos individuales en el extremos fijo de la cuerda real) como era
de esperar, es siempre cero.
8.4. Superposición de dos perturbaciones que viajan en sen-

tido opuesto sobre una cuerda
Examinaremos a continuación el comportamiento de la cuerda cuando se cruzan
en ella dos perturbaciones que se desplazan en sentidos opuestos. He fabricado dos
vı́deos en los que podemos ver que cuando las dos perturbaciones se solapan, sus
desplazamientos se suman, pero que, una vez han terminado de cruzarse, cada una
de ellas continúa su camino sin sufrir ninguna modificación, como si no hubiera
ocurrido nada.
En ambos vı́deos las perturbaciones han sido ocasionadas por dos impulsos dados
simultáneamente en los dos extremos de la cuerda mediante el desplazamiento
vertical de los respectivos soportes. En el primer vı́deo (el de la figura 8.4 y su
repetición a cámara lenta en la figura 8.5) los dos impulsos desplazan la cuerda
hacia arriba, mientras que en el segundo vı́deo (el de la figura 8.6) el impulso de la
izquierda la desplaza hacia arriba y el impulso de la derecha la desplaza hacia abajo.
Por ello, en el primer caso las dos perturbaciones interfieren constructivamente,
mientras que en el segundo lo hacen destructivamente. Los impulsos son similares
a los que hemos visto en el vı́deo anterior, es decir, tienen forma de campana de
Gauss, y en la simulación ralentizada del vı́deo también duran 0,6 segundos. La
duración de los dos vı́deos es de 20 segundos, y corresponden a las primeras 50
milésimas de segundo del movimiento de la cuerda real. Para facilitar la distinción
de cada una de las perturbaciones, ahora la amplitud de cada uno de los impulsos
es diferente: el impulso izquierdo es de 1 mm y la del derecho es de 0,7 mm.
145
Empezaremos observando cómo se producen las interferencias constructivas.
Figura 8.4: Vı́deo que simula la interferencia constructiva de dos impulsos que viajan
a lo largo de una cuerda.
En este vı́deo podemos ver que las perturbaciones provocadas en la cuerda por
el desplazamiento hacia arriba de ambos soportes viajan por la parte superior
en sentidos opuestos, se superponen cuando se cruzan, continúan su camino sin
alterarse y se reflejan al llegar a los extremos fijos, viajando entonces ambas por
la parte de abajo. Para apreciar con detalle lo que sucede es necesario reconocer
primero cada una de las dos perturbaciones por separado. Puede servirnos de ayuda
ralentizar la velocidad del reproductor, tal como ocurre en el vı́deo de la figura
8.5, que es una repetición a cámara lenta de los momentos iniciales del vı́deo de la
figura 8.4.
Figura 8.5: Momentos iniciales del vı́deo de la figura 8.4 ralentizado cinco veces.
146
Este vı́deo auxiliar está ralentizado cinco veces respecto al anterior, lo que signi-
fica que la perturbación que vemos viaja 2.000 veces más despacio que la de la
cuerda real. Ahora podemos observar con más facilidad que cada una de las dos
perturbaciones, cuando no se solapa con la otra, mantiene la amplitud con la que
ha sido generada: la que procede de la izquierda es siempre de 1 mm y la que pro-
cede de la derecha es siempre de 0,7 mm. Vemos también que la perturbación más
amplia, la que procede de la izquierda, circula de izquierda a derecha cuando va
por la franja superior y de derecha a izquierda cuando va por la inferior, mientras
que la perturbación más pequeña, la que procede de la derecha, circula de derecha
a izquierda cuando viaja por la franja inferior y de izquierda a derecha cuando
lo hace por la franja superior. Dicho de otra forma, la perturbación mayor sigue
siempre el sentido de las agujas del reloj y la menor el sentido contrario al de las
agujas del reloj.
Una vez que hemos identificado ambas perturbaciones, podemos observar que
cuando se cruzan el desplazamiento que sufre cada punto de la cuerda
es la suma de los desplazamientos que hubiera provocado en ella cada
una de las perturbaciones por separado, es decir, las dos perturbaciones
se superponen linealmente. Como ambas perturbaciones viajan siempre por la
misma franja del espacio, las dos por arriba o las dos por abajo, interfieren entre sı́
de manera constructiva. Y puesto que las dos perturbaciones han comenzado a la
vez y se propagan a la misma velocidad, necesariamente se cruzan en la mitad de
su camino, en el punto que está a 0,5 m, y es en ese punto donde la perturbación
resultante alcanza su desplazamiento máximo. Dado que la amplitud de la pertur-
bación iniciada en el soporte izquierdo es de 1 mm y la provocada por el soporte
derecho es de 0,7 mm, la amplitud máxima de la perturbación resultante es de 1,7
mm, que corresponde a un desplazamiento ascendente de la cuerda cuando las per-
turbaciones se encuentran en la franja superior o a un desplazamiento descendente
cuando se encuentran en la franja inferior. Una vez superado su solapamiento cada
una de las perturbaciones sigue su camino conservando su individualidad. Hemos
podido observar que, como consecuencia de la elasticidad, la perturbación se sigue
transmitiendo a través de las fuerzas que ejercen unas bolitas sobre las siguientes,
por lo que, cuando cesa la coincidencia de ambas perturbaciones, cada una sigue
su camino.
Veamos ahora el vı́deo en el que podemos observar cómo se producen las interfe-
rencias destructivas.
147
Figura 8.6: Vı́deo que simula la interferencia destructiva de dos impulsos que viajan a
lo largo de una cuerda.
Este vı́deo solo se diferencia del de la figura 8.4 en que ahora los dos impulsos se
dan en sentidos verticales opuestos: mientras que el impulso del soporte izquierdo
desplaza la cuerda hacia arriba de su posición de equilibrio, el del soporte dere-
cho la desplaza hacia abajo. Esto hace que las perturbaciones no solo viajen en
sentidos opuestos a lo largo de la cuerda, sino que los desplazamientos verticales
provocados por las perturbaciones siempre sean opuestos. Podemos observar que
ambas perturbaciones se desplazan ahora en el sentido de las agujas del reloj, pero
que cuando una se propaga por la franja superior, la otra lo hace por la inferior,
y viceversa. Por eso, cuando ambas se cruzan en el punto central de la cuerda, el
desplazamiento que sufre ésta es la diferencia de las amplitudes de ambas pertur-
baciones. Podemos apreciar que cuando la superposición de las dos perturbaciones
coincide plenamente, el desplazamiento del punto central de la cuerda es de 0,3
mm (1 – 0,7 = 0,3), hacia arriba o hacia abajo en función de la franja por la que
circulen las perturbaciones. También ahora vemos que, una vez que ha concluido
el cruce, cada perturbación sigue su camino sin haber sufrido ninguna alteración,
hasta reflejarse en el extremo correspondiente.
8.5. Formación de ondas estacionarias sobre una cuerda

Una vez que hemos estudiado la propagación, la reflexión y la superposición de las
perturbaciones que viajan sobre una cuerda fija, estamos en condiciones de com-
prender cómo y en qué circunstancias se crean las ondas estacionarias. Y puesto que
los sonidos musicales son el resultado de un conjunto armónico de ondas estaciona-
148
rias, entender cómo se producen estas ondas nos permitirá conocer verdaderamente
qué es el sonido musical.
Un movimiento ondulatorio transmite una perturbación de un lugar a otro del
espacio, es decir, por naturaleza es viajero. Ahora bien, cuando una onda sinusoidal
queda atrapada en algún cuerpo o en alguna región del espacio —como puede ser
la cuerda de una guitarra o la columna de aire de una flauta—, las sucesivas
interferencias de la onda con su reflejo pueden hacer que su carácter viajero quede
disimulado y parezca que la onda se hubiera detenido. En ese momento, el cuerpo o
el volumen de aire de la región del espacio en el que la onda ha quedado encerrada
comienza a oscilar y la onda viajera se transforma en onda estacionaria.
A continuación vamos examinar, mediante varios vı́deos que he fabricado para
ello, cómo surgen las ondas estacionarias en la cuerda que nos está sirviendo de
modelo. Dado que las ondas estacionarias son el resultado de la superposición de
las sucesivas reflexiones de una onda sinusoidal, vamos a introducir en la cuerda
oscilaciones sinusoidales, en lugar del impulso gaussiano que hemos utilizado en
los vı́deos anteriores. Para ello, supondremos que mediante un artilugio mecánico
obligamos al soporte que sujeta el extremo izquierdo de la cuerda a realizar un
Movimiento Armónico Simple (MAS).
Nuestro objetivo va a ser comprobar que, cuando se introduce una oscilación
sinusoidal en una cuerda concreta —definida por su longitud y por la velo-
cidad con la que se propagan en ella las perturbaciones transversales—, sólo se
producirán ondas estacionarias si la longitud de la onda creada coincide
con el doble de la longitud de la cuerda o si es una parte entera de esta
medida. O dicho de otra manera, se generarán ondas estacionarias cuando dentro
de la longitud de la cuerda quepan exactamente un número entero de semiondas
sinusoidales. En los vı́deos de este apartado podremos observar que esto solamente
sucede cuando en el tiempo que tarda en completarse una oscilación sinusoidal,
la onda recorre exactamente el camino de ida y vuelta a lo largo de la cuerda o
una parte entera de este camino. Veremos, ası́ mismo, que las frecuencias de las
ondas estacionarias que se pueden producir en una cuerda dada siguen
la serie armónica, pues todas ellas son múltiplos de la frecuencia funda-
mental, que es la frecuencia de la onda estacionaria cuya longitud es el
doble de la longitud de la cuerda.
Recordemos que la cuerda ideal sobre la que estamos haciendo la simulación mide
un metro de longitud y que la velocidad con la que se propaga por ella cualquier
perturbación transversal es de 400 m/s. Por ello, en los vı́deos ralentizados 400
veces, la velocidad de la propagación de la onda que observaremos será de 1 m/s, y
la duración de 20 segundos corresponderá a las primeras 50 milésimas de segundo
149
de la vibración real. En los vı́deos ralentizados 2.000 veces, la velocidad de propa-
gación será de 0,2 m/s y la duración de 30 segundos representará las primeras 15
milésimas de segundo del movimiento real de la cuerda. En todos ellos la amplitud
de las oscilaciones sinusoidales introducidas es de 1 mm.
8.5.1. Reflexión de una onda sinusoidal cuya longitud no es una parte

entera del doble de la longitud de la cuerda
Pero antes de estudiar las ondas estacionarias vamos a examinar cómo se produce la
reflexión de una onda sinusoidal en un extremo fijo de la cuerda cuando la longitud
de la onda introducida no es una parte entera del doble de la longitud de la cuerda.
Como lo que nos interesa ahora es ver lo que sucede al solaparse la onda incidente
con la reflejada, elegiremos una onda cuya longitud sea menor que la longitud de
la cuerda. De esta manera, podremos apreciar por separado los momentos en los
que se produce el solapamiento de las dos ondas (la incidente y la reflejada) y
los momentos en los que solo está presente una de ellas. Por ello, he elegido una
onda cuya longitud es de 0,6 metros, la misma que la del impulso gaussiano de
los apartados anteriores. El periodo de la oscilación introducida tendrá que ser,
por lo tanto, de 1,5 ms. En efecto, dado que la velocidad de propagación de las
perturbaciones transversales en nuestra cuerda es de 400 m/s, cuando la oscilación
del soporte termine, la onda habrá recorrido 0,6 m (0,0015 x 440 = 0,6). Aunque
no sea relevante en este caso, este periodo corresponde, redondeando a décimas de
hercio, a una frecuencia de 666,7 Hz.
Ası́ pues, he confeccionado un vı́deo en el que se simula el comportamiento de
nuestra cuerda ideal cuando introducimos en ella esta única oscilación sinusoidal
de 1,5 ms de periodo. Puesto que este vı́deo está ralentizado 400 veces, la duración
de la oscilación inicial que observaremos en él será de 0,6 segundos.
150
Figura 8.7: Vı́deo que simula ralentizada 400 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es inferior a la longitud de
la cuerda y no es una parte entera del doble de esta longitud.
En el vı́deo vemos que una perturbación en forma de onda sinusoidal que ha sido
generada por el desplazamiento vertical del soporte izquierdo recorre ininterrum-
pidamente la longitud de la cuerda, reflejándose de forma invertida cada vez que
alcanza uno de los extremos fijos. A diferencia de los vı́deos anteriores, ahora nos
sorprende el carácter artificial del movimiento que realiza la cuerda. Ello se debe
a la introducción repentina de una única oscilación sinusoidal y a su cese ins-
tantáneo, sin transición alguna, ni al comienzo ni al final. Aunque he procurado
dotar de la mayor verosimilitud posible al movimiento de la cuerda, no podemos
olvidar que estamos ante una simulación de carácter didáctico, en la que es nece-
sario aislar el fenómeno que nos interesa estudiar, aun a consta de una apariencia
artificiosa.
Distinguimos en el vı́deo dos situaciones claramente diferenciadas: los momentos
en los que la onda va y viene por el medio de la cuerda y los momentos en los
que esa onda se deforma, dando lugar a una fugaz semionda, cuando se refleja
en los soportes de los extremos. Respecto a los primeros, no hay nada que no
hayamos visto antes. Observamos cómo la oscilación provocada por el movimiento
armónico simple que ha realizado el soporte, se dibuja en la cuerda en forma de
onda sinusoidal. Si pensamos en los tiempos en los que suceden los acontecimientos
en el vı́deo, podemos verificar también que la longitud de la onda introducida es de
0,6 metros. Puesto que la velocidad con la que se propagan las perturbaciones en
la cuerda del vı́deo es de 1 m/s, en los 0,6 segundos que ha tardado la oscilación en
completarse, la onda introducida habrá recorrido 0,6 m. En efecto, si detenemos
el vı́deo en cualquier instante en el que la onda se encuentre en una posición
intermedia, podremos comprobar que su longitud es de 0,6 metros.
151
Como lo que nos interesa ahora en particular es estudiar lo que sucede en los
momentos en los que se produce la reflexión de la onda en cada uno de los soportes
fijos en los que termina la cuerda, he fabricado un vı́deo auxiliar con el movimiento
de la cuerda ralentizado 5 veces más que en el vı́deo anterior. En él se representan
también las dos cuerdas imaginarias que hemos visto en el vı́deo de la figura 8.3,
pues nos sirven para interpretar la reflexión como la superposición de dos ondas
virtuales, la incidente y la reflejada, que viajarı́an por ellas.
Figura 8.8: Vı́deo que simula ralentizada 2.000 veces la propagación a lo largo de una
cuerda de una perturbación sinusoidal cuya longitud de onda es inferior a la longitud
de la cuerda y no es una parte entera del doble de esta longitud, con el añadido de dos
cuerdas virtuales que ilustran lo que sucede en la reflexión.
Igual que en el vı́deo anterior, vemos que sobre la cuerda real —representada por
las bolitas unidas por muellecillos— se desplaza una onda sinusoidal que se refleja
cada vez que alcanza uno de los extremos fijos. Vemos también dos cuerdas vir-
tuales que no están sujetas a ningún soporte y que, como en el vı́deo de la figura
8.3, debemos imaginar prolongándose por ambos lados a través de un espacio ima-
ginario que no está representado en este vı́deo. Por la cuerda amarilla viaja, de
izquierda a derecha, la perturbación original en los primeros segundos del vı́deo,
y luego los sucesivos reflejos que se producen en el soporte izquierdo (esto es, las
ondas sinusoidales provenientes del otro lado del hipotético espejo situado a la
izquierda de la cuerda). Por la cuerda turquesa viajan, de derecha a izquierda, las
ondulaciones reflejadas en el soporte derecho (es decir, las ondas que llegan desde
el espacio imaginario de la derecha), las cuales son del mismo periodo, amplitud
y longitud de onda que las de la cuerda amarilla, pero invertidas. Ya he expli-
cado, a propósito del vı́deo de la figura 8.3, la razón por la que la suma de los
152
desplazamientos de las cuerdas auxiliares en los puntos extremos fijos es siempre
cero.
Ahora vamos a prestar atención a lo que sucede cuando se produce la superposición
entre la onda incidente y la reflejada en los extremos fijos de la cuerda. Si nos
fijamos en el soporte de la derecha, vemos que en el momento en el que la onda
que viaja por la cuerda amarilla comienza a atravesar el soporte, también lo hace
la onda turquesa que, invertida, proviene del otro lado del supuesto espejo. Como
una onda es la inversa de la otra y ambas viajan a la misma velocidad en sentidos
opuestos, en el momento en el que ambas están a la mitad del cruce, las dos,
que en ese momento tienen la forma de una semionda sinusoidal inferior, coinciden
exactamente. Lo mismo sucede en el soporte derecho, con la única diferencia de que,
en ese caso, las semiondas que coinciden son las superiores. En ambos momentos,
vemos que la cuerda adquiere su desplazamiento máximo, hacia abajo o hacia
arriba, respectivamente.
Veamos una instantánea de este último vı́deo que representa un momento in-
mediatamente anterior a producirse la coincidencia exacta de las dos ondas vir-
tuales cuando se cruzan en el soporte derecho (si fuera en el momento exacto
no podrı́amos distinguir las dos cuerdas virtuales, pues coincidirı́an exactamen-
te).
Figura 8.9: Instantánea del vı́deo de la figura 8.8 en el momento anterior a producirse
la coincidencia entre la semionda incidente y la reflejada.
153
En la figura podemos observar que en el momento de la coincidencia, tanto la onda
incidente como la reflejada tienen la forma de una semionda sinusoidal inferior.
Teniendo en cuenta que la suma de dos ondas sinusoidales de la misma fase es
también una onda sinusoidal de la misma fase cuya amplitud es la suma de las
amplitudes de las dos ondas componentes, la cuerda real adquiere también la forma
de una semionda sinusoidal de la misma fase, cuya amplitud es el doble de la de
las ondas virtuales. En la gráfica vemos que la semionda formada en la cuerda real,
la de las bolitas, tiene una amplitud de 2 mm, el doble de la que tiene la onda
cuando no está solapada.
Resumiendo, mediante los vı́deos de las figuras 8.7 y 8.8 hemos podido observar
que las semiondas creadas en la cuerda real en cada reflexión duran
solamente un instante, pues a continuación esa semionda fugaz se diluye
y se dibuja de nuevo en la cuerda la forma de la onda completa. Ası́
pues, la onda sigue siendo viajera, pues en esta cuerda la oscilación
introducida no ha generado una onda estacionaria.
8.5.2. Generación de una onda estacionaria en el modo fundamental

de vibración
A continuación examinaremos lo que sucede al introducir en la cuerda, mediante el

desplazamiento vertical del soporte izquierdo, una oscilación de un periodo tal que
sea capaz de generar en ella una onda sinusoidal de longitud doble de lo que mide
la cuerda. Veremos que cuando la onda termine de realizar por primera
vez su recorrido de ida y vuelta a lo largo de la cuerda, su carácter
viajero quedará enmascarado y la cuerda entera comenzará a oscilar de
forma unitaria, realizando un movimiento armónico simple de la misma
frecuencia que la de la oscilación inicial que la ha generado. Cuando esto
ocurre decimos que se ha producido una onda estacionaria en el modo fundamental
de vibración o primer modo.
Para generar una onda estacionaria de estas caracterı́sticas en la cuerda que nos
sirve de modelo (que, recordemos, mide 1 metro y tiene una velocidad de propa-
gación de 400 m/s), la longitud de la onda sinusoidal que viaje por ella deberá
tener 2 metros y, por lo tanto, el periodo de la oscilación inicial que deberemos
introducir tendrá que ser de 5 milésimas de segundo. En efecto, en 5 ms la onda
habrá recorrido los 2 metros que mide el camino de ida y vuelta a lo largo de
la cuerda (440 x 0,005 = 2). La frecuencia de la oscilación será, pues, de 200 Hz
(1/0,005 = 200).
154
Como en los casos anteriores, he fabricado un vı́deo que reproduce, ralentizado 400
veces, el movimiento de la cuerda en estas condiciones. El periodo de la oscilación
inicial que observaremos en el vı́deo será, por lo tanto, de 2 segundos y su frecuencia
de 0,5 Hz. La velocidad de propagación que veremos será de 1 m/s.
cuerda de una perturbación sinusoidal cuya longitud de onda es el doble de la longitud
de la cuerda.
Al igual que en el vı́deo de la figura 8.7, como consecuencia de la superposición

de la onda con su reflejo, se crea en la cuerda una semionda sinusoidal inferior.
La diferencia reside en que ahora la semionda abarca la cuerda entera y en que
la cuerda conserva la forma de semionda durante toda la duración del vı́deo, al-
ternándose entre semionda inferior y semionda superior. Aparentemente ya no se
transmite ninguna perturbación por la cuerda; en su lugar, oscila la cuerda en su
conjunto como un todo, repitiendo toda ella el movimiento oscilatorio que ha sido
introducido por el soporte. La onda ha dejado de viajar a lo largo de la cuerda y
se ha transformado en una onda estacionaria. La frecuencia con la que oscila la
cuerda es la misma que la de la oscilación que la ha generado, en nuestro vı́deo,
que está ralentizado 400 veces, es 0,5 Hz. En efecto, podemos observar que cada 2
segundos la cuerda realiza una oscilación completa.
Vemos también que, una vez formada la onda estacionaria, cada punto de la cuerda
oscila de forma sinusoidal, en fase con todos los demás, con una amplitud que es
siempre la misma para cada punto y que depende únicamente de su posición en
la cuerda. Observamos que los puntos extremos permanecen fijos y que el punto
situado en la mitad de la cuerda es el que alcanza la mayor amplitud.
155
La pregunta que tenemos que responder ahora es: ¿Por qué se ha producido esto?
Para entender con más detalle lo que ocurre vamos a ver un vı́deo que describe,
cinco veces más despacio que el vı́deo anterior, los momentos iniciales en los que
se crea la onda estacionaria. En él aparecen las cuerdas virtuales que hemos visto
antes y que nos van a ayudar a entender cómo las constantes interferencias entre
las ondas reflejadas en ambos extremos fijos dan lugar a la onda estacionaria.
cuerda de una perturbación sinusoidal cuya longitud de onda es el doble de la longitud
de la cuerda, con el añadido de dos cuerdas virtuales que ilustran lo que sucede en la
reflexión.
Con ayuda de las cuerdas virtuales auxiliares, en el vı́deo podemos ver que lo que
está sucediendo por debajo de esa apariencia de estabilidad es que los sucesivos
reflejos de la onda viajera están interfiriendo entre sı́, dando lugar a la formación de
esa onda que parece haberse detenido. En el vı́deo vemos que, como consecuencia
de los sucesivos reflejos, la onda sinusoidal amarilla viaja ininterrumpidamente de
izquierda a derecha, y la turquesa de derecha a izquierda.
En los momentos iniciales del vı́deo, podemos apreciar que cuando la onda inci-
dente, la de color amarillo, alcanza el soporte derecho, comienza a surgir invertida
la onda reflejada, la de color turquesa. Como he explicado a propósito del vı́deo de
la figura 8.8, cuando ambas ondas imaginarias completan la mitad de su recorrido,
coinciden plenamente y la cuerda real, la de las bolitas, adquiere la forma de una
semionda sinusoidal inferior. Dado que, en este caso, la longitud de la onda es de
2 metros, la semionda abarca la longitud entera de la cuerda y, por lo tanto, se
termina de formar en el instante exacto en el que el soporte izquierdo ha com-
156
pletado su oscilación. Esta coincidencia —que se produce como consecuencia de
que el periodo de la oscilación introducida y la velocidad de propagación de la
cuerda dan lugar a una onda de longitud doble que la de la cuerda— es la causa
de que la cuerda comience a oscilar de forma unitaria y se cree una onda estacio-
naria en el primer modo de vibración. Veamos en la figura de abajo el momento
inmediatamente anterior a la formación de esta semionda sinusoidal.
la coincidencia entre la semionda incidente y la reflejada.
Vemos que la cuerda entera está a punto de adquirir la forma de una semionda
sinusoidal y que, al coincidir las dos ondas virtuales, su amplitud alcanza el valor
máximo, 2 mm.
Tenemos que entender ahora por qué esta forma que adquiere la cuerda no se
diluye, como en el caso del vı́deo de la figura 8.8, sino que la ondulación de la
cuerda va modificando su amplitud y alternando su forma entre una semionda
inferior y una semionda superior.
Para ello, tenemos que tener presente que la suma de dos ondas sinusoidales de la
misma longitud de onda es otra onda sinusoidal de esa misma longitud, cuya ampli-
tud depende de la diferencia de fase entre las dos ondas componentes. Al viajar las
dos ondas en dirección opuesta, el desplazamiento hacia la derecha de la onda que
va por la cuerda amarilla es compensado por el desplazamiento hacia la izquierda
de la onda turquesa, por lo que la cuerda real, la de las bolitas, siempre conserva
157
la misma fase, manteniendo, por lo tanto, la forma de una semionda sinusoidal.
Puesto que las dos ondas auxiliares viajan a la misma velocidad en direcciones
opuestas, siempre se cruzan en el medio, pasando de coincidir plenamente, cuando
ambas cuerdas virtuales forman una semionda inferior o superior, a oponerse por
completo, dando lugar a que la cuerda adquiera, en el instante en el que pasa por
la posición de equilibrio, la forma rectilı́nea.
Dicho de otra manera, las cuerdas auxiliares pasan continuamente de estar en fase
a estar en oposición de fase. Pero siempre los adelantos de una se compensan con
los retrasos de la otra, por lo que la resultante, la de la cuerda real, es siempre una
semionda inferior o una semionda superior, según sea la zona en la que coincidan
las ondas virtuales. Los desfases entre las ondas virtuales se traducen en diferencias
de amplitud de la onda resultante: cuando ambas están en fase —es decir, cuando
coinciden— la amplitud es máxima, como hemos visto en la figura 8.12; conforme
se desfasan, yendo una hacia la derecha y la otra hacia la izquierda, la amplitud de
la cuerda real disminuye; y cuando llegan a estar en oposición de fase, la amplitud
se anula y en ese instante la cuerda recobra su forma rectilı́nea, como se puede ver
en la figura de abajo.
la oposición entre la semionda incidente y la reflejada.
Por otra parte, dado que el desplazamiento de cualquier punto de la cuerda real es
la suma de los desplazamientos de los puntos correspondientes de la onda incidente
158
y la reflejada, en toda onda estacionaria hay puntos cuyo desplazamiento es siempre
nulo y otros cuyo desplazamiento alcanza el valor máximo. Los puntos que son
fijos se denominan nodos, y en este modo fundamental de vibración son sólo los
puntos extremos de la cuerda. Los puntos que oscilan con una amplitud máxima se
denominan vientres o antinodos, y en este modo, sólo lo es el punto medio, aquél
en el que siempre se cruzan las dos ondas virtuales. La amplitud con la que oscila
este punto es el doble de la amplitud de la oscilación introducida, en este caso
podemos ver que es de 2 mm.
Ası́ pues, el modo primero de vibración se caracteriza porque la cuerda
entera oscila de forma unitaria. En consecuencia, tiene un solo vientre
en el punto central de la cuerda y dos nodos que están situados en los
puntos extremos. La frecuencia de este primer modo de vibración es
la que corresponde a una longitud de onda doble de la longitud de la
cuerda. En nuestra cuerda ideal, sobre la que estamos realizando la simulación,
la frecuencia de este primer modo de vibración es de 200 Hz.
8.5.3. Generación de ondas estacionarias en los modos de vibración

armónicos
Ahora vamos a comprobar que también se producen ondas estacionarias en nues-

tra cuerda cuando la oscilación que introducimos al desplazar el soporte izquierdo
da lugar a una onda cuya longitud es una parte entera del doble de la longitud
de la cuerda. O, dicho de otra manera, cuando introducimos oscilaciones sinusoi-
dales cuyo periodo es tal que, al reflejarse la perturbación en los extremos fijos
de la cuerda, se crean un número entero de semiondas. Para que este requisito se
cumpla, el periodo de las oscilaciones iniciales tendrá que ser la mitad, la tercera
parte, la cuarta parte o cualquier parte entera del periodo que ha producido la
onda estacionaria en el modo de vibración fundamental. Por ello, la frecuencia
de estas oscilaciones iniciales —que será la misma con la que oscilará la cuerda
cuando se formen en ella las ondas estacionarias— tendrá que ser el doble, el tri-
ple, el cuádruple o cualquier otro múltiplo entero de la frecuencia fundamental
de vibración. Ello explica que estos modos naturales de vibración se denominen
armónicos.
Vamos a detenernos a continuación en observar cómo se produce el segundo modo
de vibración y luego generalizaremos los conceptos aprendidos al resto de los modos
armónicos.
Para lograr que nuestra cuerda ideal se ponga a vibrar en el segundo modo de
vibración, la longitud de la onda que deberemos generar tendrá que ser de 1 metro.
159
Por ello, el periodo con el que deberá oscilar el soporte izquierdo para introducir
la perturbación tendrá que ser de 2,5 ms. En efecto, dado que la velocidad de la
cuerda es de 400 m/s, en 2,5 ms la onda habrá recorrido 1 metro (400 x 0,0025
= 1). La frecuencia de la oscilación inicial será, por lo tanto, de 400 Hz. Tenemos
que tener en cuenta también que, para que se produzca el solapamiento de la onda
incidente con la reflejada en el segundo modo de vibración, deberemos introducir
en la cuerda dos oscilaciones completas.
He fabricado un vı́deo que simula el comportamiento de nuestra cuerda ideal cuan-
do se introducen en ella dos oscilaciones sinusoidales de ese periodo de 2,5 ms.
También ahora el movimiento de la cuerda está ralentizado 400 veces, con lo cual
el periodo de la oscilación que observaremos será de 1 segundo y su frecuencia, por
lo tanto, de 1 Hz.
cuerda de una perturbación sinusoidal cuya longitud de onda es la misma que la longitud
de la cuerda.
En el vı́deo podemos observar que en el mismo instante en el que el soporte iz-

quierdo ha terminado de realizar las dos oscilaciones y se ha quedado fijo, en la
cuerda se han formado dos semiondas, una inferior y otra superior, es decir, se ha
creado una onda sinusoidal entera. De modo similar a lo que hemos visto en el
caso de la onda estacionaria en el modo fundamental de vibración, a partir de ese
momento desaparece el carácter viajero de la onda y la cuerda comienza a oscilar.
La diferencia reside en que ahora oscila como si estuviera dividida en dos partes.
La forma que adquiere la cuerda en su oscilación es la de una onda completa.
160
Ahora hay un nuevo punto fijo, un nodo, que está en el medio de la cuerda (con
lo que en total hay tres nodos), y dos puntos de desplazamiento máximo, dos
antinodos o vientres, que están en la mitad de cada semionda, uno a 0,25 m y el
otro a 0,75 m.
La frecuencia con la que vemos oscilar la cuerda en este vı́deo es el doble de la que
tenı́a en el anterior: ahora es de 1 Hz, que corresponde, en la cuerda de la realidad,
a 400 Hz. Esta frecuencia es la misma que la de las oscilaciones iniciales que han
generado la onda estacionaria.
Dado que en el modo segundo de vibración la cuerda adquiere la forma de una on-
da sinusoidal completa, podremos apreciar más claramente cómo surge una onda
estacionaria. Para verlo con más detalle he fabricado un vı́deo con los momentos
iniciales del movimiento de la cuerda, ralentizados 5 veces respecto al vı́deo ante-
rior o, lo que es lo mismo, 2.000 veces respecto al movimiento de la cuerda real.
Este vı́deo corresponde a las primeras 15 milésimas de segundo del movimiento
de la cuerda real. También ahora la cuerda real, representada por las bolitas, va
acompañada de las cuerdas virtuales auxiliares, la amarilla y la azul turquesa.
cuerda de una perturbación sinusoidal cuya longitud de onda es la misma que la longitud
de la cuerda, con el añadido de dos cuerdas virtuales que ilustran lo que sucede en la
reflexión.
Puesto que ahora la longitud de la onda es la misma que la de la cuerda, podemos

observar que justamente cuando la perturbación inicial —que viaja de izquierda a
derecha por la cuerda auxiliar amarilla— alcanza el soporte derecho, se termina de
formar en la cuerda una onda sinusoidal completa. Luego, justo cuando empieza a
161
surgir en la cuerda la segunda ondulación sinusoidal desde el soporte izquierdo, esa
primera perturbación se refleja en el soporte derecho y regresa invertida, de derecha
a izquierda, por la cuerda virtual turquesa. Podemos ver después que, en el instante
en el que la primera onda ha terminado de recorrer el camino de ida y vuelta a
lo largo de la cuerda y ha alcanzado de nuevo el soporte izquierdo, la segunda
onda ha llegado al soporte derecho. En ese mismo instante, la onda incidente y la
reflejada coinciden plenamente y la cuerda real dibuja la forma entera de una onda
o, lo que es lo mismo, la de dos semiondas opuestas consecutivas. En la figura de
abajo se muestra el instante previo a esta coincidencia.
la coincidencia entre la onda incidente y la reflejada.
En la figura podemos apreciar que en ese instante las cuerdas virtuales práctica-
mente coinciden, con lo que, al sumarse los desplazamientos de ambas, el despla-
zamiento vertical de cada uno de los puntos de la cuerda real alcanza su valor
máximo, dando como resultado una onda sinusoidal cuya amplitud es el doble de
la amplitud de la oscilación introducida, es decir, 2 mm.
Si volvemos al vı́deo de la figura 8.15, podemos fijarnos en que, a partir del momen-
to en el que la cuerda adquiere la forma de una onda completa, el desplazamiento
hacia la derecha de la onda virtual incidente —la que viaja por la cuerda amari-
lla— es compensado por el desplazamiento hacia la izquierda de la onda virtual
reflejada —la que viaja por la cuerda turquesa—, de modo que desde ese momento
162
la cuerda, que parece estar dividida en dos partes, oscila de forma estable, como
si ya no se propagara ninguna perturbación por ella.
Atendamos ahora a lo que ocurre cuando la cuerda oscila. Nos damos cuenta de
que pasa por dos situaciones extremas. Una es el momento en el que las cuerdas
auxiliares coinciden completamente, con lo que la ondulación de la cuerda real
alcanza su máxima amplitud, como hemos visto en la figura 8.16; otra es el mo-
mento en el que las cuerdas virtuales están en oposición de fase, con lo que los
desplazamientos de todos los puntos de la cuerda se anulan y ésta pasa por su
posición de equilibrio, como podemos ver en la figura de abajo.
la oposición entre la onda incidente y la reflejada.
En el vı́deo de la figura 8.15 podemos apreciar que, como consecuencia también de

que ambas ondas virtuales se desplazan a la misma velocidad en sentidos opuestos,
se cruzan siempre en los mismos puntos y se oponen siempre en los mismos puntos.
Dado que el desplazamiento de cualquier punto de la cuerda real es la suma de
los desplazamientos de los puntos correspondientes de las cuerdas virtuales, los
puntos en los que éstas se cruzan oscilan con la máxima amplitud y son los vientres
o antinodos de la onda estacionaria, mientras que los puntos en los que siempre
se oponen permanecen fijos y constituyen los nodos. En la figura 8.17 podemos
ver que las ondas virtuales se cruzan en 0,25 m y 0,75 m, que corresponden a los
163
vientres de la onda real que hemos visto en el vı́deo, y se oponen en 0 m, 0,5 m y
1 m, que corresponden a los nodos de la onda real.
Podemos generalizar las ideas que hemos visto respecto al primero y segundo
modo de vibración a cualquier caso en el que la frecuencia de las oscilaciones
iniciales sea múltiplo de la frecuencia del modo fundamental. En cualquiera de esos
modos de resonancia armónicos, la longitud de la onda generada por la oscilación
inicial será necesariamente una parte entera del doble de la longitud de la cuerda
(que, recordemos, coincide con la longitud de la onda en el modo de resonancia
fundamental), de forma que la cuerda entera oscilará dividida en tantas partes
como semiondas se puedan formar en ella.
En el vı́deo de abajo se simula la generación de una onda estacionaria en el tercer
modo de vibración. El periodo de las oscilaciones introducidas tendrá que ser, en
este caso, la tercera parte del periodo necesario para producir la onda estacionaria
en el modo fundamental, es decir, 5/3 ms. Por ello, la frecuencia correspondiente
será el triple de la frecuencia fundamental, esto es, 600 Hz, si bien, al estar el
vı́deo ralentizado 400 veces, la frecuencia que observaremos en él será de 1,5 Hz.
La longitud de la onda será también la tercera parte del doble de la longitud de
la cuerda, esto es, 2/3 m, es decir, redondeando a milı́metros, 0,667 m. Para que
se solapen completamente la onda introducida con su reflejo necesitaremos ahora
tres oscilaciones iniciales.
cuerda de una perturbación sinusoidal cuya longitud de onda es la tercera parte del doble
de la longitud de la cuerda.
164
Podemos observar que, al terminar de completarse las tres oscilaciones iniciales del
soporte, la cuerda comienza a vibrar sin que parezca que se propague ya ninguna
perturbación por ella. En este caso la cuerda adquiere la forma de tres semiondas
sinusoidales, consecutivas y opuestas, que oscilan al ritmo de la frecuencia intro-
ducida. Vemos que en este modo estacionario de vibración se forman 4 nodos —en
los puntos 0, 0,3333, 0,6666 y 1—, que dividen la cuerda en tres partes, y tres
vientres entre los nodos. Puesto que la frecuencia que resulta es el triple de la
del modo primero de vibración, cuando es excitado este modo, producirá el tercer
armónico.
Algo parecido podrı́amos hacer para generar el cuarto modo de vibración, con la
diferencia de que deberı́amos introducir cuatro oscilaciones. En ese caso el periodo
de la oscilación introducida deberá ser la cuarta parte del periodo fundamental y
su frecuencia, cuádruple, es decir, deberá tener un periodo de 1,25 ms y, por lo
tanto, una frecuencia de 800 Hz. Ello dará lugar a una longitud de onda de 0,5 m.
Veámoslo en un nuevo vı́deo.
cuerda de una perturbación sinusoidal cuya longitud de onda es la mitad de la longitud
de la cuerda.
La frecuencia representada en el vı́deo es de 2 Hz, pues el movimiento de la cuerda

está ralentizado 400 veces respecto a la vibración real que está simulando. Pode-
mos observar que en las ondas estacionarias que se forman en el cuarto modo de
vibración hay 5 nodos —en los puntos 0, 0,25, 0,5, 0,75 y 1—, que dividen la cuer-
da en cuatro semiondas, y cuatro vientres entre los nodos. Ası́ pues, la frecuencia
de 800 Hz, que es cuatro veces la del modo primero de vibración de esta cuerda,
corresponde al cuarto armónico.
165
Y algo similar podrı́amos observar en los restantes modos de vibración. Su número,
en principio, serı́a infinito. En la realidad, sin embargo, la pérdida de elasticidad
de la cuerda para longitudes de onda pequeñas hace que el número de modos
armónicos de vibración sea limitado.
De los vı́deos que hemos visto en este apartado dedicado a la formación de ondas
estacionarias podemos sacar la conclusión de que la cuerda fija en sus extremos
tiene la propiedad de crear ondas estacionarias a frecuencias que son
múltiplos enteros de una frecuencia fundamental determinada, es decir,
en modos de vibración armónicos. La frecuencia fundamental depende tanto
de la velocidad de propagación de la perturbación a lo largo de esa cuerda, como
de la longitud de ésta. El periodo de la oscilación que da lugar a la frecuencia
fundamental coincide con el tiempo que tarda la perturbación en realizar el camino
de ida y vuelta a lo largo de la cuerda. Y también se crean ondas estacionarias
cuando se introducen 2, 3, 4 o cualquier número entero de oscilaciones en ese
tiempo que tarda la perturbación en ir y volver. Eso quiere decir que la cuerda
tiene unos modos naturales de vibración, los cuales son también llamados modos de
resonancia. A continuación veremos por qué se llaman ası́ y lo que sucede cuando
son excitados.
8.6. La resonancia
Cualquier músico ha sufrido alguna vez la desagradable experiencia de que algún
objeto de su entorno empezaba a emitir un sonido cuando daba una determinada
nota con su instrumento, sin que le resultara nada sencillo determinar su proce-
dencia. Al cabo, se ha encontrado con un cenicero metálico, una lámpara de cristal
o un objeto cualquiera que estaba vibrando. Ocurrı́a simplemente que el objeto
en cuestión resonaba con la nota musical que estaba emitiendo el instrumento: la
vibración producida por esa nota tenı́a un componente frecuencial que coincidı́a
con alguna de las frecuencias naturales de vibración del objeto, de modo que éste
se ponı́a a resonar.
La resonancia se produce porque un cuerpo que vibra excita a otro que es capaz de
vibrar. Un cuerpo entra en resonancia cuando alguna de las frecuencias
del sistema excitador coincide con alguna de las frecuencias naturales
de vibración que ese cuerpo posee, de modo que la perturbación no se
limita a pasar a través de él, sino que se retroalimenta positivamente,
dando lugar a una onda estacionaria cuya amplitud se va incrementando
con el paso del tiempo. La resonancia despierta los modos de vibración que por
166
naturaleza posee cada objeto y por eso a estos modos normales o naturales de
vibración se les llama también modos de resonancia.
Un ejemplo tomado de la vida cotidiana que nos puede servir para comprender
el fenómeno de la resonancia es el de un columpio. Pensemos que tenemos a un
niño columpiándose y queremos que cada vez gane más altura y que el columpio
se balancee más y más. El columpio, al igual que cualquier péndulo, tiene una
frecuencia natural de oscilación, la cual depende de su longitud. Si empujamos el
columpio de forma periódica, haciendo que nuestros impulsos se produzcan siempre
en el mismo estado de la oscilación, el columpio irá ganando en altura; si, por el
contrario, impulsamos el columpio cuando se nos ocurra, con total independencia
del estado de oscilación, no incrementaremos la amplitud de sus oscilaciones, sino
que probablemente lo frenaremos. En definitiva, si impulsamos el columpio siempre
con la misma frecuencia y ésta coincide con la frecuencia natural de oscilación de
ese columpio concreto (por ejemplo, si lo impulsamos siempre cuando pasa lo más
próximo al suelo), el columpio irá acumulando esa energı́a y progresivamente la
amplitud de sus oscilaciones aumentará.
Examinemos ahora cómo se produce la resonancia en la cuerda que estamos utili-
zando para nuestras simulaciones. Recordemos que mide 1 m de longitud, que está
fija en sus extremos y que tiene, por razón de su masa y de la tensión a la que
está sometida, una velocidad de propagación de las perturbaciones transversales
de 400 m/s. Como consecuencia de ello, tal como hemos visto en el apartado ante-
rior, en nuestra cuerda se puedan crear ondas estacionarias en frecuencias que sean
múltiplos enteros de 200 Hz. Y esto quiere decir que cuando la cuerda entre en
contacto con una vibración en alguna de estas frecuencias, se pondrá en resonancia
con ella y empezará a vibrar por simpatı́a: con una frecuencia de 200 Hz dará el
primer modo de resonancia o fundamental; con una de 400 Hz, el segundo modo
de resonancia; con 600 Hz, el tercero, y ası́ sucesivamente. Ası́ pues, si en nuestra
simulación hacemos que la frecuencia con la que oscila el soporte que introduce la
perturbación coincida con una de esas frecuencias naturales de vibración, la cuerda
se pondrá a vibrar en resonancia.
A diferencia de los casos anteriores, ahora vamos a introducir en la cuerda oscila-
ciones de modo continuo, unas oscilaciones de amplitud muy pequeña, de 0,1 mm,
pero que se mantienen durante cierto periodo de tiempo, exactamente durante 50
ms. Lo que nos interesa es comprobar cómo la amplitud de la oscilación que se
genera en la cuerda va creciendo rápidamente a medida que pasa el tiempo.
Empezaremos viendo lo que ocurre cuando el soporte oscila durante 50 ms a una
frecuencia de 200 Hz, es decir, la frecuencia del modo fundamental o primero de
resonancia de nuestra cuerda. En el vı́deo de abajo, que está ralentizado 400 veces,
167
la frecuencia será de 0,5 Hz, con lo que podremos observar una oscilación completa
cada 2 segundos.
Figura 8.20: Vı́deo que simula la creación por resonancia de una onda estacionaria en
el primer modo de vibración.
Vemos que enseguida se crea una onda estacionaria en el primer modo de resonan-
cia, por lo que la cuerda entera oscila de manera unitaria. Pero vemos también, y
esto es lo más importante, que la amplitud de la oscilación crece de manera muy
rápida, de tal forma que cuando el soporte se detiene al concluir los primeros 50 ms
de la realidad (o los primeros 20 segundos del vı́deo), la amplitud de la oscilación
de la cuerda ha alcanzado ya 2 mm. Es decir, han bastado 50 ms de oscilación del
soporte para multiplicar la amplitud de esa oscilación inicial por 20 veces. Sucede
que el movimiento del soporte se acopla con las sucesivas reflexiones de la cuerda,
de tal modo que la energı́a se acumula y eso hace crecer la oscilación de la cuerda,
de modo semejante a lo que ocurre en el columpio.
Ahora examinaremos lo que sucede cuando el soporte oscila con otra de las fre-
cuencias de resonancia naturales de nuestra cuerda, en este caso 400 Hz, que co-
rresponde al segundo modo de resonancia. En el vı́deo, ralentizado 400 veces, la
frecuencia será de 1 Hz.
168
Figura 8.21: Vı́deo que simula la creación por resonancia de una onda estacionaria en
el segundo modo de vibración.
Vemos que en este caso se crea también una onda estacionaria, ahora en el modo
segundo. En efecto, la cuerda oscila dividida por la mitad en dos partes. Cuando
el soporte deja de moverse el punto medio permanece ya estable y se crea en él
un nodo. También ahora podemos apreciar que la mı́nima amplitud con la que
oscila el soporte es capaz de provocar una gran respuesta en la oscilación de la
cuerda. Comprobamos, pues, que la cuerda resuena también a la frecuencia de 400
Hz.
Para experimentar que la resonancia se produce solo cuando la oscilación que intro-
ducimos tiene una frecuencia que coincide con alguno de los modos de resonancia
naturales de nuestra cuerda, vamos a ver lo que sucede cuando forzamos a la cuer-
da a vibrar a una frecuencia alejada de cualquiera de esos modos. En concreto,
vamos a forzar a la cuerda mediante una oscilación constante del soporte izquierdo
a 285 Hz de frecuencia. En el vı́deo, al estar ralentizado 400 veces, la frecuencia
del soporte será aproximadamente de 0,7 Hz.
169
Figura 8.22: Vı́deo que muestra que no hay resonancia si la frecuencia de la oscilación
introducida no coincide con ningún modo natural de vibración de la cuerda.
La duración del vı́deo es de 33 segundos, que corresponden aproximadamente a 82

milésimas de segundo del movimiento real de la cuerda. A pesar de que durante
todo este tiempo el soporte izquierdo se mantiene oscilando, vemos que no es capaz
de generar en la cuerda una onda estacionaria. El soporte fuerza a vibrar a la cuerda
a la misma frecuencia con la que oscila, 285 Hz en la realidad y 0,7 Hz en el vı́deo,
pero, como esta frecuencia no corresponde a ninguna de las frecuencias naturales
de resonancia de la cuerda, la oscilación del soporte no se acopla con la onda que se
transmite a lo largo de la cuerda y no genera ninguna onda estacionaria. Además,
la amplitud con la que oscila la cuerda forzada por el soporte es, por ello mismo,
muy pequeña.
En resumen, cuando un cuerpo vibra siempre lo hace a la misma frecuencia que
posee aquello que lo fuerza a vibrar. La diferencia es que si esa frecuencia coincide
con alguna que posee el cuerpo receptor por su propia naturaleza, esa fuerza se
transmite muy eficazmente, acoplándose y amplificándose, mientras que si no se
produce esa coincidencia, la eficacia es mucho menor.
La resonancia se produce siempre en un contexto de oscilaciones forzadas. La
resonancia implica dos partes. Por un lado, la parte activa: un cuerpo o sistema
que vibra y que con sus vibraciones excita o impulsa a otro. Por otro, la parte
pasiva: un cuerpo o sistema que, por su propia constitución, posee una o varias
frecuencias naturales de vibración. Al poner en relación estas dos partes, siempre
el resultado será que la frecuencia de la vibración del cuerpo o sistema pasivo será
la misma que la del sistema impulsor o activo, con independencia de cuál fuera
su frecuencia natural de vibración. Ahora bien, cuando la frecuencia del sistema
impulsor se aproxima mucho a una de las frecuencias naturales del sistema pasivo,
170
la facilidad con la que la energı́a del sistema impulsor se transmite al sistema
pasivo hace que la amplitud de las vibraciones de este sistema pasivo crezca de
forma extraordinaria.
Como conclusión podemos decir, que, en lı́neas generales, cuando coincide la
frecuencia de la fuerza excitante y la frecuencia natural del sistema
pasivo, se produce un cambio cualitativo importante. La resonancia nos
muestra como una fuerza en sı́ misma pequeña puede crear un efecto
grande. Este efecto será más evidente conforme las fuerzas de fricción o cualquier
otra que se oponga al movimiento sean menores. En el caso de nuestra cuerda ideal
en la que hemos descartado cualquier fuerza de amortiguación este crecimiento es
máximo.
8.7. Generación del sonido armónico

Una vez que hemos visto que la cuerda, por sus propias caracterı́sticas fı́sicas, posee
unos modos naturales de vibración que son armónicos y que estos modos resuenan
cuando coinciden con alguna o algunas de las frecuencias que están presentes en
la perturbación que la excita, estamos en condiciones de entender en qué consiste
y cómo se produce la vibración armónica.
Habitualmente una cuerda, como cualquier otro cuerpo capaz de vibrar, vibra
simultáneamente en varios modos de resonancia. Esto da lugar a que el movimiento
de la cuerda evolucione de una forma aparentemente compleja.
Vamos a comenzar observando un caso sencillo: el movimiento a cámara lenta que
realiza la cuerda de nuestra simulación cuando vibra simultáneamente en los dos
primeros modos de resonancia. Para ello, he fabricado un vı́deo en el que el movi-
miento del soporte que provoca la vibración de la cuerda es una oscilación armónica
de la misma frecuencia que la frecuencia natural de vibración de la cuerda, y cons-
ta de los dos primeros armónicos. La frecuencia del primer componente es 200 Hz
y la del segundo componente es 400 Hz. La amplitud de ambos componentes es
la misma y está ajustada para que la amplitud máxima de la onda cuando quede
resonando sea de 2 mm.
171
Figura 8.23: Vı́deo que simula la vibración de una cuerda en los dos primeros modos
de resonancia.
En el vı́deo, que está ralentizado 400 veces respecto al movimiento real de nuestra
cuerda, podemos observar cómo se superponen los dos primeros modos de vibra-
ción. Al entrar en resonancia por la acción del soporte, el movimiento de la cuerda
va incrementando rápidamente su amplitud. Cuando el soporte se detiene, lo cual
ocurre en el segundo 20 del vı́deo o en el 50 ms de la realidad, y dado que no
hemos tenido en cuenta ninguna fuerza de amortiguación, la amplitud de la onda
permanece estable durante el resto del vı́deo.
Vemos que el conjunto de la cuerda oscila arriba y abajo una vez cada 2 segundos,
como corresponde a la frecuencia fundamental. Esto lo podemos ver mejor si nos
fijamos en el punto central de la cuerda, el que está en 0,5 m: podemos apreciar en
el vı́deo que este punto oscila arriba y abajo haciendo un Movimiento Armónico
Simple (MAS) con la frecuencia del primer modo de resonancia de nuestra cuer-
da, que coincide con la frecuencia fundamental de la oscilación del soporte que
está introduciendo la perturbación, es decir, 0,5 Hz en el vı́deo o 200 Hz en la
realidad.
Pero, a la vez, observamos que la cuerda se divide por el medio en dos partes
iguales y que cada una de estas partes oscila, de forma complementaria una de la
otra, a una frecuencia doble de la que tiene el conjunto de la cuerda, es decir, a 400
Hz en la realidad o a 1 Hz en el vı́deo. Este movimiento es similar al que tendrı́a
la cuerda si solo se hubiera introducido en ella el segundo modo de resonancia
y pivotara en torno al punto central (como podemos ver en la figura 8.21). Pero
este punto central en el modo segundo serı́a un nodo y, por lo tanto, permanecerı́a
inmóvil. La diferencia reside en que ahora este punto central oscila también arriba
172
y abajo, en cuanto que es el punto de máxima amplitud, el vientre, del primer
modo de resonancia.
En este caso sencillo en el que se combinan solamente los dos primeros modos
de resonancia, nos resulta fácil apreciar que el movimiento total de la cuerda es
el resultado de la composición de estos dos movimientos, pero a medida que el
número de los componentes que vibran aumenta, la vibración de la cuerda se hace
más y más compleja, hasta un punto en el que ya no es posible discernirlos ni
siquiera en un vı́deo ralentizado.
Por otra parte, hay que tener en cuenta que en nuestra simulación solamente
hemos contemplado el caso de que la excitación que genera la onda sobre la cuerda
se realice a través de uno de los extremos fijos de la cuerda. Pero la cuerda de
un instrumento musical real puede ser excitada de múltiples maneras, bien por un
golpe —tal como el que realiza el macillo en el piano—, bien al ser pulsada —como
en el caso de la guitarra o del clavecı́n— o bien al ser frotada —como ocurre en
el violı́n—. El lugar en el que se produce la excitación de la cuerda también es
relevante para la sonoridad que se obtiene, pues, dependiendo de la posiciones en
las que se produce el estı́mulo y de las intensidades de éste, se potenciarán o se
atenuarán unos u otros modos de resonancia de la cuerda, con lo que se despertarán
en mayor o menor medida unos u otros armónicos.
Veamos ahora un vı́deo que simula de una forma más completa el movimiento de
una cuerda real cuando produce un sonido armónico. En él se observa la vibración
de nuestra cuerda cuando es excitada por una perturbación constituida por un
conjunto numeroso de componentes, alguno de los cuales coinciden con sus modos
de resonancia, mientras que otros están alejados. La cuerda amplifica solamente
aquellas frecuencias que coinciden o están muy próximas a sus modos de resonancia
y deja pasar sin amplificar aquellas otras que están alejadas. De esta manera, como
las frecuencias naturales de la cuerda son armónicas, la vibración resultante será
también armónica, dando lugar a una nota musical. La frecuencia de esta nota
es de 200 Hz, la frecuencia fundamental que por naturaleza tiene la cuerda de
nuestra simulación. A fin de facilitar la observación en el vı́deo, he diseñado el
movimiento del soporte para que la cuerda responda de forma significativa a los
ocho primeros modos de resonancia y, además, para que los componentes de más
frecuencia disminuyan progresivamente su amplitud.
173
Figura 8.24: Vı́deo que simula la vibración de una cuerda en múltiples modos de
resonancia.
Al principio del vı́deo observamos una vibración de poca amplitud y más bien de
carácter aleatorio, pero rápidamente va adquiriendo periodicidad y ganando en
amplitud. Sucede simplemente que aquellos componentes que están presentes en
la oscilación del soporte, pero que no corresponden a ningún modo de vibración
natural de nuestra cuerda, no son amplificados, permaneciendo siempre en su ba-
jo nivel inicial, mientras que los componentes que corresponden a las frecuencias
naturales de la cuerda resuenan y son amplificados. El resultado es que la cuerda
vibra de una manera compleja, como consecuencia de la combinación de sus mo-
dos naturales de vibración, pero de una forma periódica, con lo que produce una
vibración armónica.
En efecto, el movimiento que observamos en el vı́deo se aproxima bastante al que
podrı́a ser el movimiento de una cuerda real. Al ser el movimiento de la cuerda
el resultado de múltiples modos de vibración, la apariencia que observamos es un
movimiento complejo en el que es casi imposible reconocer individualmente cada
uno de los modos de vibración. Aun con todo, podemos apreciar que se trata de una
vibración armónica, como podemos reconocer si nos fijamos en la clara periodicidad
que se manifiesta cuando el soporte queda ya inmóvil. Podemos fijarnos en que
cada dos segundos se repite el mismo movimiento, lo que supone una frecuencia
de 0,5 Hz, que multiplicado por las 400 veces que está ralentizado el vı́deo, nos da
los 200 Hz de frecuencia que hemos atribuido a nuestra cuerda.
Ası́ pues, mediante este vı́deo hemos podido hacernos una idea intuitiva de que
una cuerda tensada selecciona de modo natural aquellas perturbaciones
que coinciden con sus modos naturales de vibración, actuando como si
se tratara de un filtro, de modo que, ante una perturbación compleja,
174
reacciona positivamente y se acopla bien sólo en aquellas frecuencias
que coinciden con sus modos naturales de vibración.
8.8. Conclusión
A lo largo de este capı́tulo hemos estudiado que el sonido armónico o musical
se produce cuando un cuerpo cuyos modos naturales de vibración son múltiplos
enteros de una frecuencia fundamental es excitado por una fuerza vibratoria que
contiene algunas de esas frecuencias o todas ellas, con las que entra en resonancia
y se generan ondas estacionarias.
175
Capı́tulo 9
Envolventes de amplitud y de frecuencia
9.1. Introducción
En el capı́tulo dedicado al sonido armónico hacı́amos abstracción de los cambios
a lo largo del tiempo que se pueden producir en la amplitud y en la frecuencia
de cada uno de los componentes armónicos, estudiando el sonido musical como si
se tratara de un fenómeno totalmente estable. Pero la realidad es que los sonidos
musicales no suelen permanecer estables, sino que van evolucionando durante su
duración.
La evolución de los parámetros de amplitud y de frecuencia de los componentes
simples que constituyen los sonidos musicales da lugar a ciertos rasgos acústicos que
caracterizan la sonoridad de las notas musicales que escuchamos. Esos rasgos nos
proporcionan información sobre la fuente sonora —es decir, sobre el instrumento
del que se trata— y también sobre las acciones que realiza el intérprete con el
instrumento. Debido a esto último, los rasgos tı́mbricos que se van creando por
la modificación de la amplitud y de la frecuencia de la nota a lo largo de su
duración encierran una parte muy importante de la fuerza emotiva que es capaz
de transmitir el cantante o el instrumentista con su interpretación.
Las formas que adquieren la evolución de la amplitud y de la frecuencia
a lo largo del tiempo de duración de una nota reciben respectivamente
el nombre de envolvente de amplitud y envolvente de frecuencia. Junto
a la cualidad sonora derivada del diferente peso de cada uno de los componentes
que constituyen el sonido armónico y también de las marcas acústicas que resultan
de la transición entre una nota y la siguiente, las envolventes de frecuencia y de
amplitud definen el timbre de las notas musicales que escuchamos.
176
En el caso de la amplitud, no solo interviene la envolvente general —es decir, la
forma que describe la evolución temporal de la amplitud del sonido armónico en su
conjunto—, sino también las envolventes de cada uno de sus componentes simples.
Efectivamente, la evolución de la amplitud de cada uno de los componentes que
constituyen un sonido armónico puede tener su ritmo propio, de modo que unos
pueden estar adelantados o retrasados respecto a otros, o incluso unos pueden
crecer mientras otros decrecen. Estas diferencias van a dar lugar a marcas tı́mbricas
distintas.
En el caso de la frecuencia, sin embargo, más allá de sutilezas que escapan al
objetivo de este curso, todos los componentes armónicos de una nota evolucionan
de la misma manera, con lo que la forma de la envolvente de frecuencia general
coincide con la de cada uno de ellos.
Aunque voy a dedicar un capitulo a estudiar el timbre de los sonidos producidos
por los instrumentos musicales y por la voz humana, es de interés experimentar
primero, mediante ejemplos sonoros de laboratorio, cómo son los rasgos acústi-
cos elementales derivados de la evolución de la frecuencia y de la amplitud de los
diferentes componentes armónicos, lo que nos va a permitir apreciar la importan-
cia que tienen las envolventes de amplitud y de frecuencia en la caracterización
tı́mbrica de los sonidos musicales.
Pare ello he confeccionado varios vı́deos con sonidos de laboratorio creados con
Matlab especialmente diseñados para experimentar cómo afecta a nuestra percep-
ción sonora la envolvente de amplitud y la envolvente de frecuencia. En la parte
superior de cada uno de estos vı́deos se representa, como un osciloscopio virtual, la
forma de la vibración en tiempo real, mientras que en la parte inferior se muestra
una gráfica con la envolvente de amplitud o la envolvente de frecuencia. En la
parte inferior, la barra azul que se va deslizando señala el punto de la envolvente
del sonido que estamos oyendo en ese instante.
En los ejemplos de este capı́tulo he pretendido dejar aislado el rasgo sonoro que
nos interesa experimentar en cada caso. Por eso en cada vı́deo los sonidos han
sido generados a propósito para que sólo se diferencien en el rasgo especı́fico que
debemos observar.
9.2. Envolvente de amplitud general

Empezaremos atendiendo a la evolución de la amplitud del sonido armónico en
su conjunto, con independencia de los desfases y de los cambios de forma que se
177
puedan producir en la evolución de la amplitud de cada uno de sus componentes
parciales.
La envolvente de amplitud general es la gráfica que describe cómo la
amplitud total de un sonido cambia a lo largo del tiempo, desde el
momento de su emisión hasta que desaparece completamente. Por eso,
la envolvente de amplitud global describe, entre otras cosas, si el ataque es rápido
o lento, si el sonido se mantiene durante un tiempo o si comienza enseguida su
extinción, y si esta extinción es abrupta o el sonido se va amortiguando poco a
poco.
Puesto que el caso más sencillo de un sonido armónico es un sonido simple, donde
la envolvente de amplitud global necesariamente coincide con la del único com-
ponente que lo constituye, en primer lugar vamos a observar cómo influye en la
caracterización tı́mbrica de un sonido simple la forma que adquiere la evolución
de su amplitud, es decir, su envolvente de amplitud general.
He fabricado un vı́deo en el que suena dos veces la misma nota generada en el
laboratorio, un la3 a 220 Hz constituido por un solo componente. La diferencia
entre ambos sonidos simples reside solamente en la forma en la que evoluciona la
amplitud a lo largo de su duración: la envolvente del primer sonido es similar a la
que posee una nota musical real producida mediante una cuerda pulsada con la
mano o con una púa; la envolvente del segundo sonido, sin embargo, se asemeja a
la de una nota de flauta mantenida durante unos pocos segundos. He procurado
que el pico de amplitud sea el mismo en ambos casos para que la única diferencia
entre ellos resida en la envolvente de amplitud.
En la parte superior del vı́deo aparece la forma de la vibración a medida que va
sonando. En la parte inferior se representa en color verde la señal de audio completa
de los dos sonidos y en color amarillo su envolvente de amplitud. La señal de audio
tiene el aspecto de una mancha continua debido a que el número de muestras que
se representan en este reducido espacio es superior a 300.000. La barra azul señala
en cada instante el punto de la envolvente que corresponde a la señal de audio que
está sonando y que se ve representada en la parte superior.
178
Figura 9.1: Vı́deo que muestra las diferencias tı́mbricas a las que dan lugar dos envol-
ventes de amplitud distintas sobre el mismo sonido simple.
Podemos observar que la gráfica amarilla, la que representa la evolución de la am-

plitud, parece perfilar la mitad superior de la señal de audio, como si la envolviera.
En efecto, si bien la relación de envoltura solo es rigurosamente cierta para la evo-
lución de la amplitud de sonidos simples, el nombre de “envolvente” ha pasado a
designar también la evolución de la amplitud de cualquier tipo de sonido, e incluso
la evolución de la frecuencia, donde en realidad no se produce ninguna relación de
envoltura, como veremos enseguida.
En el primer ejemplo vemos que el ataque es muy rápido. En efecto, si detene-
mos el vı́deo en el momento preciso en el que se inicia el sonido, comprobamos
que tarda sólo 5 milésimas de segundo en alcanzar su amplitud máxima, y que
a partir de ahı́ comienza inmediatamente a decaer de forma exponencial, hasta
extinguirse lentamente. Como es propio de la amortiguación exponencial, la tasa
de caı́da en cada instante es directamente proporcional al valor de la amplitud en
ese momento: cuando la amplitud es mayor, la tasa de caı́da es mayor; cuando la
amplitud es menor, la tasa de caı́da es menor. O dicho de otra manera, conforme
más amplitud tiene el sonido, más rápidamente decae y conforme la amplitud se
hace menor, lo hace más lentamente. En realidad, esta amortiguación exponencial
es la forma natural en la que se extingue toda perturbación abandonada a sus
propias fuerzas.
El sonido que escuchamos en este primer ejemplo nos recuerda al de una cuerda
pulsada: tenemos la sensación de que se trata de un sonido producido por algo
que ha sido pulsado, o activado de una manera similar, y que la propia dinámi-
ca del instrumento ha dejado que se extinga libremente. Esta sensación se debe
a que reconocemos que ha recibido al inicio una energı́a puntual por parte del
ejecutante y que la propia constitución del instrumento la ha ido disipando has-
179
ta su extinción, sin que haya habido más contribuciones de energı́a por parte del
instrumentista. En este caso la información que ha aportado el intérprete se ha
concentrado en el ataque, mientras que el resto de la envolvente sólo nos ilustra
sobre las caracterı́sticas propias del instrumento.
En el segundo ejemplo podemos distinguir con claridad las cuatro etapas que
convencionalmente se diferencian en la envolvente de amplitud: ataque,
declive, mantenimiento y extinción (si bien esta clasificación en etapas no deja
de ser una simplificación de tipo práctico utilizada en los antiguos sintetizadores
de sonido).
Podemos apreciar en este caso que el ataque es muy lento, pues dura medio segundo
(aproximadamente desde 3,6 s hasta 4,1 s) y que tiene la forma de una especie de
“ese” inclinada hacia la derecha. En efecto, el ataque comienza muy lentamente,
luego se apresura y finalmente se ralentiza de nuevo hasta alcanzar el punto de
máxima amplitud.
Una vez terminado el ataque, la amplitud comienza a decaer un poco hasta esta-
bilizarse en torno al segundo 5. Esta etapa de declive recibe también el nombre de
caı́da o primera caı́da y es el resultado de que a veces tras el ataque de la nota se
produce una cierta relajación que conduce a la etapa de mantenimiento.
La etapa de mantenimiento, que también se llama “etapa de sostenimiento”, co-
mienza en el segundo 5. Ahora el sonido se mantiene en una amplitud aproximada
de 0,2. En este ejemplo el sonido mantiene la amplitud estable, pero también podrı́a
haberse producido un trémolo, es decir, una oscilación de la amplitud en torno al
valor medio del mantenimiento.
Por último, se inicia la etapa de extinción del sonido, que en este caso se prolonga
durante bastante tiempo, desde aproximadamente 6,6 s hasta 7,4 s. La duración
de esta última etapa puede depender no sólo del instrumento o de la voluntad del
ejecutante —quien puede prolongar la duración de la nota amortiguándola poco a
poco si el instrumento lo permite—, sino también del entorno sonoro en el que se
emite la nota. Por ejemplo, si la nota se emite en una sala cerrada grande, cuyas
paredes reflejan una parte importante del sonido que reciben, se producirá una
reverberación que prolongará considerablemente esta etapa de extinción.
El sonido de este segundo ejemplo nos recuerda al de una nota de flauta, una nota
que el intérprete ha atacado con delicadeza y que luego se ha esforzado en mantener
estable durante toda su duración. La prolongación de la etapa de extinción nos
hace imaginar una sala grande y vacı́a con mucha reverberación.
Con estos dos ejemplos hemos podido ver que los rasgos acústicos derivados de la
evolución de la amplitud global de un sonido armónico contribuyen a caracterizar
180
la cualidad sonora que escuchamos. Si reconocemos un determinado rasgo tı́mbrico
y lo asociamos a un instrumento o a una acción del intérprete es porque nuestro
sistema auditivo está entrenado para detectar en los sonidos del entorno toda la
información útil que podamos extraer y que nos permita identificarlos. Por eso,
cuando la evolución de la amplitud sigue la ley natural de extinción exponencial,
como en el primer sonido del vı́deo, reconocemos, sin ser conscientes de ello, que
la fuente sonora no ha sido modificada durante su emisión, y esa información
es percibida como una caracterı́stica diferencial de ese sonido. Cuando, por el
contrario, el sonido mantiene un cierto nivel de amplitud durante buena parte de
su duración, como es el caso del segundo ejemplo, interpretamos que la fuente
sonora está siendo alimentada constantemente con energı́a. Y en función de las
variaciones de la fase de mantenimiento nos hemos acostumbrado a distinguir si
es el resultado de la intervención del ejecutante o si viene dado por la dinámica
propia del instrumento. Ası́ mismo, la forma de la extinción y su duración nos
aporta información sobre la acción del intérprete y sobre el entorno espacial en el
que ese sonido se encuentra.
Cualquier forma de la envolvente que no responda a la dinámica propia del com-
portamiento fı́sico esperable nos habla de una intervención por parte del intérprete.
Por poner un ejemplo, nuestro sistema perceptivo distingue entre el sonido produ-
cido por un órgano de iglesia y el producido por una flauta, con independencia del
color —es decir, del número y peso de los armónicos—, simplemente por las va-
riaciones que, por mı́nimas que sean, acompañarán siempre al sonido de la flauta.
Ası́, en el segundo ejemplo, la suavidad del ataque con esa forma de ese y la ligera
primera caı́da son suficientes para atribuir a ese sonido una voluntad humana, y
por eso lo relacionamos con el sonido de una flauta en la que el intérprete ha podi-
do modificar la evolución de la amplitud. Aunque se trata de un sonido generado
artificialmente, nunca lo confundirı́amos con otro que simulara el producido por el
tubo de un órgano de iglesia. En realidad, si en lugar de haber sido la envolvente
de amplitud tan esquemática, sus etapas de declive y de mantenimiento hubieran
presentado algunas inflexiones, nos hubiera recordado más al sonido producido por
una flauta real.
9.3. Envolventes de amplitud parciales

Durante la emisión de un sonido musical no solamente puede cambiar la ampli-
tud global, como hemos visto en el apartado anterior, sino que también puede
modificarse el peso relativo que cada componente aporta al conjunto, con la con-
secuente alteración de la cualidad sonora. A continuación vamos a experimentar
181
cómo afectan al timbre los desfases en la envolvente de amplitud entre los distintos
componentes. Comprobaremos también que los cambios en la forma de las envol-
ventes de amplitud de los distintos componentes de un sonido musical pueden ser
consecuencia tanto de la propia constitución acústica del instrumento, como de las
acciones del intérprete mediante las cuales consigue su especial expresividad.
La propia constitución acústica de algunos instrumentos hace que los componentes
armónicos se amortigüen de manera desfasada. En general, los armónicos superio-
res tienden a extinguirse antes que los inferiores. En algunos instrumentos, sin
embargo, el desfase afecta al ataque, como es el caso de los instrumentos de metal,
donde los armónicos superiores tienden a retrasarse. Estos desfases constituyen
una marca tı́mbrica que caracteriza los sonidos y contribuye a la identificación de
la fuente sonora, es decir, ayudan a reconocer el instrumento.
Ası́ mismo, en la voz y en otros instrumentos, el intérprete puede modificar durante
la emisión del sonido la importancia relativa de sus componentes armónicos y,
con ello, su cualidad sonora. Por ejemplo, en el caso del violı́n puede cambiar la
posición del arco, su velocidad o la presión que ejerce sobre la cuerda, alterando la
cualidad sonora de la nota que está emitiendo. Por todo ello las envolventes
de amplitud de los componentes parciales no siguen necesariamente el
mismo patrón, sino que se puede dar la circunstancia de que el aumento
de amplitud de un armónico superior pueda coincidir con el decremento
de un armónico inferior, o viceversa.
Para experimentar cómo afecta al timbre las relaciones entre las envolventes de
amplitud de los diferentes componentes de un sonido musical, he fabricado tres
vı́deos en los que se ejemplariza tres situaciones caracterı́sticas. El ejemplo del pri-
mer vı́deo muestra lo que ocurre cuando se desfasa la extinción de los componentes;
el del segundo, lo que sucede cuando hay un retraso progresivo en el ataque; y el
tercero, cómo se modifica la cualidad sonora a lo largo de la emisión de un sonido
a consecuencia del cambio en el peso relativo entre los componentes. La nota es en
todos los casos un la3 a 220 Hz, constituido por los cuatro primeros componentes
armónicos.
El primer vı́deo presenta el caso en el que la extinción de los componentes no se
produce de manera homogénea, sino que se apaga antes conforme más agudo es el
componente.
182
Figura 9.2: Vı́deo que muestra la influencia en el timbre del desfase en la extinción de
los componentes de un sonido.
En este vı́deo observamos dos repeticiones de la nota la3 a 220 Hz, pero si prestamos
atención advertimos que su sonoridad es claramente diferente. En ambos casos el
número de armónicos y su amplitud máxima es la misma: el primer armónico, el de
220 Hz, tiene una amplitud máxima de 0,24; el segundo, el de 440 Hz, de 0,21; el
tercero, el de 660 Hz, de 0,18; y el cuarto, el de 880 Hz, de 0,15. La única diferencia
entre ambos sonidos es que en el primero la velocidad con la que se amortiguan
los cuatro componentes es similar, mientras que en el segundo la extinción de
cada armónico sigue un ritmo diferente, de modo que los armónicos superiores se
extinguen más rápidamente que los inferiores.
En la primera emisión de la nota apreciamos que durante toda su duración la
cualidad del sonido es la misma. En la parte inferior podemos observar que el peso
relativo de los diferentes armónicos no varı́a sustancialmente. Podemos apreciar
también en el osciloscopio que la forma de la vibración no cambia a lo largo de
todo el sonido, aunque su amplitud vaya disminuyendo progresivamente.
En la segunda emisión de la nota, por el contrario, si realizamos una escucha atenta
nos damos cuenta de que la cualidad sonora va cambiando a lo largo de la duración.
Comienza con una sonoridad plena, resultado de que los cuatro componentes que
forman la nota tienen un peso similar, pero luego va perdiendo cuerpo hasta que la
nota se transforma en un sonido simple. Esta evolución de la cualidad es percibida
por nuestro oı́do como un rasgo caracterı́stico del timbre de esa nota, algo que la
hace diferente de la anterior. En el osciloscopio se puede observar también que la
forma de la vibración cambia a largo de su duración. En efecto, al principio de
la nota la forma de la vibración es compleja, pero luego, conforme la amplitud se
va atenuando, su forma se va simplificando progresivamente, hasta llegar a una
sinusoide pura.
183
El segundo vı́deo muestra un caso en el que se produce un retraso de los compo-
nentes superiores en el momento del ataque:
Figura 9.3: Vı́deo que muestra la influencia en el timbre del desfase en el ataque de los
componentes de un sonido.
Ahora también se repite dos veces la misma nota, el la3 a 220 Hz constituido por los
cuatro primeros componentes. La amplitud máxima en ambos casos es la misma:
0,24 en el primer armónico, el de 220 Hz; 0,18 en el segundo, el de 440 Hz; 0,12 en
el tercero, el de 660 Hz; y 0,08 en el cuarto, el de 880 Hz.
Como podemos apreciar en las gráficas de las envolventes que aparecen en la parte
inferior del vı́deo, la única diferencia ente los dos sonidos reside en que en la segunda
repetición de la nota los armónicos se retrasan progresivamente en el momento del
ataque, de modo que los armónicos superiores alcanzan su máximo más tarde que
los inferiores. Este retraso provoca un cambio en la cualidad del sonido debido al
diferente peso relativo que adquieren los componentes a lo largo del breve intervalo
de tiempo que dura el ataque.
Si nos fijamos en el área del osciloscopio, podremos observar que durante la emisión
del primer sonido no cambia la forma de la vibración, mientras que el ataque
del segundo se inicia con una vibración puramente sinusoidal que rápidamente se
transforma en una forma más compleja, similar a la del primer sonido.
Aunque reconocemos que se trata de la misma nota, si escuchamos con atención
percibiremos una diferencia apreciable en el timbre de ambos sonidos. Nuestro
sistema perceptivo ha reconocido en el segundo sonido un cambio rápido en la
cualidad sonora que nos recuerda el efecto “wah” de una trompeta al destapar la
sordina o el de un pedal “wah wah” de guitarra eléctrica. Ası́ pues, percibimos el
184
retraso en el ataque de los armónicos superiores como un rasgo tı́mbrico peculiar
que diferencia ambos sonidos, que son por lo demás idénticos.
El tercer vı́deo muestra el caso de un sonido en el que la amplitud de los armónicos
superiores durante la etapa de mantenimiento sigue una evolución opuesta a la del
fundamental. Aunque en los sonidos reales de los instrumentos y de las voces estos
cambios acostumbran a ir unidos a modificaciones en la intensidad sonora, para
aislar el rasgo tı́mbrico que se deriva de la diferente evolución de los componentes
parciales he procurado mantener constante la amplitud global durante la etapa de
mantenimiento.
Figura 9.4: Vı́deo que muestra la influencia en el timbre de las modificaciones en el

peso de los componentes de un sonido durante su etapa de mantenimiento.
En este vı́deo escuchamos una sola nota, la misma que en los vı́deos anteriores, un
la3 a 220 Hz constituido por los cuatro primeros armónicos. En la parte inferior
del vı́deo podemos observar que las envolventes de amplitud de los tres armónicos
superiores tienen una forma opuesta a la del componente fundamental. Vemos que
durante la etapa de mantenimiento el componente fundamental decae progresi-
vamente desde su valor máximo, alcanzado tras el ataque, hasta llegar a su valor
mı́nimo, lo que sucede en torno a la mitad de la duración del sonido, para desde allı́
volver a crecer y alcanzar de nuevo su valor máximo antes de iniciar la extinción.
Sin embargo, las envolventes de amplitud de los restantes armónicos realizan el ca-
mino inverso: crecen hasta llegar a un máximo hacia la mitad del sonido y a partir
de allı́ decrecen. En este recorrido vemos que el segundo y el tercer armónico llegan
a superar al primero, e incluso que el tercer armónico supera al segundo.
Estos cambios hacen que el peso relativo de cada componente en el conjunto se
modifique a lo largo de la emisión de la nota, con la correspondiente modificación
185
en su cualidad sonora. En efecto, percibimos que estos cambios durante la etapa
de mantenimiento dan lugar a una modificación gradual y constante de la cualidad
sonora: en la parte inicial y final de esta etapa el peso del sonido recae mayoritaria-
mente en el componente fundamental, lo que proporciona al sonido una cualidad
sólida; progresivamente los armónicos superiores van adquiriendo mayor impor-
tancia en detrimento del fundamental, lo que proporciona al sonido una cualidad
cada vez más hueca e incluso nasal, cuando predomina el tercer armónico, cosa
que sucede hacia la mitad de la duración del sonido.
Los casos que hemos examinado en estos tres vı́deos son solamente una muestra
de laboratorio de los rasgos acústicos que se derivan de las diferencias entre las en-
volventes de amplitud parciales. Estas diferencias provocan que la cualidad sonora
de una nota cambie a lo largo de su duración y estos cambios son habitualmente
percibidos como un rasgo tı́mbrico.
9.4. Envolvente de frecuencia

A continuación vamos a experimentar cómo las modificaciones de la frecuencia de
una nota musical durante el tiempo que dura su emisión afectan al timbre.
Aunque, como hemos visto, lo que define una nota musical es la permanencia de
una frecuencia estable durante un periodo de tiempo lo suficientemente grande
como para que podamos reconocer una determinada altura tonal, lo cierto es que
en la voz y en algunos instrumentos musicales esa permanencia puede ir adornada
con oscilaciones en torno a su valor medio o con inflexiones expresivas que pueden
incluso recorrer momentáneamente las frecuencias de otras notas vecinas.
El hecho de que sean posibles esas modificaciones frecuenciales durante la emisión
de una nota, constituye ya un rasgo sonoro caracterı́stico de un grupo de instru-
mentos, los llamados instrumentos de afinación libre —como es el violı́n—, un
rasgo que los diferencia de aquellos otros cuya frecuencia se mantiene totalmente
estable a lo largo de toda la duración de la nota, los instrumentos de afinación fija,
como por ejemplo, el piano. Incluso la mayor o menor libertad en la modificación
de la frecuencia también constituye un rasgo tı́mbrico. Ası́, por ejemplo, mientras
el violı́n puede modificar libremente la frecuencia de una nota sin interrumpir su
emisión —hasta el extremo de que la transición entre las notas puede realizarse
de forma continua, sin necesidad de una nueva emisión—, la flauta o el saxofón
solamente pueden modificar ligeramente la frecuencia durante la misma emisión
de la nota. Ası́ pues, se puede decir que la modificación de la frecuencia en
186
los instrumentos de afinación libre constituye un elemento expresivo de
primer orden a disposición del intérprete.
Para experimentar los rasgos acústicos que se derivan de los cambios en la fre-
cuencia de una nota a lo largo de su duración he fabricado dos vı́deos. De manera
semejante a los vı́deos anteriores, en cada uno de ellos en la parte de arriba se
presenta la forma de la vibración, a modo de osciloscopio, y en la parte inferior
las correspondientes envolventes de frecuencia. En ambos vı́deos la nota que escu-
chamos sigue siendo un la3 con una frecuencia de 220 Hz. En el primer vı́deo se
presenta el caso de un sonido simple y en el segundo el de una nota formada por
los tres primeros armónicos.
Con la finalidad de aislar los rasgos tı́mbricos especı́ficos que se originan por la
evolución de la frecuencia, empezaremos examinando una nota musical constituida
por un solo componente. En el vı́deo que presento a continuación podemos escuchar
tres sonidos simples que dan la misma nota, donde la única diferencia que hay entre
ellos reside en la envolvente de frecuencia.
Figura 9.5: Vı́deo que muestra la influencia en el timbre de la envolvente de frecuencia

en el caso de un sonido simple.
El primer sonido nos sirve de referencia para facilitar la comparación. Durante su

emisión la frecuencia de la nota permanece totalmente estable y, en consecuencia,
la envolvente de frecuencia que se presenta en la parte de abajo es una lı́nea
horizontal.
En el segundo sonido vemos que la frecuencia de la nota oscila en torno a su valor
medio, 220 Hz, dando lugar a un efecto sonoro denominado vibrato. Podemos
apreciar que este vibrato tiene su propia frecuencia de oscilación (no confundirla
con la frecuencia de la nota), que en este caso es de aproximadamente 4 oscilaciones
187
por segundo. También podemos observar la profundidad del vibrato, es decir, lo
que se aleja en su oscilación de la frecuencia media de la nota. En este caso, como
es habitual en la realidad, la profundidad del vibrato varı́a a lo largo de la duración
de la nota. La profundidad máxima de este vibrato es aproximadamente de 8 Hz,
lo cual, para una frecuencia media de 220 Hz, corresponde a un intervalo de unos
60 cents.
En el tercer sonido escuchamos una inflexión importante de la nota, similar a la
que podemos oı́r en una guitarra eléctrica cuando se sobretensa momentáneamente
una cuerda, bien con el dedo o con ayuda de una palanca destinada a tal fin, para
lograr mayor expresividad.
Ası́ pues, hemos podido apreciar mediante este vı́deo que las variaciones en la
frecuencia de una nota a lo largo de su emisión producen efectos acústicos que
contribuyen a caracterizar el timbre de un instrumento y que proporcionan al
sonido una particular carga emotiva.
Para ver cómo se comporta la envolvente de frecuencia de cada uno de los compo-
nentes de un sonido armónico compuesto he confeccionado un vı́deo que presenta
el vibrato de una nota formada por los tres primeros armónicos. El objetivo de
este vı́deo es mostrar que la evolución de la frecuencia en los distintos componentes
presenta la misma forma, si bien sus valores están escalados.
Figura 9.6: Vı́deo que muestra la influencia en el timbre de la envolvente de frecuencia

en el caso de un sonido compuesto.
Las dos repeticiones de la misma nota se diferencian sólo por la envolvente de

frecuencia. El primer sonido sirve también ahora de referencia para permitirnos
la comparación. Se trata de un sonido en el que no ha habido modificación de la
frecuencia a lo largo de su emisión y por eso en la parte inferior, donde aparecen
188
las envolventes de frecuencia de los tres componentes, solamente se dibujan tres
lı́neas horizontales igualmente espaciadas.
El segundo sonido tiene un vibrato similar al del primer vı́deo. Vemos que, como en
el anterior sonido, la frecuencia del segundo armónico es doble que la del primero
y la del tercero, triple. Dado que en las notas musicales los componentes, salvo
ligeras matizaciones, son armónicos, sus envolventes de frecuencia mantienen la
misma forma y sólo se diferencian en el escalado correspondiente a su número
armónico. Ası́, en este caso, como la profundidad del vibrato del primer armónico
es de 8 Hz, la del segundo armónico es de 16 Hz y la del tercero de 24 Hz.
9.5. Conclusión
A lo largo de este capı́tulo hemos podido comprobar la influencia de la envolven-
te de frecuencia y de la envolvente de amplitud, tanto la general como la de cada
componente, en la cualidad tı́mbrica de las notas musicales. Estas envolventes cons-
tituyen una parte importante de la caracterización de los instrumentos musicales
y sirven también como vehı́culo expresivo de las intenciones del intérprete.
189
Capı́tulo 10
Análisis espectral de los sonidos

musicales
10.1. Introducción
En los capı́tulos anteriores hemos visto mediante el osciloscopio virtual distintos
ejemplos de señales de audio, es decir, de la forma que adquiere la vibración sonora
a lo largo del tiempo. Estas señales nos han ayudado a distinguir los rasgos carac-
terı́sticos de los sonidos musicales y la manera en la que nosotros los percibimos.
Hemos podido comprobar que, en lı́neas generales, nuestra sensación auditiva no
es capaz de seguir el rápido movimiento de la vibración sonora, sino que atiende
principalmente a los parámetros de frecuencia y amplitud de los componentes que
forman el sonido musical.
En efecto, como veremos más adelante, nuestra percepción descompone el movi-
miento vibratorio que llega a nuestro oı́do, de modo que obtiene la frecuencia y
la amplitud de sus componentes sinusoidales. Por eso, para estudiar la realidad
musical de una forma completa necesitamos una herramienta de análisis que nos
permita descomponer los sonidos en sus componentes sinusoidales y extraer sus
parámetros de frecuencia y amplitud (salvo circunstancias excepcionales, podemos
ignorar la fase inicial). Nos interesa pasar de una representación de la vibración en
su desarrollo temporal a una representación de la vibración en función de la ampli-
tud de los componentes que la constituyen o, dicho en términos más técnicos, pasar
de la representación en el dominio del tiempo a la representación en el dominio
de la frecuencia. Esta tarea se realiza mediante las técnicas de análisis espectral,
llamado también análisis frecuencial. En este capı́tulo me propongo explicar qué es
el análisis espectral del sonido, en particular, en el caso del sonido musical.
190
Hoy en dı́a disponemos de algoritmos numéricos muy potentes que nos permiten
realizar el análisis de los sonidos y extraer la frecuencia y la amplitud de cada
componente simple, los cuales pueden ser realizados con facilidad en un ordenador.
La Fast Fourier Transform (FFT) es capaz de descomponer un fragmento de señal
en sus componentes sinusoidales con gran eficacia. Pero me ha parecido que explicar
en qué consiste la Transformada de Fourier se alejaba del propósito de este curso.
En su lugar, creo que es más intuitivo, y no menos correcto, explicar el análisis
frecuencial utilizando el fenómeno de la resonancia. De hecho, hasta el desarrollo
de las técnicas digitales los analizadores de espectro tradicionales consistı́an en
una baterı́a de circuitos resonadores que medı́an la amplitud de cada componente
presente en la señal.
Por otra parte, explicar el procedimiento del análisis frecuencial a partir del fenómeno
de la resonancia tiene la ventaja, a mi juicio, de que es más fácil de asimilar para
un lector sin conocimientos fı́sicos ni matemáticos. Además, puesto que nuestro
sistema auditivo procede de una manera similar, este punto de vista nos va a
permitir entender mejor la forma en la que percibimos las frecuencias de los com-
ponentes que constituyen los sonidos, la cual se produce por la localización de sus
resonancias en los diferentes puntos de la membrana basilar situada en nuestro
oı́do interno.
El análisis espectral se utiliza habitualmente para sonidos o fragmentos musicales
que constan de múltiples componentes, por lo que es necesario conocer hasta qué
punto va a ser capaz de distinguirlos y localizarlos con precisión en el caso de que
esos componentes tengan frecuencias próximas. Veremos a lo largo de este capı́tulo
que la capacidad de resolución del análisis espectral está indisolublemente ligada a
la duración del fragmento analizado, de modo que si queremos un análisis preciso y
exacto deberemos elegir una duración larga. El problema surge porque, en general,
a menos que lo que se pretenda sea obtener una especie de valor promediado útil
en algunas circunstancias, es necesario que los parámetros de los componentes
permanezcan estables durante el tiempo en el que se efectúa el análisis. Pero en el
caso de los sonidos musicales reales, aunque son mucho más estables que los del
habla, generalmente la estabilidad no se mantiene más allá de unos 50 milisegundos,
por lo que, salvo circunstancias excepcionales, la longitud del fragmento no debe
ser mucho mayor que esa cantidad, de forma que podamos considerar, aunque sólo
sea de forma aproximada, que los parámetros han permanecido constantes durante
el intervalo de tiempo analizado.
En este capı́tulo veremos, en primer lugar, en qué consiste el análisis espectral y
cómo se puede realizar mediante el fenómeno de la resonancia. Después estudiare-
mos la cuestión esencial de los lı́mites de su capacidad de resolución. A continuación
veremos cómo mediante el espectrograma es posible obtener una representación de
191
la evolución de los distintos componentes simples a lo largo del tiempo. Por último,
para ejemplarizar las ideas expuestas y para preparar la utilización de esta nueva
herramienta en el estudio de los sonidos reales, presentaré los espectrogramas de
varios sonidos caracterı́sticos.
10.2. Un modelo ideal de analizador espectral mediante re-

sonancias
Imaginemos que disponemos de un piano ideal en el que las cuerdas vibran con
toda facilidad, pues no hay apagadores. Además, las cuerdas de este piano ima-
ginario sólo tendrı́an un modo de vibración, el modo fundamental, es decir, sólo
resonarı́an cuando la frecuencia que las excitara coincidiera con su frecuencia na-
tural o estuviera próxima a ella. Las cuerdas de este piano imaginario, en lugar
de estar espaciadas siguiendo la escala cromática, estarı́an separadas de hercio en
hercio (aunque también podrı́an haber estado separadas de décima de hercio en
décima de hercio o de cualquier otra forma). Evidentemente este piano imaginario
poseerı́a miles de cuerdas, tantas como quisiéramos. Lo que acabo de describir será
nuestro analizador espectral ideal.
Delante de este piano haremos sonar, imaginariamente claro está, los sonidos que
vayamos a analizar y luego mediremos la amplitud con la que vibra cada una de
las cuerdas que se han quedado resonando, representando los resultados en una
gráfica.
En las gráficas de componentes frecuenciales que presentaré a partir de ahora consi-
deraremos que cada uno de los pequeños “palitos” que las constituyen corresponde
a una cuerda de nuestro piano imaginario. La altura que alcance cada uno de esos
palitos reflejará la amplitud relativa con la que se ha quedado resonando la cuerda
correspondiente, en una escala que va del 0 al 1. He asociado, de manera similar a
las gráficas del capı́tulo 7, un color a cada amplitud, dentro de una escala que se
corresponde con la de los colores por los que pasa el hierro al calentarse: el cero
será el negro absoluto; los valores próximos a cero serán de un rojo muy oscuro;
progresivamente, conforme los valores se incrementen, el rojo pasará a ser más
brillante; luego el rojo se transformará en amarillo; y finalmente, a medida que los
valores se van aproximando al 1, el amarillo se irá aclarando hasta llegar al blanco
absoluto, que representará el valor máximo, el 1.
Supongamos que delante de nuestro imaginario piano hacemos sonar durante un
segundo de duración un sonido simple de 220 Hz, un la3 formado por un único
componente. La elección de un segundo no ha sido algo casual, pues, como veremos
192
en el apartado siguiente, la duración del fragmento sonoro puede condicionar en
determinadas circunstancias la fiabilidad del análisis. La duración temporal que se
elige recibe habitualmente el nombre de “ventana de observación” o “ventana de
análisis”.
Ahora nos interesa comprobar cómo responde este analizador de espectro ideal
al sonido propuesto y averiguar si localiza bien la frecuencia. La gráfica de abajo
representa las amplitudes de las cuerdas que quedarán resonando en el piano ideal.
He limitado la gráfica a la representación de los primeros 1.000 Hz.
Figura 10.1: Gráfica del análisis frecuencial de un sonido simple de 1 segundo.
Observamos en esta gráfica un pico muy destacado pintado de un color amarillo

muy luminoso, próximo al blanco, situado a la derecha de la cuadrı́cula que señala
los 200 Hz. Este pico corresponderı́a a la cuerda del piano imaginario que se ha
quedado resonando con más fuerza y, en principio, coincidirı́a con el componente
sinusoidal que, como ya sabemos, constituye el sonido que estamos analizando. El
valor absoluto de su amplitud no nos interesa ahora, pues este parámetro sólo es
pertinente cuando hay más de un componente, pues permite comparar las diferen-
tes amplitudes.
Veamos un detalle de la zona que rodea a este componente, algo ası́ como si
hiciéramos un zoom positivo sobre la gráfica.
193
Figura 10.2: Detalle de la gráfica del análisis frecuencial de un sonido simple de 1
segundo.
Ahora distinguimos con claridad la representación de cada una de las cuerdas del
piano que han quedado resonando. Apreciamos que la cuerda que resuena con más
fuerza es la de 220 Hz. Pero, como podemos observar en la gráfica, al estar las
cuerdas de este piano separadas de hercio en hercio, en realidad solo podemos
saber que la frecuencia del componente del sonido analizado habrá sido mayor que
219,5 Hz y menor que 220,5. En efecto, el margen de precisión de nuestro piano
analizador de espectro es de un hercio, aunque nada nos habrı́a impedido añadir
en medio muchas más cuerdas a este piano imaginario y obtener la precisión que
deseáramos.
Ası́ pues, de este análisis se desprende que el componente presente en el so-
nido que estamos analizando se corresponde con el pico destacado en la
gráfica de las amplitudes de las cuerdas resonantes. Pero eso no es todo.
También observamos que, en menor medida, algunas de las cuerdas laterales han
obtenido cierta amplitud. Esto parece intuitivamente coherente, pues el efecto de
la resonancia también hace vibrar las cuerdas cuya frecuencia es muy próxima a
la del componente del sonido que estamos analizando.
Cada una de las cuerdas de este hipotético piano resonará cuando en el sonido
que queramos analizar esté presente un componente sinusoidal muy próximo a su
frecuencia natural de vibración. En este caso la cuerda que resonará con más fuerza
será aquella que tenga una frecuencia natural lo más cercana a 220 Hz; pero las
cuerdas próximas, como es fácil de intuir, también resonarán, aunque sea en menor
medida. Estas cuerdas vibrarán también a la frecuencia de ese componente, en este
caso, a 220 Hz, con independencia de la frecuencia exacta a la que cada una de
194
ellas esté afinada. La amplitud con la que vibren las cuerdas irá incrementándose
conforme su frecuencia natural sea más cercana a la del componente. Por eso en
las gráficas nos encontramos con que no aparece sólo un palito en la frecuencia
de los 220 Hz, sino que a ambos lados hay otras cuerdas/frecuencias que van
decrementando su amplitud a medida que su frecuencia natural de vibración se
aleja de la que está sonando. No obstante, en principio, esto no parece alterar la
fiabilidad del resultado.
10.3. Relación entre duración temporal y resolución frecuen-

cial
Ahora bien, la pregunta es: ¿Siempre esto es ası́? ¿Todo resulta tan fácil? ¿Dispone-
mos, o mejor dicho, dispone la naturaleza de un medio tan sencillo para determinar
con precisión los componentes sinusoidales presentes en cualquier fragmento sono-
ro? La respuesta, desafortunadamente, es que no. Voy a realizar ahora el análisis
del mismo sonido de un solo componente de 220 Hz, pero acortando la duración del
fragmento a analizar: ahora haré sonar delante de nuestro piano imaginario sólo
50 milésimas de segundo (es decir, la ventana de análisis será de 0,05 s). Veamos
lo que ocurre en la gráfica de abajo.
Figura 10.3: Gráfica del análisis frecuencial de un sonido simple de 50 milisegundos.
195
Ahora observaremos un detalle de la zona entre 160 Hz y 280 Hz.
Figura 10.4: Detalle de la gráfica del análisis frecuencial de un sonido simple de 50

milisegundos.
Comprobamos ahora que, al reducir la cantidad de tiempo de la señal analizada,

el número y la importancia de las cuerdas laterales afectadas ha sido mucho mayor
que cuando analizábamos un segundo entero. Esto responde también a una cierta
idea intuitiva sobre la resonancia, pues todos hemos podido comprobar que el efecto
de la resonancia se aprecia más fácilmente cuando la señal que excita dura más
tiempo. Por lo tanto, vemos que la duración de la vibración analizada determina
el número de cuerdas próximas afectadas por la resonancia. Dicho de otra manera,
el efecto de la resonancia es más picudo conforme la duración del sonido que la
provoca es mayor.
Si se trata, como en este caso, de analizar un componente aislado no se plantea
ningún problema. Pero, ¿qué hubiera ocurrido si hubiéramos querido analizar una
señal con dos componentes que estuvieran próximos? Vamos a comprobarlo en los
dos ejemplos siguientes.
En el primero voy a analizar una señal formada por dos componentes sinusoidales
de la misma amplitud. La frecuencia del primero, igual que antes, es de 220 Hz
(la3 ), y la del segundo, de 233 Hz (sib3 ). La ventana de análisis (la duración del
fragmento analizado) será, como en el ejemplo anterior, de sólo 50 ms. Realicemos
el análisis y veamos los resultados.
196
Figura 10.5: Gráfica del análisis frecuencial de dos sonidos simples muy próximos de
50 milisegundos.
Comprobamos que el análisis efectuado con este tamaño de ventana ha sido incapaz
de distinguir los dos componentes, el de 220 Hz y el de 233 Hz, que sabemos que
existen en la señal a analizar, y que, en su lugar, ha salido un solo componente
cuya frecuencia es la media aritmética de los otros dos, 226,5 Hz. Ciertamente, si
hubiéramos podido analizar un segundo entero de duración no habrı́amos tenido
ningún problema para distinguir nı́tidamente los dos componentes. En la siguiente
gráfica podemos ver el resultado de realizar el mismo análisis durante un segundo
de duración.
Figura 10.6: Gráfica del análisis frecuencial de dos sonidos simples muy próximos de 1
segundo.
197
En efecto, aquı́ los dos componentes han sido resueltos y además con toda la
precisión que habı́a requerido al análisis.
Veamos ahora otro ejemplo de dos componentes un poco más separados. Vamos a
analizar una señal constituida por un componente de 220 Hz (la3 ) y otro de 262
(do4 ). La duración del análisis va a ser también de 50 ms.
Figura 10.7: Gráfica del análisis frecuencial de dos sonidos simples de 50 milisegundos.
En este caso el análisis sı́ que ha sido capaz de distinguir los dos componentes.
Ahora bien, si nos fijamos en la localización de los picos máximos vemos que el
componente de 220 Hz ha sido desplazado a 232 Hz y el de 262 Hz a 250 Hz. Es
decir, observamos que la presencia de un componente próximo altera de manera
notable la fiabilidad del resultado obtenido.
Resumiendo, nos encontramos con que al reducir el tamaño de la ventana de
análisis disminuye su capacidad para discernir componentes distintos
y la precisión con la que puede determinar su frecuencia. Este proble-
ma plantea una cuestión esencial: si queremos obtener una buena resolución en
frecuencia necesitamos una duración temporal larga. Pero la realidad es que el so-
nido musical va evolucionando con el tiempo y los parámetros de sus componentes
solamente permanecen relativamente estables durante un tiempo pequeño, unas
cincuenta milésimas de segundo.
Ası́ pues, a la hora de efectuar un análisis frecuencial de un fragmento musical siem-
pre hemos de buscar una opción de compromiso. Podremos utilizar una ventana de
198
mayor duración, pero en ese caso tendremos que asumir que lo que obtendremos en
el análisis será una especie de promediado de la evolución de los acontecimientos
sonoros que se hayan producido en ese tiempo. Podremos elegir una ventana de
corta duración para garantizar que el fragmento analizado sea suficientemente es-
table, pero en ese caso deberemos asumir que si coinciden componentes próximos
puede que el análisis no sea capaz de distinguirlos o al menos que pierda precisión
en su localización.
10.4. El espectrograma
Como he dicho ya, los parámetros de los componentes sonoros en los sonidos reales
no suelen permanecer estables, sino que evolucionan a lo largo de su duración. Por
ello, para analizar un fragmento sonoro nos interesará muchas veces obtener una
representación que muestre la evolución de los valores de amplitud y de
frecuencia de cada componente durante el tiempo que dura el sonido.
Habitualmente esta representación recibe el nombre de espectrogra-
ma.
Un espectrograma no es otra cosa que una forma de representar gráficamente
los sucesivos y solapados análisis frecuenciales que se pueden hacer a lo largo de
un sonido o de un fragmento de una interpretación. Esta forma de representación
guarda mayor afinidad con la manera en la que nosotros oı́mos que la representación
de la señal de audio que hemos visto en el osciloscopio.
En los vı́deos en los que se simulaba un osciloscopio y en las gráficas en las que se
mostraba el desplazamiento de la vibración en relación al tiempo hemos tenido una
representación puramente temporal del hecho fı́sico de la vibración. Acabamos de
ver también en qué consiste una representación puramente frecuencial, donde no
importa cuándo se han producido los componentes sonoros, sino sólo su frecuencia
y su amplitud relativa. Ahora bien, ninguna de estas dos formas coincide con la
manera en la que oı́mos. Oı́mos frecuencias, pero oı́mos frecuencias que cambian
en el tiempo, bien porque unas dejan de sonar y surgen otras, bien porque las que
estaban sonando evolucionan en amplitud, o bien porque desparecen y surgen otras
frecuencias. No obstante, en lo que concierne al sonido musical, hay cierto margen
de tiempo en el que las cosas, salvo momentos especiales de transición, parecen
cambiar poco, es decir, hay momentos en el que se puede considerar que la vibración
es casi estable, pues los componentes y sus parámetros no han sufrido grandes
cambios. Como he dicho al principio de este capı́tulo, el tamaño que se suele
considerar adecuado para este intervalo temporal viene a ser de unas 50 milésimas
de segundo. Si cada 50 ms se va haciendo un análisis que va progresivamente
199
desplazándose en el tiempo y solapándose, la evolución de los parámetros será más
fiable y responderá más a la realidad que si se hace un análisis en intervalos más
grandes o más pequeños.
Mediante el vı́deo que pongo a continuación voy a explicar más detenidamente
cómo podemos obtener un espectrograma. Voy a utilizar para este ejemplo los
primeros compases del adagio de la Sonata para violı́n solo de J. S. Bach (BWV
1001). Para facilitar la presentación, he limitado la banda de los componentes a
los primeros 2.000 Hz. Veamos primero el vı́deo.
Figura 10.8: Vı́deo que muestra la obtención de un espectrograma.
Recomiendo ir parando el vı́deo en el momento que se considere oportuno para en-

tender mejor lo que sucede. Encontraremos una imagen similar a la siguiente.
200
Figura 10.9: Instantánea del vı́deo de la figura 10.8.
En el panel de la izquierda tenemos la representación temporal de la vibración a

modo de osciloscopio, es decir, la forma de la vibración a lo largo del tiempo. Al
estar en la figura 10.9 la imagen detenida, he podido añadir la localización temporal
precisa: el fragmento de señal analizado en este cuadro del vı́deo corresponde al
intervalo de tiempo transcurrido entre el segundo 10,360 y el 10,410. En total
son las 50 milésimas de segundo que constituyen la duración de los fragmentos
que analizamos. Podemos observar que en esta ocasión la forma de la vibración
ha permanecido casi prácticamente estable durante ese intervalo de tiempo. Sin
embargo, si hubiéramos detenido el vı́deo en algún otro momento, especialmente
en el ataque de alguna nota, nos hubiéramos encontrado con una situación más
inestable.
En el panel de la derecha tenemos la representación frecuencial, es decir, los compo-
nentes que constituyen la señal que estamos viendo en el panel de la izquierda. Esta
representación sigue los mismos criterios que acabamos de ver en los apartados an-
teriores, es decir, muestra el análisis frecuencial. He aumentado proporcionalmente
la amplitud para que en el espectrograma inferior resaltaran más los componentes
pequeños. En esta ocasión vemos que aparecen destacados 6 picos que correspon-
den a los 6 primeros armónicos de la nota re4 , cuya frecuencias son, redondeando
en hercios: 294,7 Hz, 587,4 Hz, 881,1 Hz, 1174,8 Hz, 1.468,5 Hz, 1.762,2 Hz. Las
amplitudes están también acompañadas de una escala de colores, como la que he
descrito antes. El componente primero se ve claramente destacado y el pico pre-
senta un color amarillo luminoso que se aproxima ya al blanco. Los componentes
201
segundo y el tercero tienen también una amplitud considerable y su color es un ro-
jo brillante, siendo ligeramente mayor el tercero que el segundo. Los componentes
cuarto, quinto y sexto van progresivamente perdiendo amplitud y sus colores van
siendo cada vez más oscuros. A lo largo del vı́deo podemos ver como esta gráfica
va evolucionando siguiendo los cambios en el sonido. Dicho de otra manera, con-
forme el sonido va pasando por el panel izquierdo, la representación frecuencial de
la derecha se va actualizando.
En el panel de abajo vemos cómo se va construyendo el espectrograma del frag-
mento. Si nuestro reproductor de vı́deo nos permite avanzar de cuadro en cuadro
veremos que en cada cuadro tenemos un desplazamiento de la señal hacia la iz-
quierda en la ventana temporal del panel de la izquierda, una actualización de
su representación frecuencial en el panel de la derecha y, por último, una nueva
columna de pı́xeles en el panel inferior. Esa nueva columna de pı́xeles presenta los
valores frecuenciales correspondientes al análisis frecuencial del cuadro que esta-
mos analizando, utilizando simplemente los mismos colores que hemos obtenido
en la representación frecuencial, de tal forma que aquı́ prescindimos de la longitud
del componente y la representamos únicamente por el color. Ası́ por ejemplo, si
en el visor de imágenes con el que estamos examinando esta gráfica hacemos un
zoom considerable, hasta el extremo de poder ver pı́xeles aislados, y nos fijamos
únicamente en la última columna de pı́xeles del espectrograma que estamos cons-
truyendo y que hemos detenido, veremos que los picos que hemos visto en el panel
de las frecuencias se corresponden, con sus mismos colores, con los pı́xeles que
vemos destacados en esta último columna de la imagen. Tal vez el componente
más agudo nos aparezca un poco desvaı́do, pero aun con todo nos resultará fácil
ver cómo esta columna de pı́xeles se corresponde y representa la amplitud de cada
componente frecuencial analizado en el panel de la derecha.
Esta forma de representación nos permite dejar un rastro de lo que hemos visto
que ha ido sucediendo a lo largo del tiempo en el panel de las frecuencias. De este
modo tenemos una representación frecuencial actualizada con el paso del tiempo.
Y esto es ya similar a la manera en la que nosotros oı́mos y a la que en la realidad se
producen la mayor parte de los acontecimientos sonoros. Ası́ pues, el espectrograma
es la forma de representación más idónea del sonido de un fragmento musical.
10.5. Interpretación de los espectrogramas

Voy a presentar a continuación varios espectrogramas para mostrar cómo podemos
interpretar las imágenes que ofrecen. Utilizaré los mismos ejemplos sonoros que
hemos visto en anteriores capı́tulos, lo cual nos permitirá comparar la información
202
que nos proporciona el espectrograma con la que obtenı́amos en el osciloscopio.
He confeccionado mediante Matlab varios vı́deos para facilitar el seguimiento del
sonido en el espectrograma. La imagen del vı́deo muestra el espectrograma del
fragmento completo, mientras la lı́nea verde vertical se va desplazando marcando
el instante que está sonando. Todos los espectrogramas presentan sólo los primeros
4.000 Hz.
10.5.1. Espectrograma de sonidos armónicos estables
Comenzaré con el espectrograma que corresponde al vı́deo de la figura 7.4 del

capı́tulo 7, donde se muestra cómo la incorporación de los sucesivos componentes
armónicos aproxima la forma de la vibración a la de un diente de sierra y cómo
repercute esta incorporación en la cualidad sonora. En este ejemplo suena ocho
veces la misma nota, un la3 a 220 Hz. Empieza sonando el componente fundamental
aislado, un sonido simple de 220 Hz, y luego se van incorporando sucesivamente
todos los componentes de la serie armónica, hasta llegar al octavo armónico.
Figura 10.10: Vı́deo con el espectrograma de la generación de una señal en diente de

sierra a partir de los componentes consecutivos de la serie armónica.
En este espectrograma podemos observar que cada componente aparece repre-

sentado por una lı́nea horizontal, lo que indica que la frecuencia de todos ellos
permanece constante durante la emisión de cada nota. Ası́ mismo, por el color
podemos apreciar que la amplitud de cada componente es la misma en todas las
repeticiones de la nota en las que está presente, y también que la amplitud de
los componentes que van apareciendo es progresivamente menor. Ası́ vemos que el
203
primer armónico o fundamental presenta la mayor amplitud, pues su color es casi
blanco, que el color con el que está representado el segundo armónico es amarillo
dorado y que los siguientes son rojos cada vez más oscuros.
Podemos ver también en el espectrograma con total claridad la estructura armóni-
ca que forman el conjunto de los componentes de la nota, pues todos ellos están
separados entre sı́ por la misma distancia, una distancia que coincide con la fre-
cuencia del primer componente.
10.5.2. Espectrograma de sonidos armónicos cuyos componentes cam-

bian de amplitud
Veamos ahora cómo queda reflejado en un espectrograma la evolución en amplitud

de los componentes armónicos de un sonido. He elegido tres sonidos cuya forma
de vibración ya habı́amos examinado en el capı́tulo 9, cuando estudiábamos las
envolventes de amplitud. En todos los ejemplos los sonidos están formados por los
cuatro primeros armónicos y su frecuencia fundamental es 220 Hz, correspondiente
a la nota la3 . En el primer caso se produce un retraso en el momento del ataque de
los componentes superiores (figura 9.3 del capı́tulo 9); en el segundo hay cambios
en las amplitudes respectivas de cada componente durante el mantenimiento del
sonido (figura 9.4 del capı́tulo 9); y en el tercero ocurre que los componentes
superiores se extinguen mucho más rápidamente que los inferiores (figura 9.2 del
capı́tulo 9).
Figura 10.11: Vı́deo con el espectrograma de tres sonidos armónicos formados por
componentes cuya amplitud evoluciona de diferentes formas.
204
A diferencia de la representación de la señal en el tiempo que veı́amos en el oscilos-
copio, donde no podı́amos distinguir los componentes individuales, este espectro-
grama nos muestra de forma clara la evolución de la amplitud de cada componente
que forma el sonido. En primer lugar podemos observar que en todos los casos es-
tamos ante un sonido armónico, pues las distancias entre los componentes son
iguales. Por otro lado, los cambios en el color de cada componente a lo largo de su
duración nos indican que ha variado su amplitud. En el espectrograma se puede
distinguir también el carácter más o menos abrupto del ataque y de la extinción
de las notas.
Si pasamos a analizar caso por caso, nos encontramos con que en el primer sonido
la amplitud de los componentes superiores es progresivamente menor, pues vemos
que el componente primero es el que presenta mayor luminosidad, mientras que el
último es el más oscuro. Se aprecia también claramente en el momento del ataque
un retraso de los sucesivos componentes, siendo el fundamental el primero que en-
tra. Por el contrario, vemos que en la extinción del sonido todos los componentes
se apagan simultáneamente (si bien los componentes de mayor amplitud parecen
prolongarse un poco más, esto se debe solamente a que los colores más oscuros se
funden antes con el negro). Vemos también que las lı́neas que representan los com-
ponentes cambian de color durante la parte inicial del sonido, aproximadamente
en la primera décima de segundo, desde un rojo muy oscuro que se funde casi con
el negro del fondo, hasta llegar al color que mantendrán durante la mayor parte de
la emisión. Esto es indicativo de que el ataque de la nota ha sido más bien suave,
tal como apreciamos al oı́rla. Ası́ mismo, en la etapa final de la nota vemos que
los componentes van perdiendo luminosidad, lo que hace que parezca que se vayan
adelgazando. Esto corresponde a la extinción suave que oı́mos.
En el segundo sonido los ataques de los componentes son simultáneos y menos
suaves que en el primero, como podemos observar en el hecho de que se alcanza
más rápidamente el color que mantendrá cada componente durante la emisión. Ası́
mismo, vemos que la forma en la que se extinguen es similar a la del sonido primero.
Los cambios de color que observamos durante su etapa intermedia nos indican que
la amplitud de los componentes superiores, en especial el segundo y el tercero, se va
haciendo progresivamente mayor, hasta superar, aproximadamente a la mitad de la
duración del sonido, a la del fundamental; luego vemos que se invierte la tendencia
y se recupera la situación inicial. Esto coincide con el cambio de cualidad sonora
que apreciamos: el sonido comienza con un carácter más bien suave, va ganando
cuerpo y un poco de aspereza, y finalmente retorna a la suavidad.
En el tercer caso, como en el primero, la representación de los componentes es
progresivamente más oscura, lo que nos indica que su amplitud es menor confor-
me mayor es su frecuencia. Cada uno de los componentes tiene mayor intensidad
205
lumı́nica al inicio de la emisión de la nota y luego se oscurece hasta casi desapare-
cer. Podemos ver en el espectrograma que los cuatro componentes han surgido a la
vez. Por el contrario, la extinción se ha realizado de forma claramente desfasada,
de tal modo que al final sólo queda sonando el componente fundamental, como
podemos ver por la desaparición de las lı́neas que representan cada componente en
el espectrograma. Si nos fijamos un poco más, vemos que el ataque abrupto que
oı́mos se traduce en una lı́nea vertical en el espectrograma, que se extiende por
arriba y por abajo de la posición del respectivo componente y que luego, en forma
de una especie de embudo, va a desembocar en la lı́nea que le corresponde por su
frecuencia. Esto se debe a que el ataque abrupto es similar al ruido, es decir, contie-
ne una banda muy amplia de frecuencias. Podemos ver que la inestabilidad inicial
es ruidosa y pasa cierto tiempo hasta que el sonido alcanza la estabilidad. Cuando
veamos sonidos reales, los ataques abruptos vendrán caracterizados por esa forma
de embudo que desemboca en la zona más luminosa del componente.
10.5.3. Espectrograma de sonidos cuyos componentes modifican su fre-

cuencia
A continuación vamos a ver un conjunto de casos en los que podremos apreciar

cómo se observa la evolución de la frecuencia en un espectrograma. Los sonidos
son los mismos que los que utilicé en el capı́tulo 9 al explicar la envolvente de
frecuencia. Los tres primeros sonidos corresponden a la figura 9.5 y los otros dos
a la figura 9.6.
Figura 10.12: Vı́deo con el espectrograma de varios sonidos cuya frecuencia evoluciona
de diferentes formas.
206
Al igual que en los ejemplos anteriores y a diferencia de la representación de la
señal en el tiempo, el espectrograma nos permite apreciar la evolución de cada
componente por separado.
En el primer caso observamos un componente aislado que mantiene constante su
frecuencia, como podemos ver por su horizontalidad. En el segundo, vemos unas os-
cilaciones que reflejan perfectamente el vibrato que oı́mos. En él podemos apreciar
que la profundidad del vibrato aumenta y luego disminuye, pues las ondulaciones
se hacen más pronunciadas y luego menos, aunque vemos también que el ritmo de
las oscilaciones —es decir, la frecuencia del vibrato— permanece constante. En el
tercer sonido apreciamos un incremento significativo de la frecuencia tras el ata-
que, que luego baja de nuevo hasta alcanzar el nivel correspondiente en el que ya se
mantiene horizontal. En el cuarto caso tenemos un sonido formado por tres compo-
nentes armónicos que mantienen su frecuencia constante, como podemos apreciar
en su horizontalidad. Y en el quinto, vemos los mismo tres componentes anteriores,
pero ahora con un vibrato similar al del segundo sonido. En él podemos apreciar
que las ondulaciones del segundo componente son el doble de profundas que las
del primero y que las del tercero son el triple que las del primero, como era lógico
de esperar, pues los sonidos siguen siendo armónicos durante el vibrato.
10.5.4. Espectrograma de ruido blanco y sonido simple
Una vez visto cómo se pueden observar en un espectrograma los componentes

y la respectiva evolución de sus parámetros de frecuencia y amplitud, vamos a
examinar un elemento que también está presente de una u otra manera en los
sonidos musicales: el ruido. Para ver cómo aparece representado el ruido en un
espectrograma y cómo se distingue inmediatamente de un sonido musical voy a
utilizar el ejemplo de la figura 3.1 del capı́tulo 3, donde veı́amos la representación
en el osciloscopio del ruido blanco, aquél que contiene todas las frecuencias del
espectro, y de su opuesto, un sonido simple.
207
Figura 10.13: Vı́deo con un espectrograma de ruido blanco y de un sonido simple.
La representación espectral del ruido blanco es el granulado de la izquierda, mien-

tras que la lı́nea blanca de la derecha corresponde al sonido simple. Si hubiéramos
extendido la representación del espectrograma más allá de los 4.000 Hz hubiéramos
seguido observando ese mismo granulado en toda la franja audible. Idealmente un
ruido blanco contiene todas las frecuencias con la misma amplitud, por lo que de-
berı́amos haber visto, en lugar de este granulado, un rectángulo plano de un color
uniforme. Pero la aleatoriedad absoluta sólo es posible en la idealidad. Para ello
deberı́amos haber dispuesto de una duración infinita y haber tenido una garantı́a
total de que los números que hemos obtenido para generar el ruido blanco fueran
perfectamente aleatorios, no pseudo-aleatorios, como los que hemos utilizado. Ası́
mismo, cuando observamos el componente aislado, un sonido simple, deberı́amos
haber visto una lı́nea infinitamente fina, la correspondiente solamente a esa precisa
frecuencia. Sin embargo, en los espectrogramas siempre vemos para cada compo-
nente una lı́nea con un cierto grosor. Estas son las aproximaciones con las que
vamos a ver las señales en los espectrogramas que realicemos habitualmente.
10.5.5. Espectrograma de ruido de tráfico y de habla
Quiero ahora presentar un ejemplo en el que se toman dos situaciones de la vida

real en las que no hay sonido musical. Ambos ejemplos corresponden también al
capı́tulo 3: el primero consiste en la primera parte de la figura 3.4, que contiene
ruido de tráfico en un dı́a de lluvia, y el segundo en la primera parte de la figura
3.10 en el que una locutora de radio dice unas pocas palabras.
208
Figura 10.14: Vı́deo con un espectrograma de ruido de tráfico y de una locutora de
radio.
En la primera parte vemos con claridad el ruido blanco producido por la lluvia,
que cubre todo el espectro de frecuencias de una manera homogénea. En la par-
te de abajo del espectro vemos una forma granulada, correspondiente también a
ruido, pero que se sitúa en una zona de más bajas frecuencias. Es el ruido propio
del tráfico. Vemos también como el motor de un coche, al acelerar, se refleja en
la aparición de unos componentes que suben rápidamente su frecuencia. Y oı́mos
en medio de ese ruido un sonido armónico, la bocina de un coche, como se puede
apreciar con claridad por la distribución vertical de componentes igualmente es-
paciados que se observan en torno al segundo nueve y con menos claridad un poco
antes del segundo 4.
En la segunda parte del espectrograma, cuando oı́mos hablar a la locutora, vemos
una alternancia entre breves fragmentos de sonidos armónicos y un granulado
organizado en barras verticales. Es la alternancia entre ruido y sonido armónico
caracterı́stica del habla, simplificando un poco, la alternancia entre consonantes
y vocales. Vemos también que las vocales cambian de frecuencia siguiendo unos
esquemas ascendentes y descendentes dentro de unos pequeños márgenes. Estos
esquemas son los que constituyen la entonación del habla.
10.6. Conclusión
En este capı́tulo hemos estudiado cómo se puede descomponer una vibración cual-
quiera en la suma de los componentes sinusoidales que la constituyen, cada uno con
su propia frecuencia y amplitud. Al hacer esto hemos obtenido una representación
209
frecuencial del sonido analizado. Ası́ mismo, dado que habitualmente los paráme-
tros de los componentes armónicos que constituyen el sonido musical cambian a
lo largo del tiempo, hemos visto que el espectrograma es una forma adecuada
de representar esta evolución, pues muestra para cada instante la frecuencia y la
amplitud de los componentes que forman el sonido.
210
Capı́tulo 11
El timbre
El sonido de los instrumentos musicales, entre los que hay que incluir el de la voz
humana en el canto, es una realidad acústica mucho más compleja que el sonido
generado artificialmente que hemos utilizado en la mayor parte de los ejemplos
de los capı́tulos anteriores. El sonido habitual que oı́mos en las notas que forman
una pieza musical interpretada por instrumentos acústicos posee unas cualidades
que le proporcionan, por ası́ decir, un grosor y una textura que lo hacen rico y
variado, tiene “algo” que percibimos como vivo y de lo que suelen carecer los so-
nidos artificiales. Estas cualidades son las que dotan a cada sonido musical de una
individualidad, una individualidad que va a conservar incluso cuando se mezcle
con otros sonidos, como ocurre, por ejemplo, en los acordes dados en el mismo
instrumento o cuando la misma nota es emitida simultáneamente por dos instru-
mentos distintos. Este conjunto de cualidades sonoras constituyen lo que llamamos
el timbre del sonido.
La palabra “timbre” se suele usar en sentido estricto para designar los rasgos es-
pecı́ficos que caracterizan los sonidos propios de uno u otro instrumento. Ası́, se
habla del timbre del violı́n, del clarinete, del piano, etc. Sin embargo, el término
“timbre” también puede ser utilizado para nombrar el conjunto de marcas dife-
renciadoras que individualizan el sonido de cada nota musical concreta, al margen
de su altura tonal o de su volumen sonoro. Estas marcas tı́mbricas no sólo dife-
rencian un sonido de otro dentro del mismo instrumento, sino que hacen que una
misma nota dada en el mismo instrumento posea una cualidad sonora particular
dependiendo del “toque” del intérprete, el cual puede hacer incluso que suene de
diferente modo en los distintos momentos de su interpretación.
211
La palabra “timbre” significa precisamente esto: sello. Podemos considerar, ası́
pues, que el timbre es el sello propio que posee cada sonido, bien sea por
su pertenencia a un tipo de instrumentos o a un instrumento concreto, o
bien incluso por la acción intencionada del instrumentista. En este último
sentido decimos que el instrumentista “timbra” de una u otra manera cada uno de
los sonidos que ejecuta, dotándolos de unas marcas especı́ficas que forman parte
del sello de su interpretación.
En lı́neas generales, podemos decir que los sonidos producidos por la práctica to-
talidad de los instrumentos musicales son el resultado de la interacción de dos
sistemas: uno, la fuente de excitación sonora, aquellos mecanismos mediante los
cuales se provoca y se mantiene la vibración, como son, por ejemplo, las cuerdas en
el piano; otro, las estructuras que actúan de resonadores y que modifican la compo-
sición del sonido emitido por la fuente, como es, por ejemplo, la caja de resonancia.
Las posibilidades de acción sobre cada uno de estos sistemas que ofrece cada ins-
trumento al intérprete completan su caracterización tı́mbrica, como ocurre, por
ejemplo, con el vibrato en los instrumentos de afinación libre. Estas posibilidades
son los recursos expresivos con los que cuenta el intérprete para transmitir su idea
musical.
Pero no todos los instrumentos permiten al intérprete las mismas posibilidades.
En unos casos puede modificar los parámetros acústicos a lo largo de la emisión
de un sonido, como ocurre en la voz humana, el más versátil de los instrumentos,
donde el cantante puede controlar la amplitud y la frecuencia de la fuente sonora
(sus cuerdas vocales), pero también, y especialmente, puede modificar la forma de
los resonadores (su órgano bucal). Esto último le permite incrementar o disminuir
la amplitud de unos u otros componentes frecuenciales, modificando a su voluntad
y de forma constante la cualidad tı́mbrica del sonido que está emitiendo. El caso
opuesto es el del clavecinista, por ejemplo, quien dispone casi exclusivamente de la
posibilidad de disparar el mecanismo de producción del sonido mediante su acción
sobre la tecla, pero, a partir de ahı́, todo lo que sucede en el sonido viene ya
determinado por la propia constitución del instrumento, careciendo el intérprete
de cualquier medio de modificación.
Aunque el estudio del timbre no se presta con facilidad a un análisis sistemático,
un conocimiento de las causas que dan lugar a las diferentes marcas y matices
tı́mbricos que conforman el sonido de los instrumentos es esencial para entender
verdaderamente en qué consiste el sonido musical, el “material” con el que se
construye la música. Por otra parte, analizar sonidos reales nos va a ayudar a
entender cómo nuestro sistema perceptivo es capaz de organizar el conjunto sonoro
que llega a nuestros oı́dos y extraer de él las diferentes voces. Y esto es algo que
está detrás de todo nuestro sistema musical.
212
Para realizar un análisis sistemático del timbre del sonido musical tendrı́amos que
estudiar su “color”, es decir, el número de armónicos y su jerarquı́a; las envolven-
tes de amplitud y de frecuencia de cada componente; los formantes, es decir, las
resonancias propias de cada instrumento; los transitorios, es decir, los breves mi-
lisegundos que transcurren hasta que el sonido se estabiliza; la presencia de ruido
y sus caracterı́sticas; la posible existencia de algún componente no armónico; etc.
Pero el estudio sistemático de todos estos factores excederı́a el propósito de este
capı́tulo, por lo que me voy a limitar a ofrecer unos cuantos ejemplos ilustrati-
vos que muestran cómo el sonido conserva la “marca” del instrumento que lo ha
producido y la “gestualidad sonora” que ha realizado el intérprete. A través de
estos ejemplos observaremos también que nuestra percepción es capaz de detec-
tar esas marcas tı́mbricas y con ello de seguir y reconocer, hasta cierto punto, la
individualidad de cada sonido en medio de otros.
Ası́ pues, en este capı́tulo vamos a adentrarnos en el complejo mundo de la “vida
real” de los sonidos musicales. Comprobaremos que en la mayorı́a de los sonidos
musicales es habitual que cierto componente de ruido acompañe a la parte armónica
del sonido. Veremos, por ejemplo, que cuando un instrumento emite una nota,
lo más común es que los parámetros de cada uno de los componentes simples
que la constituyen evolucionen de diferente modo a lo largo del tiempo de su
emisión y que eso interviene en el timbre del sonido que escuchamos. Además,
podremos experimentar que los componentes sinusoidales de los sonidos de algunos
instrumentos, como es el caso del piano, no son estrictamente armónicos, es decir,
las frecuencias de sus componentes no son múltiplos exactos del fundamental.
En primer lugar me ocuparé del conjunto de rasgos que pertenecen a lo que ha-
bitualmente se denomina el contenido espectral de un sonido y que determinan
sus cualidades sonoras, su color. Puesto que el espectrograma nos ofrece una ima-
gen bastante completa de la “vida” del sonido musical, utilizaré varios vı́deos con
espectrogramas que nos permitirán observar los rasgos tı́mbricos que están vincu-
lados a la estructura y a la evolución individual de los componentes frecuenciales,
ası́ como la posible presencia de ruidos caracterı́sticos que acompañan a la emisión.
En segundo lugar mostraré la importancia que para la caracterización del timbre
tiene la evolución temporal de los parámetros del sonido en su conjunto, es decir,
la envolvente de amplitud y la envolvente de frecuencia.
11.2. Rasgos tı́mbricos derivados del contenido espectral

Empezaremos estudiando, a modo de ejemplo, los rasgos más destacados que se
pueden observar en el contenido espectral de unos cuantos sonidos instrumenta-
213
les. Se trata de sonidos de piano, de violı́n y de clarinete. He procurado elegir
ejemplos en los que sea fácilmente apreciable la relación entre lo que vemos en el
espectrograma y lo que oı́mos.
El primer ejemplo consiste en dos frases breves formadas por notas salteadas del
registro medio-grave del piano. La segunda frase se repite al final con un toque
más suave. Las notas son: sib2 , mib3 , solb3 ,dob3 ; mib3 , lab3 , dob4 , re3 ; mib3 , lab3 ,
dob4 , re3 .
El segundo ejemplo pertenece al registro medio-agudo del piano y consiste en una
frase formada principalmente por notas consecutivas: la4 , si4 , do5 , re5 , mi5 , do5 ,
si4 , la4 , fa5 .
Esta frase se repite dos veces, la primera con un toque intermedio y la segunda
con un toque más duro. Tanto en este ejemplo como en el anterior las notas de
cada frase están ligadas y no he utilizado ningún pedal.
El tercer ejemplo consta de una frase de violı́n y otra de clarinete. La frase de
violı́n está formada por tres notas: la primera es sol3 , la nota más grave del violı́n
que se obtiene con la cuarta cuerda al aire; la segunda y la tercera son fa#5 y sol5 ,
esta última ejecutada con vibrato. La frase de clarinete está formada por dos pares
de notas ligadas, de las cuales las segundas son el resultado de abrir el portavoz
sin modificar la posición. La primera pareja la forman el re3 , la nota más grave del
clarinete en sib con todos los orificios tapados, y el la4 , la misma posición con el
portavoz abierto. La segunda pareja está compuesta por el mib3 y el sib4 .
Para cada uno de los tres ejemplos presentaré dos vı́deos con sus correspondien-
tes espectrogramas, a fin de mostrar, mediante la modificación de la escala de
color, diferentes aspectos de su contenido espectral. En todos los espectrogramas
la duración de la ventana de análisis ha sido de 50 milésimas de segundo, lo que,
como vimos, da como resultado un compromiso aceptable entre la resolución en
tiempo y en frecuencia. De esta forma podremos distinguir con suficiente clari-
dad los componentes que constituyen cada sonido y a la vez seguir su evolución
temporal.
En el primero de los dos espectrogramas de cada ejemplo la escala de colores refleja
linealmente las amplitudes de cada componente, desde el negro, que corresponde
al 0, hasta el blanco, que corresponde al 1, con todas las gradaciones intermedias,
como indiqué en el capı́tulo dedicado al análisis espectral. Dado que, en general, la
amplitud relativa de los componentes muy agudos es muy pequeña, con esta escala
de colores no se observa prácticamente ningún componente más allá de los 5.000
Hz, por lo que he limitado el rango de estos espectrogramas a esta frecuencia.
214
El segundo espectrograma de cada ejemplo nos va a permitir observar con claridad
los componentes que están en la banda alta de frecuencias. Aunque la amplitud
de estos componentes muy agudos es, en general, muy pequeña, nuestro oı́do es
muy sensible a su presencia y, si bien su importancia para el reconocimiento de la
altura tonal es escasa, influyen mucho en el color del sonido. Si los componentes
que se encuentran en esas zonas superiores del espectro no fueran importantes para
nuestra percepción acústica, no tendrı́a sentido que los reproductores de música
de calidad se distinguieran, entre otras cosas, por su capacidad para reproducir
con fidelidad los componentes más agudos. Para hacer visibles estos componentes
muy agudos he modificado la escala de colores, de tal forma que el color blanco
representa ahora cualquier amplitud superior a una centésima, dentro de la escala
normalizada del 0 al 1. Al hacerlo ası́, surgen del fondo oscuro del espectrograma
nuevos componentes que antes estaban fundidos con el color negro. Ahora bien,
desaparecen las diferencias entre las amplitudes que se pueden apreciar con la
escala de color sin alterar de los primeros espectrogramas, ya que cualquier valor
superior a una centésima queda representado ahora por el color blanco. Esto explica
el engrosamiento que se observa en los componentes más graves. Esta escala de
color nos permitirá también apreciar mejor la presencia de ruido y su influencia
en la caracterización de los sonidos musicales. No obstante, he limitado el rango
de estos segundos espectrogramas a los 10.000 Hz, pues, aunque desde el punto de
vista de la calidad de la reproducción sonora son muy importantes los componentes
que están por encima de esta frecuencia, para nuestro estudio sobre las marcas
tı́mbricas este lı́mite es suficiente.
Veamos, pues, uno detrás de otro los vı́deos con los tres ejemplos sonoros y sus
correspondientes espectrogramas. Recomiendo ver y escuchar con detenimiento
cada uno de los vı́deos para adquirir familiaridad a la hora de relacionar lo que se
ve con lo que se oye.
215
Figura 11.1: Vı́deo con el espectrograma de una melodı́a de piano en el registro medio-
grave.
Figura 11.2: Vı́deo con el espectrograma de banda alta de la melodı́a de piano de la

figura 11.1.
216
Figura 11.3: Vı́deo con el espectrograma de una melodı́a de piano en el registro medio-
agudo.
Figura 11.4: Vı́deo con el espectrograma de banda alta de la melodı́a de piano de la

figura 11.3.
217
Figura 11.5: Vı́deo con el espectrograma de unas notas de violı́n y clarinete.
Figura 11.6: Vı́deo con el espectrograma de banda alta de las notas de violı́n y clarinete
de la figura 11.5.
Lo primero que podemos observar es que todos estos espectrogramas son de so-
nidos naturales, es decir, de sonidos producidos por instrumentos acústicos, pues
podemos apreciar imperfecciones, ruidos y variaciones que lo hacen rico y “vivo”.
Ası́, en el espectrograma de banda alta del primer ejemplo, el de la figura 11.2,
observamos que aproximadamente en el segundo 12,5 aparece una pequeña franja
218
vertical. Si el volumen del altavoz de nuestro reproductor es lo suficientemente
alto, reconoceremos en ese momento el ruido que se ha producido al levantar la
tecla que ha dado el re3 . Un poco más adelante (en la penúltima nota, en torno al
segundo 16,7, casi al final de la duración del dob4 ) oı́mos un pequeño ruido sordo
que enmascara momentáneamente el sonido de la nota y que se corresponde con
una pequeña franja vertical en el espectrograma. Y al finalizar el pasaje, en la
última nota (un poco antes del segundo 18) oı́mos y vemos en el espectrograma
un pequeño chasquido ambiental. Por otra parte, el granulado que está por debajo
de los componentes más graves en todo el espectrograma coincide con el ruido
ambiente de la grabación doméstica.
Ciertamente, en medio del sonido emitido por los instrumentos musicales hay mu-
chas formas de ruido, todas ellas caracterizadas por una acumulación de compo-
nentes en una determinada zona del espectro. En el caso del piano, por ejemplo,
como veremos enseguida, determinados tipos de ruido forman parte de su propia
caracterización tı́mbrica.
Con la ayuda de estos ejemplos vamos a examinar a continuación los rasgos tı́mbri-
cos a mi juicio más relevantes que se aprecian en el contenido espectral del sonido
de los instrumentos musicales. Estos rasgos son, en parte, resultado de la constitu-
ción de cada instrumento y, en parte, resultado de las acciones del intérprete.
En primer lugar nos ocuparemos de las peculiaridades espectrales que comparten
los sonidos del mismo instrumento, es decir, aquellas caracterı́sticas que poseen
los sonidos del piano por ser de piano, los del violı́n por ser de violı́n o los del
clarinete por ser de clarinete. Para no alargar en exceso este capı́tulo, me centraré
en las marcas especı́ficas del sonido del piano. En segundo lugar estudiaremos
las diferencias en contenido espectral que presentan cada sonido individual del
mismo instrumento. Veremos cómo la cualidad sonora de una nota del piano es
diferente de la de otras notas del mismo piano, igual que cada nota del violı́n es
diferente de otras del mismo violı́n, y lo mismo en el caso del clarinete. Y en tercer
lugar analizaremos las diferencias en el contenido espectral que son resultado de
las acciones intencionadas que realiza el intérprete al emitir cada nota según sus
propósitos expresivos en cada momento de la interpretación.
11.2.1. Rasgos espectrales caracterı́sticos del tipo de instrumento
Puesto que, como acabo de decir, un estudio detenido válido para cualquier ins-
trumento excederı́a el objetivo de este curso, me ha parecido oportuno elegir como
ejemplo el caso del piano para estudiar sus peculiaridades tı́mbricas. Empezaremos
analizando cómo quedan reflejadas en los espectrogramas que acabamos de ver las
219
marcas tı́mbricas propias de este instrumento, es decir, los rasgos sonoros que nos
permiten reconocer que un determinado sonido ha sido emitido por un piano, y no
por un violı́n, por un clarinete o por cualquier otro instrumento.
Si comparamos los espectrogramas de los tres instrumentos podemos distinguir las
siguientes caracterı́sticas propias de los sonidos del piano:
a) Todos los componentes del piano mantienen una total horizon-

talidad. Ciertamente también son horizontales los componentes del sol3 del
violı́n o incluso los del re3 y mib3 del clarinete, aunque, si nos fijamos en el
detalle, nos damos cuenta de que estos últimos son algo menos horizontales.
Ahora bien, en ninguna nota de piano podremos encontrar nunca una osci-
lación de los componentes a lo largo de su duración, como ocurre en el caso
del sol5 del violı́n o, aunque en un grado menor, en el la4 y el sib4 del clari-
nete. Los componentes del piano ni siquiera presentan una ligera inflexión, a
diferencia de los del violı́n, como podemos apreciar en el inicio del fa#5 de
este instrumento. En efecto, la estabilidad de la frecuencia es un rasgo
distintivo de los componentes del sonido de piano.
b) Los componentes de las notas del piano poseen en el espectrogra-
ma cierto aspecto triangular: son más gruesos en el comienzo, donde
al poco de empezar alcanzan su máxima luminosidad, y luego pro-
gresivamente se adelgazan y oscurecen. El grosor con el que empieza
cada componente se debe al ruido inicial producido durante el ataque. El
modelo de paso brusco de ruido a frecuencia estable es común a todas las
notas del piano. Esto se aprecia más claramente en las notas agudas, donde la
presencia del ruido es más duradera y destacable. Esto sucede porque cuan-
do el martillo golpea la cuerda del piano se produce un ruido inicial que va
transformándose en vibración periódica, es decir, en un conjunto de compo-
nentes claramente definidos. Este momento inicial, que se llama “transitorio
de ataque”, es especialmente significativo para definir el timbre del piano, y
es ahı́, en este momento, donde se concentra la mayor parte de la información
que el pianista puede proporcionar, pues a partir de entonces es ya la propia
constitución del instrumento la que determina la evolución de los parámetros
sonoros, sin que el intérprete pueda hacer nada para modificarlos.
c) Salvo las excepciones que veremos en el apartado “d”, un rasgo carac-
terı́stico de las notas del piano es que sus componentes tienden a
desvanecerse y a perder paulatinamente su brillo. Los espectrogramas
de las figuras 11.1 y 11.3 traducen la atenuación progresiva de la intensidad
sonora que se produce tras el momento inicial del ataque de la nota de piano,
momento en el que se acumula toda la aportación de energı́a que realiza el
220
intérprete y que queda reflejado en ese punto inicial de fuerte luminosidad que
poseen muchos componentes. A diferencia de los sonidos del piano, los com-
ponentes de las notas del violı́n y del clarinete, como podemos observar en el
espectrograma de la figura 11.5, pueden disminuir, mantener o incrementar su
brillo a lo largo de su emisión, pues en estos instrumentos la energı́a sonora
se modifica a voluntad del intérprete, quien ha de aportar energı́a constante-
mente para que el sonido siga produciéndose.
d) En ocasiones los componentes del piano se desvanecen y vuelven a
aparecer, como podemos apreciar en los armónicos segundo, tercero y cuarto
de la nota dob4 del espectrograma de la figura 11.1, en torno al segundo
9,5, o con más claridad en muchos componentes de las notas de las figuras
11.2, 11.3 y 11.4. Nada parecido observamos en los espectrogramas del violı́n
o del clarinete. Podemos comprobar que el espectrograma refleja lo que el
oı́do percibe como pequeñas pulsaciones. Estas pulsaciones son el resultado
de las interferencias que se producen por las pequeñı́simas desigualdades de
frecuencia que habitualmente hay entre las dos o tres cuerdas unı́sonas que
suenan al pulsar cada tecla del piano.
e) Los componentes frecuenciales del sonido del piano no son es-
trictamente armónicos. Si bien un sonido musical se caracteriza por ser
armónico, ocurre que en la propia naturaleza de los sonidos de algunos ins-
trumentos como el piano hay una pequeña inarmonicidad, la cual le otorga
precisamente una cualidad sonora caracterı́stica. La inarmonicidad es una
marca tı́mbrica del sonido del piano. Aunque no es fácil apreciarla a
simple vista en los espectrogramas, el oı́do sı́ la reconoce enseguida. La inar-
monicidad se produce porque las frecuencias de los sucesivos componentes del
piano se apartan cada vez más de la que les deberı́a corresponder si siguie-
ran estrictamente la serie armónica. Los armónicos de una nota del piano no
son exactamente múltiplos de la frecuencia fundamental, sino que progresiva-
mente se van abriendo: la frecuencia del segundo armónico, en lugar de ser el
doble de la fundamental, puede ser, por ejemplo, de 2,002 veces esa frecuen-
cia; la del tercero, en lugar de ser exactamente tres veces la del fundamental,
puede ser de 3,005 veces; y ası́ sucesivamente, de modo que la frecuencia del
noveno armónico ya será una 9,14 veces la del fundamental, pues la apertura
va aumentando conforme mayor es el número del armónico.
Podemos observar la inarmonicidad del piano mediante un nuevo ejemplo. Ahora

se trata de la nota sol3 dada por un piano, seguida de esa misma nota emitida
por un violı́n con la cuerda al aire, de manera que no presenta ningún vibrato ni
inestabilidad en su frecuencia. Para este espectrograma he utilizado una ventana
221
de análisis muy larga, lo que nos va a permitir obtener una resolución en frecuencia
muy elevada, pues, lo que nos interesa ahora es atender a las frecuencias de los
componentes, aunque perdamos resolución temporal. He modificado el mapa de
color para poder apreciar los componentes más débiles. Sólo vamos a estudiar lo
que ocurre en los primeros nueve armónicos.
Figura 11.7: Vı́deo con el espectrograma de ventana muy larga de la nota sol3 dada
primero por un piano y luego por un violı́n.
En el espectrograma he medido la frecuencia de cada uno de los componentes,

tanto los de la nota de piano como los de la nota de violı́n. A continuación pongo
una tabla con los valores que he obtenido en ambos instrumentos y, para que sirva
de referencia, las frecuencias que les hubieran correspondido a los componentes si
hubieran seguido estrictamente la serie armónica. Hay que tener en cuenta que,
como se trata de sonidos naturales, la afinación de la nota de piano y la de violı́n no
coinciden exactamente, sino que hay una pequeña diferencia de décimas de hercio:
el componente fundamental del piano mide 195,5 Hz y el del violı́n 195,9 Hz.
222
Piano serie Piano Violı́n serie Violı́n
armónica (Hz) medido (Hz) armónica (Hz) medido (Hz)
195,5 x 1 = 195,5 195,5 195,9 x 1 = 195,9 195,9
195,5 x 2 = 391,0 391,3 195,9 x 2 = 391,8 391,8
195,5 x 3 = 586,5 587,5 195,9 x 3 = 587,7 587,7
195,5 x 4 = 782,0 784,4 195,9 x 4 = 783,6 783,6
195,5 x 5 = 977,5 982,1 195,9 x 5 = 979,5 979,5
195,5 x 6 = 1.173,0 1.180,9 195,9 x 6 = 1.175,4 1.175,4
195,5 x 7 = 1.368,5 1.381,4 195,9 x 7 = 1.371,3 1.371,3
195,5 x 8 = 1.564,0 1.583,5 195,9 x 8 = 1.567,2 1.567,2
195,5 x 9 = 1.759,5 1.786,8 195,9 x 9 = 1.763,1 1.763,1
Tabla 11.1: Frecuencias de los componentes de la nota de piano y de la nota de violı́n.
Si comparamos los valores de las columnas correspondientes a los instrumentos

medidos con los respectivos valores de referencia según la serie armónica, podemos
verificar que los componentes de la nota de violı́n son armónicos hasta la décima
de hercio, mientras que los del piano se van apartando cada vez más, de modo que
la diferencia es bastante significativa en los componentes superiores, exactamente
de 27,3 hercios en el noveno armónico.
Esta inarmonicidad, que es consecuencia de la rigidez de las cuerdas del piano, da al
instrumento un sonido ligeramente metálico muy caracterı́stico. La inarmonicidad
del piano provoca también problemas en la afinación y obliga al afinador a estirar
artesanalmente las octavas.
11.2.2. Diferencias del contenido espectral entre las distintas notas del
mismo instrumento
Las notas de un clarinete suenen todas a clarinete y las de un piano suenen todas
a piano, pero cada instrumento e incluso cada nota del mismo instrumen-
to posee un color propio, unos matices que le otorgan una sonoridad
peculiar.
223
Como se explica en el capı́tulo dedicado al sonido armónico, la mayor o menor
importancia que posee cada componente dentro del conjunto —es decir, su jerar-
quı́a— determina la cualidad sonora que percibimos, su color. En efecto, el conte-
nido espectral de todas las notas del mismo instrumento no es idéntico.
De un instrumento a otro y de una nota a otra cambia la importancia
relativa que cada componente posee respecto al conjunto. Para observar
que esto es ası́ volveremos a los tres ejemplos sonoros que he presentado al princi-
pio y a sus respectivos espectrogramas (figuras 11.1 a 11.6). Comprobaremos que
el hecho de que varı́e el contenido espectral de una nota a otra dentro del mismo
instrumento hace que cambie su cualidad sonora.
Primero vamos a examinar las diferencias de sonoridad que se producen entre
notas cuya tesitura está alejada y luego las que existen entre notas muy cercanas.
Por último, comentaré brevemente las causas de estas diferencias entre sonidos del
mismo instrumento.
a) Diferencias tı́mbricas entre notas pertenecientes a distintos registros del mismo

instrumento
Para explicar la influencia del registro tonal en la cualidad tı́mbrica de las notas
emitidas por el mismo instrumento voy mostrar los que ocurre en el piano y en el
violı́n mediante los ejemplos sonoros de los vı́deos que he presentado antes.
Empezaremos estudiando al caso del piano. En los vı́deos con los dos ejemplos de
piano (los espectrogramas de las figuras 11.1 a 11.4) podemos apreciar la diferencia
de sonoridad que hay entre las notas del registro medio-grave y las notas del registro
medio-agudo.
Atendamos a los espectrogramas de los dos ejemplos de piano en los que la escala
de color no está alterada (los de las figuras 11.1 y 11.3). Podemos apreciar que la
mayor parte de las notas que pertenecen al registro medio-grave (las del primer
caso) presentan abundantes armónicos visibles, diez o incluso más, mientras que
en las notas que pertenecen al registro medio-agudo (las del segundo caso) el
número de armónicos que se pueden distinguir con claridad está en torno a tres o
cuatro.
Examinemos ahora los espectrogramas que nos permiten apreciar mejor la banda
alta del espectro de esos dos ejemplos de piano (el de las figuras 11.2 y 11.4).
Puesto que la escala de color ahora representa como blanco todo valor de ampli-
tud superior a una centésima, vemos que aparecen los componentes de la banda
alta, cuya amplitud es generalmente muy reducida y que no se veı́an en los es-
pectrogramas anteriores. Podemos comprobar también ahora que el número de
224
componentes visibles es notablemente mayor en las notas del registro medio-grave
(las del espectrograma de la figura 11.2) que en las del registro medio-agudo (las
del espectrograma de la figura 11.4).
En estos dos ejemplos podemos observar que lo que vemos en los espectrogramas
coincide plenamente con lo que oı́mos en los respectivos vı́deos: mientras que las
notas del primer ejemplo suenan más llenas, más redondas, las del segundo tienen
una sonoridad más clara, más perlada. En resumen, podemos concluir que el color
de las notas del piano es muy diferente en el registro medio-grave y en el
registro medio-agudo, a pesar de la proximidad que hay entre ambos registros.
Las diferencias hubieran sido mucho más exageradas si hubiéramos comparado
notas del piano de los registros extremos, el más grave y el más agudo, pero me
ha parecido oportuno situar los ejemplos dentro del rango habitual de la música
de piano.
Por otra parte, en estos últimos espectrogramas podemos apreciar que el ruido,
que acompaña el ataque de la nota en todos los sonidos de piano y
que es un elemento caracterı́stico del timbre de este instrumento, no
tiene la misma importancia en las notas agudas que en las graves. Si
nos fijamos en el espectrograma de la figura 11.4 (el del registro medio-agudo
del piano) observamos que el inicio de cada nota va acompañado de una serie
de emborronamientos y sombreados de tendencia vertical que se diluyen al cabo
de muy poco tiempo y que señalan la presencia de ruido. Ahora bien, aunque
este ruido de ataque se puede observar también en el espectrograma de banda
alta que corresponden al primer ejemplo del piano (el de la figura 11.2), donde
se dan notas del registro medio-grave, podemos comprobar que su incidencia es
claramente menor. Esa diferente presencia del ruido de ataque en ambos registros
es también una marca tı́mbrica que distingue nuestro oı́do.
Veamos ahora en el caso del violı́n cómo se aprecian las diferencias tı́mbricas entre
notas de distintos registros tonales, pero del mismo instrumento. Volvamos a las
notas que suenan en la primera parte del tercer ejemplo que he presentado antes (el
que corresponde a los espectrogramas de las figuras 11.5 y 11.6). Hay una distancia
de casi dos octavas entre la primera y la segunda nota: primero suena la nota más
grave de este instrumento, el sol3 , dado con la cuarta cuerda al aire, y luego el
fa#5 seguido del sol5 , dadas ambas con la primera cuerda presionada con los dedos
para acortar su longitud.
Si analizamos el contenido espectral de la nota sol3 del violı́n del espectrograma
de la figura 11.5, encontramos que el primer armónico es inapreciable y que el
componente más destacado es el segundo; el tercero, cuarto y quinto armónico
tienen una escasa presencia, mientras que el sexto aparece con claridad; el séptimo,
225
octavo y noveno armónico casi pasan desapercibidos, pero el décimo y el undécimo
se observan con bastante nitidez. Ahora bien, el contenido armónico de las notas
agudas del violı́n, el fa#5 y el sol5 , es totalmente distinto: en ambos casos los
cuatro primeros armónicos tienen una presencia destacada, mientras que el quinto
y el sexto están más atenuados.
Comprobamos que la sonoridad de los dos grupos de notas es también muy distinta:
el fa#5 y el sol5 tienen una cualidad sonora brillante, casi hiriente, mientras que
el sonido del sol3 es más cálido y envolvente. Entenderemos mejor la razón de
la sonoridad agresiva de esas notas del registro agudo si nos fijamos en el otro
espectrograma del mismo ejemplo (el de la figura 11.6). Vemos que en esas notas
hay una presencia destacada de armónicos en toda la banda superior, lo que explica
esa sonoridad casi hiriente.
Ası́ pues, hemos podido experimentar en el caso del piano y del violı́n que las
diferencias en el contenido espectral de notas de diferentes registros
dan lugar a unas marcas tı́mbricas especı́ficas.
b) Diferencias tı́mbricas entre notas próximas del mismo instrumento
Una vez que hemos examinado la diferente cualidad sonora de notas del mismo
instrumento que pertenecen a regiones de la voz alejadas, vamos a ver que también
existen diferencias entre notas que son casi consecutivas. Estas diferencias son más
difı́ciles de apreciar por el oı́do y requieren una audición más atenta, capaz de hacer
abstracción de la diferente altura tonal para prestar atención exclusivamente a la
cualidad sonora.
Comenzaré con la frase de clarinete que aparece en la segunda parte del tercer
ejemplo (figuras 11.5 y 11.6). Las notas forman una doble pareja que distan entre
sı́ un semitono. La primera pareja, el re3 y el la4 , han sido producidas con toda la
longitud del tubo, en el caso del re3 con todos los agujeros tapados y en el caso
del la4 continuando con todos los orificios tapados excepto el portavoz (el orificio
cuya apertura provoca en el clarinete la emisión del tercer armónico, la nota que
está a una distancia de octava y quinta). La otra pareja, el mib3 y el sib4 , ha sido
producida de forma similar, pero con el acortamiento del tubo sonoro.
Como ahora pretendo mostrar la diferente cualidad sonora entre notas que están
muy próximas, no voy a analizar las diferencias de sonoridad que existen entre las
notas del registro grave del clarinete —el llamado chalumeau— y las del registro
agudo, el registro cları́n que da nombre a este instrumento y que se producen al
abrir el portavoz. Atenderemos al diferente contenido espectral entre notas que
226
pertenecen al mismo registro, es decir, el re3 y mib3 , por un lado, y el la4 y sib4 ,
por otro.
Un rasgo caracterı́stico del sonido del clarinete es la prevalencia de los armónicos
impares. Fijémonos, en primer lugar, en el mib3 , la tercera de las notas emitidas
por el clarinete. En efecto, en el espectrograma se observan casi exclusivamente los
armónicos impares: primero, tercero, quinto, etc, hasta el undécimo, y acaso parece
vislumbrarse un poco el duodécimo. En el caso del re3 , la primera nota, observamos,
ası́ mismo, la prevalencia de los armónicos impares, pero comprobamos que también
hay una cierta presencia de los armónicos pares: el sexto, el octavo, el décimo y
el duodécimo. Como hemos experimentado hasta ahora, estas diferencias en la
importancia de los componentes armónicos deberı́an ser percibidas por nuestro
oı́do como diferencias en la cualidad sonora.
Para facilitar la apreciación auditiva de estas diferencias, he realizado un nuevo
vı́deo con los dos sonidos que quiero comparar, uno a continuación del otro. Para
que la diferente altura tonal no distraiga nuestra atención sobre la cualidad sonora
de cada nota, he bajado artificialmente un semitono la segunda nota, el mib3 , de
modo que ha quedado convertido en un re3 , y ası́ ambas notas tienen la misma
altura tonal.
Figura 11.8: Vı́deo con el espectrograma de dos notas de clarinete con diferente con-
tenido espectral.
Ahora podemos distinguir bastante bien la diferente cualidad sonora de ambas

notas. En efecto, oı́mos dos notas de igual altura tonal, pero con distintos matices
de color: mientras la primera tiene un sonido más bien profundo y lleno, la segunda
resulta más áspera.
227
Si comparamos el contenido espectral de las otras dos notas del clarinete, las del
registro agudo, vemos que en el la4 aparece el segundo armónico, un armónico par
que está ausente en el sib4 . También observamos que el componente más destacado
del la4 es el fundamental, mientras que en el sib4 es el tercer armónico el que tiene
más relevancia. Estas diferencias en el contenido espectral explican las
distintas cualidades sonoras que oı́mos en dos notas consecutivas.
Veamos por último cómo dos notas próximas de piano tienen una cualidad sonora
diferente. Volvamos al vı́deo de la figura 11.3, donde se repite una pequeña fra-
se ligada formada por notas predominantemente seguidas. Todas las notas de la
primera frase han sido dadas con el mismo toque, por lo que las diferencias de
sonoridad que apreciemos se tienen que deber necesariamente a la propia consti-
tución del instrumento. Prestemos atención en el espectrograma, por ejemplo, a la
jerarquı́a armónica de las tres primeras notas: la4 , si4 y do5 . Observamos que en el
la4 , aunque en el momento del ataque el armónico primero es el que tiene una pre-
sencia mayor, el que termina prevaleciendo es el segundo; en el si4 el armónico más
importante es el tercero; y en el do5 el que posee mayor importancia es claramente
el primer armónico. Ası́ pues, la diferente jerarquı́a en el contenido espectral de
estas tres notas es la razón de que oigamos una cualidad sonora distinta en cada
una de ellas.
Esta diferente cualidad sonora de cada una de las notas del mismo piano explica,
por ejemplo, que algunos pianistas que no poseen oı́do absoluto —es decir, que
no son capaces de identificar una nota aislada de un instrumento cualquiera sin
una referencia previa— puedan reconocer sin ninguna dificultad cualquiera de las
notas del instrumento en el que habitualmente interpretan.
c) Causas de las diferencias tı́mbricas entre notas del mismo instrumento
El estudio detenido de las causas fı́sicas que explican las diferencias de sonoridad
entre las notas de un instrumento excede el objetivo de este capı́tulo. Pero si
atendemos a lo que sucede, por ejemplo, en el caso del violı́n, podemos hacernos
una idea, aunque sea vaga, de las razones de esa peculiaridad tı́mbrica. Por un lado,
todo violinista sabe que no suena lo mismo una nota tocada en una cuerda que esa
misma nota tocada en otra cuerda del mismo instrumento. Ocurre que cada cuerda
del violı́n vibra de forma distinta, debido a su grosor, a su constitución material,
por estar o no entorchada, etc. Y esa diferente vibración produce un contenido
espectral distinto del de las otras cuerdas del mismo instrumento y, por lo tanto,
una sonoridad particular.
228
Por otro lado, hay que tener en cuenta que no oı́mos directamente la vibración de
la cuerda de un violı́n, la cual solo podrı́a poner en movimiento una pequeñı́sima
cantidad de aire; lo que realmente oı́mos son las vibraciones que la cuerda provoca
en la caja de resonancia del instrumento a través del puente, vibraciones que ya
son capaces de mover una cantidad de aire suficiente como para que llegue con
claridad a nuestro oı́do. Pero esa caja de resonancia tiene sus frecuencias propias
de vibración, por lo que resonará más o menos con los diferentes componentes
de la cuerda que vibra, amplificando unos y disminuyendo otros, de manera que
transforma el contenido espectral original de la cuerda, alterando su jerarquı́a
y dejando en el sonido su propia huella. Las resonancias destacadas de la caja
constituyen una caracterı́stica fundamental de los instrumentos musicales y reciben
el nombre de formantes. Igual que en el caso del habla estos formantes son decisivos
a la hora de distinguir las diferentes vocales, en el caso de los instrumentos influyen
de una manera muy marcada en el color de las notas que emiten.
Un ejemplo interesante de la influencia de estos formantes que definen las frecuen-
cias de resonancia de cada instrumento nos la ofrece el vibrato del violı́n sobre la
nota sol5 en el vı́deo de la figura 11.5, en torno al segundo 4. Si observamos el vi-
brato sobre el sol5 vemos que, además de la ondulación caracterı́stica que muestra
la variación de la frecuencia, en la parte más baja del tercer armónico hay como
unos puntos de luz casi blanca. Estos puntos indican que en esos instantes se ha
producido una amplitud máxima en ese componente. Dicho de otra manera, el
vibrato no sólo ha ocasionado una variación de la frecuencia, sino que también ha
oscilado el color del sonido, es decir, la mayor o menor prevalencia de unos u otros
componentes.
Esta oscilación de la cualidad sonora que posee el vibrato del violı́n es un rasgo
caracterı́stico de este instrumento. Si lo comparamos con el vibrato menos pro-
fundo del clarinete que podemos observar también en el mismo espectrograma (o
incluso mejor en el de banda alta de la figura 11.6) sobre las notas la4 , en torno al
segundo 8, y sib4 , en torno al segundo 13, vemos que en el clarinete no hay cambio
de color, sino que la cualidad sonora se mantiene igual a lo largo de toda la emisión
de la nota y solo oscila la altura tonal. La explicación fı́sica de este rasgo carac-
terı́stico del violı́n reside en las propiedades de su caja de resonancia, que responde
de diferente manera a componentes frecuenciales muy próximos. En este caso, el
tercer armónico resuena mucho más cuando el vibrato está en la parte baja de su
oscilación, debido a que en ese instante su frecuencia coincidirá con la frecuencia
de una de las múltiples resonancias naturales de la caja del violı́n. En consecuen-
cia, el tercer armónico adquiere en esos momentos una función predominante en
la jerarquı́a de los componentes.
229
11.2.3. Modificación del contenido espectral por la acción del intérpre-
te
Una vez entendido que cada instrumento, por sus propias caracterı́sticas fı́sicas,
imprime su personalidad en el contenido espectral de los sonidos que produce y,
por lo tanto, posee su propia cualidad tı́mbrica, vamos a atender ahora a las huellas
que las acciones del intérprete dejan en la jerarquı́a espectral de los componentes
de cada nota, las cuales se traducen en su particular cualidad sonora.
Una parte importante de la formación de un instrumentista consiste en aprender
a “fabricar el sonido”. Esto es evidente en el caso de un intérprete de violı́n, pues
pueden pasar años hasta que un violinista consiga obtener un sonido aceptable,
pero también es válido en el caso del piano. A pesar de que el sonido del piano
parezca estar fabricado de antemano y de que aparentemente el pianista solo deba
bajar la tecla, basta escuchar unas pocas notas para distinguir si han sido eje-
cutadas por un intérprete formado o por un estudiante que está empezando. En
efecto, pequeñı́simas diferencias en la velocidad de bajada de la tecla —es decir,
en el “toque”— se traducen en claras diferencias en la sonoridad y en el color del
sonido que se obtiene.
Comencemos observando la relación entre el toque del instrumentista y la mayor
o menor presencia de armónicos superiores. Volvamos sobre las frases de piano de
los dos primeros ejemplos (figuras 11.1 a 11.4). Fijémonos en primer lugar en el
segundo ejemplo, el de los vı́deos de las figuras 11.3 y 11.4. Apreciamos la diferente
cualidad sonora de las notas de la primera frase, que han sido dadas con un toque
intermedio y natural, y las de la segunda, donde la misma secuencia de notas se
repite con un toque más duro y enérgico.
Esa diferencia en la cualidad sonora queda reflejada en el contenido espectral que
vemos, sobre todo en la figura 11.4, donde la escala de color ha sido preparada
para observar la banda alta. El toque más duro de la segunda repetición se ha
traducido en una mayor presencia y relevancia de los armónicos superiores. En
efecto, en el piano un ataque más duro produce una nota con mayor volumen
sonoro, pero también con un contenido más rico en armónicos superiores. Estos
armónicos superiores son los que le proporcionan al sonido un color brillante e
incisivo.
Escuchemos ahora el primer ejemplo, el de las figuras 11.1 y 11.2. Como hemos
visto ya, está formado por tres breves frases, cada una de cuatro notas. La tercera
frase es una repetición de la segunda, pero ejecutada con un toque más delicado.
Fijémonos en la diferencia de contenido espectral entre ambas. Tanto en el vı́deo de
la escala de color completa (figura 11.1), como el de la escala de color modificada
230
para resaltar la banda alta (figura 11.2), comprobamos que hay bastante diferencia
en el número y la importancia de los armónicos superiores: en la segunda repetición,
la que tiene el toque más delicado, el número de armónicos superiores visibles es
menor que en la primera y predominan muchos más los armónicos inferiores. Esta
hace que el sonido de esta frase sea mucho más dulce.
A diferencia del ejemplo de piano anterior, donde todas las notas de la misma frase
habı́an sido ejecutados con un toque homogéneo, aquı́ cada nota ha tenido su propio
toque. El intérprete ha pretendido dar a cada una de ellas un significado propio,
una personalidad, como si cada una tuviera que decir algo distinto sólo ya con su
sonido. Por no alargar en exceso el comentario, me voy a centrar en una nota que
adquiere especial singularidad, el dob4 , en la segunda ejecución, pasado ligeramente
el segundo 16. La cualidad sonora de esta nota es distinta de todas las demás. Su
sonido es destacadamente suave y conciso. Si observamos el espectrograma en las
figuras 11.1 y 11.2 vemos que el primer armónico presenta aquı́ una relevancia
mucho más destacada que en el resto de las notas que la rodean. La interacción
entre el instrumento y el toque del pianista ha dejado su marca en esa importancia
casi absoluta del componente fundamental.
Mediante estos ejemplos hemos podido comprobar que el toque del pianista, es
decir, la mayor o menor velocidad con la que baja la tecla, repercute en
el contenido espectral y, por lo tanto, en el color del sonido que obtiene.
Conforme más duro es el ataque, mayor es el contenido de armónicos
superiores que despierta.
Esto que hemos visto en el caso del piano es común a la mayor parte de los
instrumentos, ası́ como a la voz humana. Una persona gritando producirá un mayor
volumen sonoro, pero todos podemos distinguir que una persona está gritando
aunque el volumen que oigamos sea muy bajo. Ello se debe a que la cualidad del
sonido, el contenido armónico, es diferente: un incremento en el volumen va
asociado a un incremento en el número e importancia de los armónicos
superiores.
En el ejemplo de violı́n de las figuras 11.5 y 11.6 hemos visto que la diferente
sonoridad que oı́mos entre el sol3 , por un lado, y el fa#5 y sol5 , por otro, se debe a
la diferencia entre las cuerdas y al hecho de haber sido tocadas al aire o pulsadas
con el dedo. Pero otra parte importante de la cualidad sonora peculiar de cada una
de estas notas viene dada por la mayor presión o velocidad con la que el arco ha
frotado la cuerda en las notas superiores. Dicho de otra forma, el alto contenido
armónico en la zona superior del espectro es consecuencia de esa mayor energı́a
del arco que ha empleado el violinista.
231
Por otra parte, en algunos instrumentos el intérprete puede modificar el contenido
espectral durante la emisión del sonido. El violinista y el clarinetista, por ejemplo,
tienen que aportar energı́a constantemente para mantener el sonido, por lo que
pueden cambiar el volumen sonoro a voluntad. Ası́ mismo, dentro de unos márgenes
limitados por la naturaleza del instrumento, pueden también alterar su contenido
espectral a lo largo del tiempo que dura la emisión de la nota. Por poner un ejemplo
sencillo, en la segunda parte de los vı́deos y espectrogramas de las figuras 11.5 y
11.6 podemos apreciar que cuando el clarinetista apaga lentamente la segunda
nota de cada pareja, el la4 y el sib4 , se produce una desaparición progresiva de los
armónicos superiores. El clarinete sigue, ası́ pues, también la norma general de que
el incremento en el volumen va unido a un incremento en el número y prevalencia
de los armónicos superiores, y viceversa, como ocurre en este ejemplo.
Realmente cuando escuchamos un sonido nuestra imaginación tiende a reconstruir
la acción que lo ha producido. Ésta es precisamente una de las formas en las que se
transmite la información emotiva del intérprete. Sin necesidad de verlo tocar, noso-
tros, al oı́r su música, imaginamos el “gesto” que está haciendo en el instrumento.
Por ejemplo, en el teclado de un piano “oı́mos-vemos” al intérprete acariciando
las teclas en los pasajes delicados, golpeando sin piedad en los fortı́simos-staccato,
pasando con ligereza en los pasajes pianos y ligados, etc. Esta gestualidad nos llega
a través de las “marcas” de los sonidos. Entre esas marcas está habitualmente el
hecho de que el número de armónicos superiores crezca en función de la energı́a
con la que se ha atacado la tecla, ataque y energı́a que cambian constantemente a
lo largo de una interpretación. Hablando en general, el número y la importancia
de los armónicos no es una caracterı́stica fija propia del sonido de un instrumento,
ni siquiera de la misma nota del mismo instrumento, sino que en buena medida
depende de la voluntad del intérprete.
11.3. Rasgos tı́mbricos dependientes de la evolución de los

parámetros del sonido
A continuación vamos a examinar los rasgos tı́mbricos derivados de la modificación
de los parámetros de amplitud y frecuencia a lo largo del tiempo de emisión de
la nota o, dicho de otra manera, vamos a analizar cómo las envolventes, tanto de
amplitud como de frecuencia, afectan a la caracterización tı́mbrica de los sonidos
musicales, en particular los sonidos emitidos por instrumentos acústicos y por la
voz humana.
232
11.3.1. Marcas tı́mbricas y envolvente de amplitud
La evolución de la amplitud del sonido en su conjunto tiene especial interés para

caracterizar el timbre de cada sonido. Para tener una aproximación a la evolución
de la amplitud he elegido un fragmento de la señal de audio de una determina-
da duración y he calculado el valor medio de su amplitud. La reiteración de este
procedimiento, desplazando suavemente esta ventana de observación a lo largo de
la duración de toda la nota, nos proporciona una aproximación a la envolvente
de amplitud. Como en el caso del espectrograma, también ahora en función de la
duración de la ventana de observación elegida obtendremos resultados diferentes:
si se elige una ventana muy corta obtendremos una evolución de la amplitud muy
accidentada, llena de alteraciones, mientras que si se elige una ventana muy lar-
ga, la gráfica será más suave, pero el seguimiento temporal de la evolución de la
amplitud será menos preciso. En los siguientes ejemplos he optado por hacer un
seguimiento intermedio de la evolución temporal, por lo que he elegido para la
ventana de observación una duración de 30 milésimas de segundo.
Debajo presento dos gráficas en las que se muestra la envolvente de amplitud de
las notas sol3 dadas, respectivamente, por el piano y el violı́n, las mismas que he
utilizado en el vı́deo de la figura 11.7. Junto a la envolvente se muestra también la
forma de la señal en el tiempo.
Figura 11.9: Envolvente de amplitud de una nota de piano.
233
Figura 11.10: Envolvente de amplitud de una nota de violı́n.
En ambas figuras vemos que en un tono azul grisáceo, que se funde casi con el azul
del fondo de la gráfica, se ha trazado la señal de audio, es decir, la forma de la
vibración de ese sonido. En esta ocasión la representación de la señal de audio no
permite apreciar los detalles de la vibración, como sucedı́a en las representaciones
de los osciloscopios simulados que hemos visto en los capı́tulos anteriores, sino
que es el resultado de haber hecho un gran zoom negativo sobre ella, como si
observáramos la señal desde muy lejos. Se ha perdido todo el detalle y solamente
se aprecia el aspecto global de la evolución de la amplitud, que es precisamente lo
que nos interesa ahora.
La lı́nea que se destaca en amarillo representa la envolvente de amplitud, la evo-
lución de la amplitud a lo largo del tiempo. Podemos comprobar que, en lı́neas
generales, la gráfica de la envolvente sigue bastante de cerca la forma de la señal
de audio comprimida, como si quisiera envolverla. Si escuchamos con atención las
notas del vı́deo de la figura 11.7 mientras vemos estas gráficas de sus envolventes
de amplitud, reconoceremos con facilidad que reflejan lo que oı́mos.
En las dos gráficas observamos al principio y al final unas pequeñı́simas oscilaciones
de la lı́nea amarilla, que corresponden al ruido de ambiente presente en el lugar
en el que se han hecho las grabaciones (ambas han sido grabaciones domésticas
realizadas con un micrófono de nivel medio del tipo USB para ordenador).
234
Fijémonos primero en la gráfica de la envolvente del piano (figura 11.9). Podrı́amos
distinguir tres partes en esta gráfica amarilla. La primera parte, que corresponde al
ataque inicial, tiene un carácter muy abrupto, pues crece bruscamente desde el ini-
cio de la nota hasta el pico máximo, que en esta gráfica se sitúa aproximadamente
en el segundo 1,3. Ahora bien, su crecimiento no es uniforme. Comienza con una
lı́nea casi vertical que se queda en torno a un valor de 0,18, sin llegar todavı́a a su
valor máximo, una lı́nea que refleja un cambio casi instantáneo y que se correspon-
de con el ruido inicial que acompaña al ataque en la nota de piano, como hemos
visto al analizar el contenido espectral. Luego la gráfica sigue todavı́a creciendo
de forma rápida, pero ya no tan abrupta, hasta alcanzar en el segundo 1,3 el pico
máximo, es decir, una amplitud de aproximadamente 0,34. La segunda parte de
la gráfica comienza en este pico máximo, cuando se inicia un declive con bastante
pendiente, y dura aproximadamente hasta el segundo 2. Y en la tercera parte, que
comienza en este segundo 2, la gráfica continúa descendiendo, pero ahora de una
forma mucho más lenta y mantenida, hasta que se produce el levantamiento de
la tecla, lo que ocurre poco antes del segundo 5. Esta evolución de la envolvente
de amplitud es caracterı́stica de las notas del piano. En esencia consiste en un
ataque muy rápido y una doble amortiguación, la primera relativamente rápida y
la segunda muy prolongada y sostenida.
Si comparamos la gráfica de la envolvente de amplitud del piano con la de la
envolvente de la nota de violı́n (figura 11.10) nos damos cuenta de que las diferen-
cias son muy grandes. El ataque es ahora suave y va creciendo poco a poco; las
formas generales son poco marcadas y más bien redondeadas; la evolución de la
amplitud general se aproxima aquı́ a una forma circular; y, lo que viene a ser el
rasgo más caracterı́stico de la envolvente de amplitud del violı́n, la lı́nea general
de la evolución está constantemente llena de alteraciones, que se corresponden con
apreciables oscilaciones en el volumen sonoro de la nota, resultado de la variación
de la presión del arco sobre la cuerda.
Pero creo que conviene insistir un poco más en la importancia que tiene para
nuestra percepción de la cualidad tı́mbrica de un sonido su envolvente de amplitud.
En efecto, si modificamos artificialmente la evolución de la amplitud general de
un sonido, el cambio en el timbre que percibiremos será enorme. Voy a poner un
ejemplo muy sencillo que servirá para comprobar la decisiva influencia que posee
la evolución de la amplitud general en la determinación del timbre. Este ejemplo,
de paso, nos ayudará también a entender cómo nuestra percepción auditiva está
configurada para colaborar con el resto de los sistemas sensoriales en la tarea de
captar la evolución de la realidad externa. He grabado una pequeña frase de piano
con ocho notas que alternan los valores de blancas y negras formando un ritmo
troqueo constante. Las notas son las siguientes: re4 , do4 , mi4 , fa4 , sol4 , la4 , re4 , la3 .
235
Con ayuda de un editor de audio he copiado la señal y la he pegado a continuación,
pero ahora invirtiendo el orden temporal, es decir, haciendo que la señal vaya de
atrás a adelante, con lo que el resultado que he obtenido ha sido una señal formada
por dos partes iguales simétricas.
Figura 11.11: Vı́deo con el espectrograma de una melodı́a de piano y su retrogradación.
Como se puede comprobar en el vı́deo, las dos partes son totalmente idénticas,
a excepción de que la segunda es una repetición de la primera, pero en el orden
inverso. Esto resulta también claro si nos fijamos en el orden y en el ritmo de
las notas. El ritmo en la segunda parte es una sucesión de yambos, es decir, de
negras y blancas. Las notas son las mismas que las de la primera parte, pero en
orden inverso: la3 , re4 , la4 , sol4 , fa4 , mi4 , do4 , re4 . El número de componentes
armónicos de cada nota y su importancia relativa tiene que ser, por lo tanto, el
mismo y, sin embargo, el sonido es totalmente distinto. Cuando escuchamos la
segunda parte del vı́deo nunca pensarı́amos que está sonando un piano. Tal vez,
si acaso, una armónica o algún instrumento similar. Para facilitar este efecto he
elegido a propósito una frase musical que al ser oı́da en orden inverso tenga un
cierto aire de melodı́a de pelı́cula del oeste. Pongo a continuación la gráfica de las
correspondientes envolventes de amplitud.
236
Figura 11.12: Envolvente de amplitud de las melodı́as, directa y retrógrada, del vı́deo
de la figura 11.11.
La gráfica de las envolventes explica lo que ha sucedido. Efectivamente, el piano

es un instrumento de percusión, por lo que el ataque es muy rápido y la amplitud
comienza a decrementarse casi inmediatamente después del inicio. Nadie espera
que una nota de piano suba de volumen a lo largo de su emisión, sino que lo que
se espera es que se vaya poco a poco apagando. Por el contrario, en la segunda
parte del vı́deo, al escuchar unas notas que van aumentando su intensidad, hemos
imaginado que han sido emitidas por un instrumento cuyos sonidos son capaces de
recibir energı́a después del ataque y, por eso, de aumentar su amplitud con el paso
del tiempo, como ocurre, por ejemplo, con la armónica, en la que el instrumentista
puede incrementar la intensidad del soplo durante la emisión de las notas e inte-
rrumpirlo bruscamente entre nota y nota. Por ello, al invertir el orden temporal
de la señal se ha invertido la evolución de la amplitud y el sonido ha dejado de
sonar como un piano, pues nunca la amplitud del sonido de una nota del piano
evolucionarı́a ası́. Esa “deducción” de nuestro cerebro es lo que ha modificado tan
rotundamente nuestra percepción del sonido.
237
11.3.2. Marcas tı́mbricas y envolvente de frecuencia
Como ya he comentado al estudiar los rasgos tı́mbricos que dependen del contenido
espectral, la evolución de la frecuencia es una marca tı́mbrica muy significativa. De
hecho, establece la diferencia entre instrumentos de afinación libre, cuya envolvente
de frecuencia sigue las intenciones del intérprete, e instrumentos de afinación fija,
cuya envolvente de frecuencia es, en general, una lı́nea horizontal. Ası́ mismo, el
rango de variación de la envolvente de frecuencia en los instrumentos de afinación
libre es muy distinto. Por ejemplo, el violı́n permite con facilidad portamentos que
pueden unir notas muy alejadas, lo que puede dar lugar a envolventes de frecuencia
muy extendidas, mientras que las variaciones de frecuencia que permite una flauta
durante un soplo mantenido son más bien pequeñas y, por lo tanto, su envolvente
de frecuencia es bastante reducida.
Por otra parte, los instrumentos de afinación libre permiten que el intérprete fa-
brique su propio vibrato, un recurso que constituye una parte muy importante en
la caracterización de su “sonido”. La diferente profundidad y ritmo del vibrato
vienen a ser como una especie de sello de marca del instrumentista, que dibuja su
“firma” en la envolvente de frecuencia.
A modo de ejemplo, voy a comentar cómo la ejecución de una nota de violı́n dada
con vibrato queda reflejada en su envolvente de frecuencia. Se trata de la nota
sol5 del vı́deo de la figura 11.5. Es muy sencillo obtener una representación de
la envolvente de frecuencia a partir del espectrograma. Puesto que en un sonido
armónico la frecuencia de todos los componentes evoluciona en paralelo, basta con
determinar en el componente fundamental (o en cualquier otro que nos interese,
pero dividiendo su valor por el número de armónico del que se trate) la frecuencia
que ha alcanzado la máxima amplitud en cada momento (es decir, la frecuencia
del pixel más luminoso) y representar este dato en una nueva gráfica.
238
Figura 11.13: Envolvente de frecuencia de una nota de violı́n con vibrato.
Al reducir la representación de las frecuencias al estrecho margen de la zona en

la que se mueve la nota de violı́n sol5 (en este caso de 776 Hz a 796 Hz), se
obtiene mayor claridad. Para evitar que la observación de esta gráfica nos cause una
impresión equivocada, debemos tener en cuenta que la variación de la frecuencia
a lo largo de los 1,7 segundos aproximados que dura la nota no llega a los 20 Hz
y que en su mayor parte no sobrepasa los 14 Hz. En realidad este movimiento que
constituye el vibrato es muy sutil y se mueve en la esfera de la microtonalidad.
Observamos que el valor medio de la nota se mantiene en torno a 789 Hz. Sin
embargo, la frecuencia esperada en función de la afinación de la nota anterior,
que es prácticamente la temperada, deberı́a haber sido de 784 Hz. Ası́ pues, este
aparente valor medio de la nota en el que se realiza el vibrato está aproximadamente
11 centésimas de semitono por encima. El vibrato permite una mayor flexibilidad en
la afinación, pues sus oscilaciones camuflan cualquier posible batido o interferencia
y hace, además, que sea más difı́cil percibir cualquier desafinación. Ello permite
al intérprete elegir una frecuencia más alta con una finalidad expresiva sin ningún
problema. La profundidad del vibrato es variada. En esta gráfica el caso más
extremo corresponde a la oscilación que se produce entre el segundo 0,9 y el 1 y
tiene una profundidad que va desde 795 Hz a 782 Hz, o sea, unas 28 centésimas
de semitono.
239
Esta gráfica nos muestra con precisión que el violinista toma la nota desde muy
abajo, en 777 Hz aproximadamente, luego sube hasta prácticamente rozar los 796
Hz y a partir de ahı́ comienza a realizar unas oscilaciones centradas aproxima-
damente en torno a 789 Hz, hasta llegar al final de la nota, cuando de nuevo
desciende también en frecuencia. Este tomar desde abajo, subir y mantenerse y
volver de nuevo a caer al final es un patrón muy caracterı́stico para notas man-
tenidas con vibrato en violı́n. Podemos ver también en la gráfica que la distancia
temporal entre las oscilaciones es aproximadamente de 2 décimas de segundo, lo
que se corresponde con 5 oscilaciones por segundo, que es también un ritmo de
oscilación muy habitual en la realización del vibrato de violı́n.
Para acabar, solo quiero apuntar que la evolución de la frecuencia, al margen de
dejar una marca clara del tipo de instrumento del que se trata, es también un
medio muy eficaz para transmitir mediante el propio sonido la gestualidad del
intérprete. Y en gran medida es a través de esa gestualidad como el intérprete
comunica a quien le escucha una parte importante de su emotividad.
11.4. Conclusión
El timbre del sonido es como su sello particular. En este capı́tulo hemos podido
observar que el conjunto de marcas tı́mbricas dejan su huella principalmente en
el contenido espectral de cada sonido musical y en sus envolventes de frecuencia
y amplitud. Estas marcas diferencian la sonoridad caracterı́stica de un tipo de
instrumento de la de otro, la de cada instrumento particular, la de las distintas
notas que emite cada instrumento, la propia de cada instrumentista e incluso la que
posee la misma nota emitida en el mismo instrumento por el mismo instrumentista
en los diferentes momentos de su interpretación.
240
Capı́tulo 12
Fisiologı́a de la audición
El sonido no es solamente un acontecimiento fı́sico, una vibración mecánica, sino
también un fenómeno psı́quico: la imagen que la vibración acústica produce en
nuestra mente. Esa imagen está condicionada por las caracterı́sticas de nuestro
receptor, el oı́do. Por ello, para entender la manera en la que escuchamos el sonido
musical es necesario conocer cómo es y cómo funciona el oı́do humano, pues es
en el oı́do donde se transforma la vibración mecánica que llega del exterior en
un conjunto de impulsos nerviosos que posteriormente serán enviados al cerebro,
donde se elaborará nuestra imagen acústica.
En este capı́tulo vamos a estudiar la morfologı́a y la función de cada una de las par-
tes del oı́do: las zonas que recogen la vibración sonora del exterior, las que adecúan
su presión a los fluidos del oı́do interno y las que realizan el análisis frecuencial
extrayendo los diferentes componentes de la vibración y transformándolos en im-
pulsos eléctricos que llegarán al cerebro mediante el nervio auditivo. Empezaremos
con una visión general de la anatomı́a del oı́do humano y luego nos detendremos
en estudiar cómo es y cómo se comporta la cóclea.
12.2. El oı́do humano

Nuestro oı́do está formado por tres partes anatómica y funcionalmente diferentes:
el oı́do externo, el oı́do medio y el oı́do interno. Veamos un dibujo esquemático de
241
las partes del oı́do. Es una adaptación de la Figura 1 del capı́tulo 2 de “Structure
and function” del curso Hearing, en Open Learn (The Open University).
Figura 12.1: Sección transversal del oı́do.
En la figura vemos las tres partes del oı́do:
a) El oı́do externo
En el oı́do externo el pabellón auditivo concentra, a modo de trompa,

las ondas sonoras del exterior y las encauza a través del canal auditivo
externo hasta el tı́mpano, la membrana que separa el oı́do externo del
oı́do medio. El canal auditivo externo mide aproximadamente 25 mm de longitud
y 7 mm de diámetro. La membrana timpánica tiene una forma ligeramente cónica
y se mueve hacia dentro y hacia fuera siguiendo las variaciones de la presión del
aire que constituyen la vibración sonora y que le llegan por el canal auditivo.
242
b) El oı́do medio
El oı́do medio es una cámara llena de aire en cuyo interior se halla una cadena
de huesecillos u osı́culos, llamados por su forma martillo, yunque y estribo,
que sirven para transmitir las vibraciones sonoras desde la membrana timpánica
hasta el oı́do interno. Para lograrlo, el mango del martillo está unido al tı́mpano,
mientras que la base del estribo está en contacto con la membrana de la ventana
oval, a través de la cual penetran las vibraciones sonoras en la cóclea, que es la
parte del oı́do interno dedicada a la audición.
La principal función del oı́do medio es posibilitar el incremento de pre-
sión necesario para que la energı́a de la vibración sonora del aire exterior
se transmita eficazmente a los fluidos acuosos que llenan el oı́do interno.
En efecto, puesto que el agua tiene mayor impedancia acústica que el aire (es de-
cir, presenta mucha más resistencia a la transmisión de la vibración), si no hubiera
un mecanismo que aumentara la presión de las vibraciones, una gran parte de
la energı́a sonora serı́a absorbida o reflejada por los fluidos acuosos de la cóclea,
tal como sucede si tratamos de hablar a una persona que está sumergida en el
agua.
Este incremento de la presión se logra principalmente porque la superficie del
tı́mpano que vibra (la membrana que está en contacto con el aire exterior) es unas
17 veces mayor que la superficie de la membrana de la ventana oval (la que está
en contacto con el lı́quido acuoso que hay en el interior de la cóclea). De esta
manera se consigue un aumento de presión de unas 17 veces. Además, la acción
de palanca que ejerce la cadena de huesecillos del oı́do medio también contribuye
al incremento de presión. En su posición habitual, los osı́culos pueden aumentar
1,3 veces aproximadamente la presión que llega hasta la ventana oval. Ası́ pues,
la acción combinada de ambos mecanismos puede lograr un aumento de presión
de unas 22 veces, con lo que la membrana de la ventana oval va a ser ya capaz de
transmitir de forma eficaz la vibración sonora a los lı́quidos que están en el interior
de la cóclea.
Otra función muy importante del oı́do medio es la protección del delicado oı́do
interno frente a sobrepresiones que podrı́an dañarlo. Cuando la intensidad sonora
excede los niveles de tolerancia se activa un mecanismo reflejo mediante el cual dos
pequeños músculos que actúan sobre el martillo y sobre el estribo (no incluidos
en el dibujo) pueden bloquear la articulación de los osı́culos, limitando en gran
medida la transmisión de las vibraciones.
El oı́do medio comunica con el exterior a través de la trompa de Eustaquio, un
conducto de unos 4 mm de longitud que termina en la región nasofarı́ngea. La
243
trompa de Eustaquio, que habitualmente está cerrada, se abre con la deglución y
con el bostezo. Tiene la finalidad de igualar la presión de aire del oı́do medio con la
del exterior y ası́ permitir que el tı́mpano pueda vibrar libremente en su posición
idónea.
c) El oı́do interno
El oı́do interno, también llamado laberinto, está formado por una estructura ósea
hueca situada en el hueso temporal y consta de diferentes partes delimitadas por
configuraciones óseas y membranosas. Su interior está lleno de dos lı́quidos acuosos:
la perilinfa en las zonas exteriores, que están en contacto con el hueso; y la endolinfa
en las interiores, rodeadas por membranas. Mientras que la composición de la
perilinfa es similar a la de otros fluidos extracelulares del cuerpo humano, como el
lı́quido cefalorraquı́deo, la endolinfa es una sustancia especı́fica del oı́do interno y
se caracteriza por contener una cantidad muy elevada de iones positivos de potasio
(K+).
El oı́do interno cumple dos funciones. Por un lado, sirve para contribuir al mante-
nimiento del equilibrio corporal, lo cual se realiza mediante el sistema vestibular o
laberinto posterior, que está formado por el vestı́bulo y los tres canales semicircu-
lares. Por otro lado, y en lo que a la actividad acústica se refiere, el oı́do interno
sirve para transformar las vibraciones mecánicas que provienen del oı́do
medio en impulsos eléctricos, lo que se produce en el laberinto anterior,
llamado por su forma cóclea o caracol. Ambas tareas son llevadas a cabo
por células sensoriales pilosas capaces de trasformar los movimientos mecánicos
en variaciones de la tensión eléctrica, las cuales son codificadas y transmitidas al
cerebro por los nervios vestibular y coclear respectivamente. Estos dos nervios se
juntan inmediatamente después del oı́do y forman el nervio vestibulococlear, tam-
bién llamado VIII par craneal, el cual conduce la información procedente del oı́do
interno al cerebro.
Puesto que en este capı́tulo nos estamos ocupando de la fisiologı́a de la audición,
dejaremos de lado lo que concierne al sistema vestibular, el encargado del equilibrio,
para dedicarnos a la parte del oı́do interno en el que se producen los fenómenos
relacionados con la audición, es decir, a la cóclea.
Pero antes de examinar con más detalle la estructura de la cóclea, veamos un
vı́deo didáctico que nos explica muy bien el mecanismo mediante el cual las ondas
sonoras procedentes del exterior son transmitidas por las distintas partes del oı́do
y transformadas en impulsos eléctricos, fenómeno que se denomina “transducción
244
auditiva”. El vı́deo Auditory Transduction ha sido creado por Brandon Pletsch y
los subtı́tulos en español se deben a Hermes Carreño y Oscar Guillermo.
Figura 12.2: Vı́deo que muestra un panorama general de la audición.
12.3. La cóclea
La cóclea es la parte del oı́do interno donde se transforma la informa-
ción auditiva que contiene la vibración sonora en impulsos nerviosos. En
primer lugar, la cóclea actúa como un analizador mecánico de frecuencias, descom-
poniendo mediante resonancias la forma de la vibración sonora en sus componentes
sinusoidales; en segundo lugar, transforma esa información frecuencial en señales
eléctricas; y, finalmente, codifica todo ese conjunto de datos en impulsos nerviosos
que son transmitidos al cerebro.
Para estudiar cómo está constituida la cóclea voy a ir presentando una serie de
ilustraciones en las que podremos observarla desde diferentes perspectivas. En ellas
iremos avanzando desde una visión general a otra cada vez más detallada. En todas
las ilustraciones he utilizado los mismos colores para representar las distintas partes
de la cóclea: en color beige están las partes óseas; en color rojizo, las membranosas;
en color amarillo, las nerviosas; en azul, las áreas ocupadas por la perilinfa; y en
verde, las ocupadas por la endolinfa.
245
12.3.1. Descripción general de la cóclea
La cóclea está formada por un armazón óseo herméticamente cerrado,

lleno de fluidos acuosos, que contiene en su interior diversas membranas,
células sensoriales y fibras nerviosas. La cóclea comunica con el oı́do medio
a través de dos orificios cerrados por sendas membranas (figura 12.1): la ventana
oval, mediante la cual el estribo provoca las variaciones de presión en los fluidos
que llenan los canales del interior de la cóclea; y la ventana redonda, mediante
la cual se compensan las variaciones de presión que han sido introducidas por el
estribo.
Veamos dos ilustraciones que presentan el aspecto general de la cóclea. Están
basadas en dibujos antiguos, aunque he coloreado cada zona siguiendo los criterios
que acabo de mencionar.
Figura 12.3: Ilustración del aspecto general de la cóclea.
La ilustración de la izquierda representa la parte ósea de la cóclea. Consiste en una

especie de cilindro hueco de aproximadamente 2 mm de diámetro que se enrolla
sobre sı́ mismo de manera helicoidal unas dos veces y media en torno a un eje
óseo llamado modiolo. Su aspecto recuerda al de la concha de un pequeño caracol
(la palabra cóclea procede del término griego kochlı́as, caracol). La cóclea está
incrustada en el hueso temporal. Su anchura en la base es de algo menos de 1
cm y su altura, desde la base hasta el ápex, es de unos 5 mm. La longitud de
la cóclea humana desenrollada es de aproximadamente 35 mm. Esta ilustración
incluye también la lámina espiral que divide, sin llegar a cerrarlo, el interior de
la cóclea en dos conductos principales, el superior y el inferior.
246
En la ilustración de la derecha se representa lo que verı́amos si hubiéramos reti-
rado la pared exterior de la cóclea. Ahora podemos distinguir el modiolo, que
forma la pared interna de la cóclea; la lámina espiral, que surge del modiolo; la
membrana basilar, que completa la división principal del interior de la cóclea; y
el borde del ligamento espiral, en color naranja, mediante el cual la membrana
basilar queda sujeta a la pared exterior de la cóclea.
La membrana basilar sigue todo el recorrido espiral de la cóclea, pero no es igual
a lo largo de toda su longitud, sino que es más estrecha en la parte basal —donde
mide aproximadamente 0,1 mm de ancho— y más ancha en la parte apical —donde
mide unos 0,5 mm. Conforme la membrana basilar gana en anchura, la lámina
espiral va haciéndose más estrecha. Además, la membrana basilar es unas 100
veces más rı́gida en la parte basal que en la apical. El ligamento espiral que sujeta
la membrana basilar a la pared externa de la cóclea contribuye a proporcionarle
la tensión adecuada que debe tener en cada punto de su longitud.
La división del interior de la cóclea en dos canales principales, llenos de fluidos
acuosos y separados por una membrana elástica cuya rigidez varı́a a lo largo de
su longitud, explica el comportamiento de la cóclea como analizador mecánico de
espectro. Como veremos más adelante, la diferente elasticidad de la membrana ba-
silar en cada punto de su longitud otorga a cada localización espacial una frecuencia
natural de resonancia. De esta manera, la membrana basilar resuena en diferentes
localizaciones en función de los componentes sinusoidales que están presentes en
la vibración sonora que recibe: los componentes graves generan resonancias en la
zona de la membrana basilar situada en la parte apical de la cóclea, mientras que
los agudos resuenan en la zona basal. Esta propiedad de la membrana basilar se
denomina tonotopı́a (del griego tónos, altura tonal, y tópos, lugar, espacio).
12.3.2. Estructura interna de la cóclea
Pero para poder realizar las tareas de transducción mecano-eléctrica y de codifica-

ción neuronal la cóclea necesita tener una estructura más compleja. Veamos ahora
un esquema del oı́do en el que se representa un corte longitudinal de la cóclea como
si estuviera desenrollada.
247
Figura 12.4: Ilustración de un corte longitudinal de la cóclea desenrollada.
La novedad más destacada que observamos en este dibujo respecto a los anteriores
es que ahora en el interior de la cóclea vemos tres canales bien diferenciados. En
realidad, el canal superior de la cóclea está subdividido en dos canales
independientes: el canal o rampa vestibular y el canal medio o canal
coclear.Esta división del canal superior en dos canales se realiza mediante una
membrana muy fina, de unos 12 micrómetros de grosor, llamada membrana de
Reissner. Vemos también que la membrana basilar recorre casi toda la longitud
de la cóclea, hasta llegar a la zona apical, donde existe una abertura, llamada
helicotrema, que comunica el canal vestibular con el canal inferior. El canal
inferior recibe también el nombre de canal o rampa timpánica.
Como se puede ver en la ilustración, los tres canales del interior de la cóclea están
llenos de dos tipos de fluidos acuosos de diferentes caracterı́sticas electroquı́micas:
la perilinfa, señalada en color azul, y la endolinfa, en color verde. El canal ves-
tibular y el canal timpánico, contienen perilinfa, mientras que el canal
medio tiene en su interior endolinfa, el lı́quido especı́fico del oı́do interno,
caracterizado por ser muy rico en iones positivos de potasio (K+).
El canal vestibular comienza en el vestı́bulo del oı́do interno, desde donde comu-
nica con el oı́do medio a través de la membrana de la ventana oval. Puesto que
la ventana oval está en contacto directo con la base del estribo del oı́do medio,
cuando éste hace oscilar la membrana de la ventana oval, las vibraciones mecánicas
248
ocasionadas por los cambios de presión del aire debidos al sonido son transmiti-
das inmediatamente a la perilinfa del canal vestibular. Y estas vibraciones son
comunicadas, casi instantáneamente, al canal timpánico a través de la membrana
basilar.
El canal timpánico se comunica con el oı́do medio a través de la ventana redonda,
un orificio en el hueso de la cóclea cerrado por una membrana. A diferencia de
la ventana oval, esta membrana es pasiva y solamente sirve para compensar los
aumentos y disminuciones de la presión que se producen en el interior de la cóclea
como consecuencia de la oscilación de la membrana de la ventana oval, variaciones
que llegan al canal timpánico mediante la deformación de la membrana basilar.
Cuando la membrana oval penetra en el interior del canal vestibular, la membrana
de la ventana redonda se abomba hacia afuera, es decir, hacia el espacio del oı́do
medio; por el contrario, cuando la membrana oval retrocede, la membrana de la
ventana redonda penetra en el canal timpánico de la cóclea. Si no existiera esta
ventana redonda, los fluidos acuosos del interior de la cóclea, al ser incompresibles,
no podrı́an vibrar.
El canal medio o conducto coclear es un contenedor de endolinfa. A pesar de
la finura de la membrana de Reissner, su impermeabilidad impide a la endolin-
fa mezclarse con la perilinfa del canal vestibular. Por su diferente constitución
electroquı́mica, entre la endolinfa y la perilinfa existe una diferencia de potencial
de unos 80 mV, y gracias a esa diferencia de potencial la cóclea puede realizar
la transducción de las señales mecánicas en señales eléctricas, como veremos más
adelante.
Hay que tener en cuenta, por otra parte que, debido a su finura, la membrana de
Reissner no supone obstáculo alguno a la vibración de los fluidos. De esta forma,
en lo que concierne a la función de la cóclea como analizador mecánico de espectro,
el canal vestibular y el canal medio se comportan como si se tratara de un solo
canal, el canal superior del dibujo de la izquierda de la figura 12.3.
En la figura 12.4 podemos ver también, ligeramente dibujadas, las fibras nervio-
sas que salen de la cóclea y que forman el nervio coclear. Este nervio será el
encargado de llevar al cerebro la información auditiva convertida ya en impulsos
nerviosos.
Pero para apreciar mejor cómo se organizan estas estructuras nerviosas, es opor-
tuno observar el interior de la cóclea desde otra perspectiva. Veamos una ilustración
que representa las dos vueltas y medio de la cóclea cortada transversalmente. En
ella, para mostrar las estructuras nerviosas, se ha prescindido de la pared ósea
interior y de la lámina espiral. Los autores son Guy Rebillard y Rémy Pujol y la
ilustración procede de Voyage au centre de l’audition.
249
Figura 12.5: Ilustración de un corte transversal de la cóclea.
Podemos distinguir en cada vuelta de la cóclea los tres canales que hay en su
interior —el canal vestibular, el canal medio y el canal timpánico—, cada uno
de ellos pintado en el color que representa el fluido acuoso que contiene. Pero lo
más interesante de esta ilustración es que nos permite apreciar cómo es el ganglio
espiral, el cual se forma de la reunión de las fibras nerviosas que se conectan al
epitelio sensorial de la membrana basilar, el llamado órgano de Corti. Vemos
que el ganglio espiral recorre prácticamente toda la longitud de la cóclea y también
que de él surge el haz nervioso que forma el nervio coclear.
Y para concluir el estudio de la organización interna de la cóclea, examinemos sus
partes con un poco más de detalle. Veamos un dibujo esquemático de las áreas
que se podrı́an distinguir en un corte transversal de una sola vuelta de la cóclea.
Está basada en un dibujo muy difundido en internet. Lo he modificado para hacer
coincidir los colores con los del resto de las ilustraciones de la cóclea y, sobre todo,
para delimitar con precisión las zonas ocupadas por la endolinfa de aquellas otras
ocupadas por la perilinfa, particularmente en la zona inferior del canal medio.
250
Figura 12.6: Ilustración de un corte transversal de una vuelta de la cóclea.
En la figura reconocemos las partes de la cóclea que hemos visto en los dibujos
anteriores, si bien ahora, al ser representadas desde otra perspectiva, podemos
apreciarlas mejor. Ası́, reconocemos la cóclea ósea, con la pared exterior, el modiolo
y la lámina espiral que sale de él; la membrana basilar, de la cual ahora podemos
ver con claridad que completa la división del interior del cilindro coclear en los
dos canales principales; los tres canales llenos de lı́quido del interior de la cóclea,
el canal vestibular, el canal medio y el canal timpánico; el ligamento espiral, que
sujeta la membrana basilar a la pared exterior de la cóclea; y el ganglio espiral,
situado en el interior del modiolo, que va a converger en el nervio coclear.
Pero además, esta ilustración nos muestra otras estructuras que hasta ahora o
no habı́an sido representadas o no lo habı́an sido con suficiente claridad. Vemos
la estrı́a vascular, el epitelio que recubre el ligamento espiral y que cierra el
recinto del canal medio por la parte externa, encargándose de dotar de abundantes
iones positivos de potasio a la endolinfa de ese canal. También podemos ver con
claridad el epitelio sensorial situado sobre la membrana basilar, el órgano de
Corti, en el que podemos identificar las células pilosas externas e internas, ası́
como los espacios llenos de perilinfa que hay entre ellas. Ası́ mismo, ahora está
dibujada la membrana tectorial, una estructura gelatinosa contra la que chocan
las vellosidades las células pilosas del órgano de Corti. Y, finalmente, podemos
apreciar las terminaciones nerviosas que conectan las células sensoriales del órgano
de Corti y que forman el ganglio espiral.
251
Por otra parte, este dibujo es muy útil para determinar con precisión qué zonas
del interior de la cóclea están ocupadas por perilinfa y cuáles otras están ocupadas
por la endolinfa. En efecto, ahora podemos apreciar con más exactitud los lı́mites
del canal medio, en el que está encerrado el fluido endolinfático, lo cual es muy
importante para entender cómo se realiza la transducción mecano-eléctrica.
Podemos distinguir sin dificultad los lı́mites del canal medio por la zona superior
y por la exterior: por un lado, la membrana de Reissner separa por arriba el canal
medio del canal vestibular y, por el otro, la estrı́a vascular delimita el canal medio
por la zona exterior de la cóclea.
Y ahora podemos delimitar con más claridad los bordes inferiores del canal medio,
en la zona donde está ubicada la membrana basilar y el órgano de Corti. En el
dibujo este lı́mite inferior aparece delineado en color rojo. En lı́neas generales, se
puede decir que ese lı́mite está formado por la parte superior del epitelio sensorial
que recubre la membrana basilar. Pero, si nos fijamos un poco, podemos apre-
ciar que no es todo el epitelio sensorial, sino que las vellosidades de las células
sensitivas del órgano de Corti están dentro del canal medio y, por lo tanto, están
bañadas en endolinfa, mientras que el cuerpo de esas células ya permanece fuera
del canal medio, en contacto directo o indirecto con la perilinfa que proviene del
canal timpánico. Pero esto lo veremos con más detalle a continuación, al estudiar
el órgano de Corti.
12.3.3. El órgano de Corti
El órgano de Corti es un epitelio sensorial que está situado sobre la membrana

basilar a lo largo de todo su recorrido, por lo que vibra solidariamente con ella.
El órgano de Corti es el encargado de transformar los movimientos vibratorios
resonantes de la membrana basilar en variaciones de la tensión eléctrica, las cuales
posteriormente serán codificadas por las neuronas del ganglio espiral y convertidas
en impulsos nerviosos. Para entender cómo se produce la transducción mecano-
eléctrica es conveniente estudiar antes, con un poco de detenimiento, cómo está
organizado el órgano de Corti.
Veamos una ilustración de un pequeño segmento del órgano de Corti, creada por
Robert Jackler y Christine Gralapp, que se encuentra en la página Ear Anatomy,
Stanford School of Medicine. He cambiado algunos colores para adecuarlos a los
ilustraciones anteriores.
252
Figura 12.7: Ilustración de un segmento del órgano de Corti.
A la izquierda del dibujo tendrı́amos el modiolo, como podemos deducir por la

presencia del ganglio espiral, mientras que a la derecha se encontrarı́a la pared
exterior de la cóclea.
En el órgano de Corti hay dos tipos de células: las células sensitivas, llamadas por
su aspecto células pilosas, y otros tipos de células que les sirven de aislamiento, de
soporte y de relleno.
Las células pilosas son las células mediante las cuales propiamente se
realiza la transducción mecano-eléctrica. En todo el epitelio sensorial hay
unas 15.000 o 16.000 células pilosas. La longitud media de estas células es de unos
50 micrómetros. Su diámetro es inferior a los 10 micrómetros. De la membrana de
la parte superior de cada una de las células pilosas salen una especie de vellosida-
des rı́gidas, llamados estereocilios. En cada célula pilosa hay aproximadamente
un centenar de estereocilios, unidos entre sı́ y agrupados en un ramillete. Los es-
tereocilios de cada ramillete tienen distinta longitud (los más largos miden unos 6
micrómetros) y están ordenados por su altura, de tal modo que el estereocilio más
largo está hacia el exterior de la cóclea y los más cortos hacia el interior.
253
Por su forma y su función se distinguen dos tipos de células pilosas: las células
pilosas internas, más próximas a la pared interna de la cóclea, y las células
pilosas externas, más próximas a la pared externa.
Las células pilosas internas son células exclusivamente sensoriales. Tienen una
forma bulbosa, similar a la de una pera, y se disponen en una sola hilera. En total
hay unas 3.500 células pilosas internas dispuestas a lo largo de la membrana basilar.
Su tamaño no presenta muchas variaciones. Están rodeadas por otras células no
sensoriales que les sirven de soporte y de aislamiento. Hacia la parte exterior se
encuentran las células pilares que forman el túnel de Corti, un hueco que está lleno
de perilinfa.
Por su parte, las células pilosas externas tienen un cuerpo cilı́ndrico. Se agrupan
en filas de tres o de cuatro células y también se disponen en hileras. Hay unas
12.000 células pilosas externas, distribuidas a lo largo de la membrana basilar. Las
células pilosas externas están ancladas en otras células que las soportan. Entre
ellas hay espacios llenos de perilinfa, los llamados espacios de Nuel. La altura
de las células pilosas externas varı́a de la zona basal a la apical de la cóclea: en la
zona basal miden unos 30 micrómetros, mientras que en la apical llegan a tener
hasta los 70 micrómetros.
La caracterı́stica de las células pilosas externas es que son células contráctiles: no
solamente captan mediante sus estereocilios el estı́mulo mecánico que reciben, sino
que también reaccionan, acortándose o alargándose, en respuesta al estı́mulo reci-
bido, de modo que retroalimentan el movimiento mecánico de la membrana basilar
en la localización exacta en la que se hallan. Con ello logran que la resonancia en
ese punto sea más acentuada.
Tanto en las células pilosas externas como en las internas, los estereocilios están
separados del cuerpo de la célula a la que pertenecen por una especie de pletina.
Esta pletina está unida estrechamente a la superficie de las células que bordean
cada célula sensorial y que la aı́slan de sus vecinas. Mediante esa estrecha unión se
crea una lámina impermeabilizadora capaz de cerrar el canal medio por su parte
inferior, impidiendo a la endolinfa de ese conducto mezclarse con la perilinfa que
llena las lagunas que existen entre las células del órgano de Corti, es decir, el túnel
de Corti y los espacios de Nuel. De estas manera, mientras que los estereocilios
de cada célula pilosa están dentro del canal medio y están bañados por
el lı́quido endolinfático de éste, el cuerpo de la célula está en contacto
directo o indirecto con la perilinfa que procede del canal timpánico.
Como veremos cuando estudiemos la transducción mecano-eléctrica, esta lámina
impermeable hace que los iones positivos de Potasio (k+) que abundan en la
endolinfa solamente puedan pasar al otro lado a través del cuerpo de las células
254
pilosas. La flexión de los estereocilios al chocar contra la membrana tectorial, como
consecuencia de la vibración de la membrana basilar, abrirá o cerrará los canales
iónicos, permitiendo o impidiendo el establecimiento de una corriente eléctrica
entre la endolinfa y la perilinfa.
Para hacernos una idea de la disposición de los estereocilios de las células pilosas
internas y externas, veamos una fotografı́a realizada con microscopio electrónico de
la parte superior del órgano de Corti, en la que se ha retirado la membrana tectorial.
Está obtenida de la galerı́a de imágenes de Yale Medical Cell Biology.
Figura 12.8: Fotografı́a de las células pilosas del órgano de Corti vistas desde arriba.
Vemos la parte superior de las células pilosas y de las células de soporte, ası́ como
la pelı́cula impermeabilizadora que forman. Observamos que los estereocilios de
las células sensoriales internas están dispuestos casi en hilera. Y también que los
estereocilios de las células externas tienen una forma casi de uve doble. Aunque ni
en esta fotografı́a ni en la ilustración anterior están representados, los estereocilios
están unidos entre sı́ por unos enlaces flexibles situados aproximadamente en el
255
medio de su longitud, mediante los cuales están agrupados unos con otros formando
un ramillete.
Además, los estereocilios poseen en su extremo superior unas pequeñas aberturas
cuya puerta, por ası́ decir, está unida mediante un microfilamento proteı́nico, el
tip link, al estereocilio contiguo más alto. Estas aberturas son los canales iónicos y
se abren o se cierran en función de la mayor o menor separación de los estereocilios
según el momento de la oscilación, permitiendo o impidiendo el paso de los iones
positivos al interior del cuerpo celular.
Figura 12.9: Ilustración de la apertura y cierre de los canales iónicos de los estereocilios.
Se podrı́a considerar que las células pilosas son los micrófonos de nuestro sistema
auditivo. De algún modo, podrı́amos decir que nuestro membrana basilar está
equipada con unos 15.000 micrófonos colocados sobre ella, capaces de recoger y
transformar en señales eléctricas las vibraciones de cada una de las localizaciones
de esta membrana. Las células pilosas internas están dispuestas de tal modo que
forman algo ası́ como una hilera de 3.500 micrófonos situados sobre la membrana
basilar y son la principal y más directa fuente de información del movimiento de
oscilación de cada zona de esta membrana. Teniendo en cuenta que la longitud
media de la membrana basilar es de 35 mm, la separación entre las células pilosas
internas es de unas 10 micras, una separación ligeramente superior al diámetro
256
de cada célula. Ası́ pues, podrı́amos decir que cada 10 micras una célula sensorial
recoge, a modo de micrófono, el movimiento resonante de esa zona de la membrana
basilar.
12.3.4. El ganglio espiral
Para terminar la descripción de la cóclea, antes de pasar a analizar las funciones

que realiza, nos queda el estudio de su sistema nervioso. El ganglio espiral o coclear
recorre el interior de la cóclea por un orificio situado dentro del modiolo llamado
el canal de Rosenthal, a la altura de la división creada por la lámina espiral y
la membrana basilar, como hemos podido ver en las figuras 11.5, 11.6, y 11.7. El
ganglio espiral es el encargado de codificar las señales eléctricas que provienen de
las células pilosas del órgano de Corti y de regular su actividad. Está formado por
los cuerpos de unas 50.000 neuronas.
Las dendritas de estas neuronas establecen sinapsis con las células pilosas, mientras
que sus axones constituyen el nervio auditivo o coclear. El conjunto de dendritas
y axones forman las fibras nerviosas que comunican el órgano de Corti con los
primeros núcleos del cerebro especializados en la audición. Las fibras nerviosas
que salen del ganglio espiral pueden ser imaginadas como lı́neas de comunicación
entre la cóclea y la parte del cerebro dedicada a procesar la información auditiva.
Veamos una hermosa ilustración, realizada por Andréa Zariwny.
Figura 12.10: Ilustración del ganglio espiral.
257
En esta ilustración podemos apreciar el ganglio coclear, con las dendritas que salen
de él a lo largo de todo su recorrido espiral y los axones que, reunidos en forma de
haz, constituyen el nervio coclear.
Las neuronas aferentes del ganglio espiral codifican las señales eléctricas recibidas
de las células sensoriales del órgano de Corti y transmiten la información hacia los
núcleos auditivos del cerebro, en concreto, hacia el núcleo coclear. Por su parte,
las neuronas eferentes reciben información desde el complejo olivar superior y la
comunican a las células pilosas.
En el ganglio espiral existen dos tipos de neuronas que se diferencian por su mor-
fologı́a y su constitución: las llamadas neuronas cocleares de tipo I, bipolares,
caracterizadas por tener una dendrita y un axón, ambos gruesos y mielinizados;
y las neuronas cocleares de tipo II, unipolares, con un axón delgado y sin
mielina dividido en dos ramas, una de las cuales cumple la función de dendrita.
Debido a ello, mientras las neuronas de tipo I dan lugar a fibras de conducción
rápida, las fibras de las neuronas de tipo II son más lentas. El 90 % de las neuronas
del ganglio espiral son del tipo I. Las neuronas eferentes son todas del tipo II, pero
las aferentes pueden ser tanto del tipo I como del tipo II.
La inervación de las células pilosas del órgano de Corti es diferente según sean
internas o externas.
Cada célula pilosa interna es inervada por entre 10 y 15 fibras nerviosas aferentes
del tipo I. Además, cada una de estas fibras está conectada solamente con una
célula sensorial interna. De esa manera, para transmitir la información que ha
generado, cada célula sensorial interna dispone de entre 10 ó 15 lı́neas de comuni-
cación independientes y rápidas. Esto explica el gran porcentaje de neuronas del
tipo I que hay en el ganglio espiral.
Por su parte, cada célula pilosa externa se conecta a unas 6 fibras nerviosas aferen-
tes. Pero la célula tiene que compartir cada fibra con unas 10 ó 20 células pilosas
externas más y, además, las fibras nerviosas aferentes son ahora neuronas del tipo
II. Por ello la información que transmiten las fibras nerviosas que proceden de
las células sensoriales externas es mucho más lenta y mucho menos especializa-
da que la enviada por las fibras nerviosas que proceden de las células sensoriales
internas.
Tanto las células pilosas externas como las internas tienen conexiones con neuronas
eferentes, todas ellas del tipo II. En las células pilosas internas la conexión no se
establece directamente con la célula sensorial, sino con alguna fibra nerviosa a la
que está unida. En ese caso la finalidad de estas fibras eferentes parece ser el control
258
de las sinapsis aferentes. En las células pilosas externas, que son contráctiles, parece
que la función de las neuronas eferentes es el control de su motilidad.
Veamos un sencillo esquema de las conexiones de las células sensoriales del órgano
de Corti con las neuronas del ganglio espiral donde se procesa la información
auditiva.
Figura 12.11: Esquema de las conexiones neuronales del órgano de Corti.
12.4. La cóclea como analizador mecánico de frecuencias

El análisis espectral es la primera de las tres tareas que debe realizar
la cóclea para transformar en impulsos nerviosos la información sono-
ra contenida en la vibración mecánica. Para llevar a cabo este trabajo la
cóclea cuenta con la membrana basilar y con los fluidos acuosos que llenan sus
canales.
259
Este análisis da lugar a que la información frecuencial que contiene la señal en el
tiempo se traduzca en información espacial, dando como resultado una organiza-
ción tonotópica de la membrana basilar. En cierto sentido, el comportamiento de
la cóclea como analizador mecánico de frecuencias se asemeja al del piano imagi-
nario de miles de cuerdas utilizado para explicar la descomposición espectral en el
capı́tulo “Análisis espectral de los sonidos musicales”.
En ambos casos, la detección de los componentes frecuenciales que constituyen
la vibración sonora se logra mediante un sistema mecánico de resonancias: en
el caso del piano ideal entran en resonancia las cuerdas que están afinadas a la
frecuencia de los componentes sinusoidales presentes en el sonido analizado; en el
caso de la cóclea resuenan aquellas pequeñas secciones de la membrana
basilar cuyas frecuencias naturales de vibración coinciden con las de los
componentes de la onda sonora que penetra en el canal vestibular por
la ventana oval.
Ahora bien, a diferencia de las cuerdas del piano, la membrana basilar es un
continuo. Su frecuencia de resonancia en cada punto a lo largo de su longitud
(la afinación de ese punto, por decirlo ası́) depende tanto de la elasticidad de
la membrana en esa localización concreta, como de su distancia respecto a la
ventana oval. Ası́ mismo, las frecuencias de resonancia de la membrana basilar no
se distribuyen linealmente como en nuestro piano ideal, sino logarı́tmicamente. De
hecho, si tomamos como inicio la zona apical de la membrana basilar, cada 3,5 mm
aproximadamente se dobla la frecuencia, es decir, se aumenta una octava.
12.4.1. Tonotopı́a de la membrana basilar
La cuestión que hay que explicar ahora es: ¿Cómo es posible que un sistema forma-
do por dos canales llenos de fluido acuoso y separados por una membrana elástica
de rigidez variable pueda resonar en diferentes localizaciones en función de los
componentes frecuenciales de la señal de entrada? Recordemos que, en lo que con-
cierne a la transmisión de la vibración mecánica, el canal vestibular y el canal
medio funcionan como si se tratara de uno solo, ya que la membrana de Reissner,
debido a su finura, no supone obstáculo alguno a la transmisión de las vibraciones
entre los fluidos acuosos.
Mi exposición va a seguir el planteamiento propuesto por Jan Schnupp, Israel
Nelken y Andrew King en su libro Auditory Neuroscience, Making Sense of Sound
(The MIT Press, 2011), según el cual la vibración sonora se propaga por el fluido del
canal superior y pasa al canal inferior a través de la membrana basilar justamente
260
en aquellas localizaciones cuya frecuencia natural de vibración coincide con la de
los componentes frecuenciales presentes en el sonido analizado.
Veamos, ası́ pues, las razones por las que la membrana basilar resuena en distintas
localizaciones según la frecuencia de la vibración que recibe.
Como todo movimiento ondulatorio, la vibración sonora tiende a buscar el camino
más fácil, aquél que presenta un obstáculo menor. En la cóclea, la transmisión de
la onda desde el canal superior al inferior se ve afectada por dos fuerzas cuyos
gradientes van en sentido contrario. Por un lado, la rigidez de la membrana basilar
disminuye conforme se aleja de la ventana oval ofreciendo menos resistencia a
la vibración. Por otro, la inercia de los lı́quidos que llenan los canales es mayor
conforme la zona está más alejada de la ventana oval, pues la cantidad de lı́quido
que la vibración tendrá que mover será mayor.
Ası́ mismo, el obstáculo que supone la inercia depende de la frecuencia de la
vibración: cuanto mayor sea la frecuencia, más difı́cil le resultará a la vibración
mover los lı́quidos que llenan los canales de la cóclea. Para entender esto último
nos basta recurrir a una sencilla experiencia: si tratamos de desplazar en vaivén el
lı́quido de una botella a medio llenar comprobaremos que, conforme más rápido lo
queramos hacer oscilar, más nos costará.
Por todo ello, para una frecuencia determinada de la onda vibratoria, el
punto en el que la inercia de los fluidos y la rigidez de la membrana
basilar se compensan será el punto en el que ésta se deformará más,
oscilando en resonancia con esa frecuencia y transmitiendo la vibración
al lı́quido del canal inferior.
El hecho de que cada componente frecuencial de la vibración encuentre su propio
camino para transmitirse desde el conducto superior al conducto inferior hace que
las ondas sonoras se dispersen, produciéndose la descomposición de la señal en sus
componentes sinusoidales. De este modo se realiza el análisis espectral.
Este fenómeno es similar al que ocurre con un rayo de luz al que se le hace pa-
sar a través de un prisma de cristal. En ese caso, cuando las ondas lumı́nicas se
dispersan buscando el camino más eficaz para cada componente frecuencial —es
decir, para cada color— surge el arco iris. En el caso del sonido, la dispersión que
se produce en la cóclea permite que se cree una especie de mapa de frecuencias
en la membrana basilar. Al transmitirse las vibraciones por diferentes zonas de la
membrana según su frecuencia, los componentes sinusoidales que están presentes
en la señal sonora quedan registrados en diferentes localizaciones espaciales. Esta
organización tonotópica va a estar presente a lo largo de todo el camino que lleva
la información sonora al cerebro.
261
Para ayudar a entender todo esto de una manera intuitiva, he fabricado un vı́deo
en el que se simula el comportamiento de un analizador mecánico de frecuencias
con una estructura parecida a la de la cóclea. Se trata de un cilindro que contiene
en su interior dos canales llenos de lı́quido, separados por una membrana elástica
de rigidez variable. Ambos canales están comunicados por una abertura que simula
el helicotrema. Los colores con los que está pintada la membrana siguen la escala
del arcoiris, de manera que los rojos representan las zonas que vibran en resonancia
con las frecuencias bajas y los azules las que vibran con las altas. Por la ventana
superior, que se comporta como la ventana oval, penetra la vibración mecánica
producida por la onda sonora. La ventana inferior, que imita la ventana redonda,
sirve para compensar los aumentos y disminuciones de presión que se crean en el
interior del cilindro. El aumento y disminución de la cantidad de partı́culas que
flotan en el lı́quido simboliza el aumento y la disminución de la presión de los
fluidos.
El vı́deo simula cuatro situaciones vibratorias diferentes, cada una de ellas con un
solo componente sinusoidal: la primera es una vibración cuya frecuencia pertenece
a la zona de los infrasonidos, en torno a los 16 Hz; la segunda tiene una frecuencia
de 220 Hz, un la3 en la afinación convencional; la frecuencia de la tercera es de 880
Hz, un la5 ; y la de la última, 3.520 Hz, un la7 . El vı́deo está ralentizado 440 veces.
El sonido es solamente ilustrativo.
Figura 12.12: Vı́deo con una simulación de la resonancia en la cóclea.
262
En el vı́deo podemos observar que las vibraciones que penetran en el cilindro pasan
del canal superior al inferior por una u otra zona en función de su frecuencia,
haciendo resonar la membrana en diferentes localizaciones, a excepción del primer
caso donde la transmisión de la vibración se realiza por la abertura del final que
simula el helicotrema, de modo que la membrana no se ve afectada.
Al estar el vı́deo muy ralentizado, podemos apreciar cómo la vibración introducida
a través de la ventana elástica superior se compensa mediante la ventana elástica
inferior. Vemos que cada vez que, como consecuencia del movimiento vibratorio,
la ventana superior penetra en el cilindro, el aumento de la presión que se crea en
su interior hace que la ventana inferior se mueva hacia fuera; y, a la inversa, cada
vez que la ventana superior sale hacia fuera, la ventana inferior se mueve hacia
dentro.
El inicio del vı́deo muestra una situación en la que la frecuencia de la vibración
real estarı́a por debajo del rango de los sonidos audibles, es decir, serı́a menor de
20 Hz. Dado que se trata de una frecuencia muy baja, el obstáculo que supone la
inercia del lı́quido es escaso, por lo que el camino elegido por la vibración para
pasar del conducto superior al inferior es la abertura del final. En esta situación
la membrana no sufre ninguna deformación y, por lo tanto, tampoco hay ninguna
percepción de sonido.
El segundo caso ilustra lo que sucede con una frecuencia vibratoria de 220 Hz.
Ahora la inercia del fluido ya supone cierto obstáculo, un obstáculo lo suficien-
temente importante como para que la vibración prefiera vencer la rigidez de la
membrana elástica y pasar a través de ella al canal inferior. Esa zona en la que
vemos oscilar la membrana es la que posee una frecuencia natural de resonancia
de 220 Hz, resultado de la conjunción de las dos fuerzas que crecen o decrecen en
sentido opuesto: la inercia de los fluidos en esa zona para esa frecuencia y la rigidez
de la membrana en ese punto.
El tercer caso se corresponde con un sonido dos octavas más agudo, de 880 Hz,
por lo que el movimiento oscilatorio que vemos en el vı́deo es cuatro veces más
rápido que en el caso anterior. Ahora la oscilación es tan rápida que el obstáculo
que presenta la inercia del lı́quido es mucho más importante, por lo que a la
onda vibratoria le resulta más eficaz pasar al canal inferior en una localización
más próxima a la entrada de la vibración, pues, a pesar de que en ese punto la
membrana presenta ya una resistencia bastante grande, la cantidad de lı́quido que
debe mover es mucho menor.
El cuarto caso presenta la situación correspondiente a un sonido de 3.520 Hz, es
decir, un sonido cuya frecuencia de vibración es cuatro veces mayor que la del caso
anterior y dieciséis veces mayor que el segundo caso del vı́deo. Al ser la vibración
263
muy rápida, el obstáculo derivado de la inercia de los lı́quidos es muy grande, por
lo que la onda vibratoria elige un punto donde tiene que mover menos cantidad de
lı́quido, aunque ahora la resistencia de la membrana sea ya muy grande.
Este vı́deo nos ayuda a entender por qué cada localización de la membrana basilar
a lo largo de su longitud posee una frecuencia natural de resonancia, lo cual explica
la capacidad de la cóclea para transformar los componentes sinusoidales presentes
en la vibración en localizaciones espaciales. A esto es a lo que llamamos la tonotopı́a
de la membrana basilar.
12.4.2. Comportamiento de la membrana basilar ante un sonido com-

plejo
Una vez entendido el fenómeno de la resonancia en la membrana basilar, nos intere-

sa examinar cómo vibra esa membrana ante un sonido complejo, es decir, ante un
sonido que consta de varios componentes sinusoidales (recordemos que todo sonido,
sea o no musical, puede ser descompuesto en componentes sinusoidales).
En primer lugar, hay que tener en cuenta que las zonas de la membrana basilar
que resuenen ante los distintos componentes frecuenciales vibrarán siempre —al
menos de forma ideal— con un movimiento armónico simple, oscilando de arriba
a abajo con una amplitud que, en principio, será proporcional a la del componente
que la ha hecho resonar.
Ası́ mismo, como ocurre en el caso de las cuerdas del piano ideal del capı́tulo
“Análisis espectral de los sonidos musicales”, no solamente resonará el lugar es-
pecı́fico de la membrana basilar cuya frecuencia natural coincida con la del compo-
nente presente en la vibración de entrada, sino también las zonas próximas. Ahora
bien, como sucede en toda vibración provocada, cada una de las localizaciones de
la membrana basilar que entre en resonancia oscilará siempre a la frecuencia del
componente que la hace resonar, con independencia de cuál sea la frecuencia na-
tural de resonancia de esa localización concreta. Es decir, si en la onda vibratoria
está presente, pongamos por caso, un componente de 220 Hz, resonará la locali-
zación de la membrana cuya frecuencia natural sea de 220 Hz, pero también se
verán afectadas y resonarán, aunque en menor medida, las localizaciones vecinas,
aquellas que posean una frecuencia natural próxima, por ejemplo, las que estén
entre 200 Hz y 240 Hz. Ahora bien, todas ellas oscilarán siempre a la frecuencia
excitadora —es decir, a 220 Hz— y no a la suya propia.
Y, finalmente, los oscilaciones sinusoidales de las distintas localizaciones de la
membrana que entren en resonancia conservarán también las diferencias de fase
264
relativas que puedan existir entre los componentes sinusoidales de la onda vibrato-
ria. Ası́ pues, el análisis espectral que realiza la membrana basilar no sólo conserva
la amplitud de cada componente, sino también sus diferencias de fase. Esto explica
que, en la medida en la que esta información sea recogida y procesada por nues-
tro cerebro, podamos ser sensibles a fenómenos tales como los batidos de segundo
orden.
Para ilustrar la manera en la que vibra la membrana basilar ante un sonido forma-
do por varios componentes sinusoidales, he creado un vı́deo en el que se simula su
movimiento oscilatorio ante una onda vibratoria que se va haciendo progresivamen-
te más compleja. Se trata de la nota la3 , de 220 Hz, en la que se van introduciendo
nuevos componentes armónicos, con amplitudes y fases diferentes. El vı́deo está
ralentizado y el sonido es solamente ilustrativo.
Figura 12.13: Vı́deo que simula la tonotopı́a de la membrana basilar.
Debemos tener presente que en la realidad los desplazamientos oscilatorios de cada

zona de la membrana basilar son muy pequeños (en un sonido de intensidad media
del orden de nanómetros, es decir, de millonésimas de milı́metro). Por ello, en este
vı́deo la longitud de la membrana se corresponde con los 35 milı́metros que viene a
medir la membrana basilar, mientras que el desplazamiento vertical de cada zona
que resuena representa solamente unos pocos nanómetros.
Podemos ver que cada localización de la membrana oscila de forma sinusoidal. Y
también que lo hace solamente a la frecuencia de los componentes presentes en
265
la señal de entrada. Apreciamos también que en cada zona de resonancia no osci-
la solamente un único punto de la membrana —el que tiene la misma frecuencia
natural de resonancia que el componente de entrada—, sino que también osci-
lan, a la misma frecuencia, los puntos vecinos, creándose pequeños montı́culos y
hondonadas.
Como el vı́deo está también ralentizado 440 veces, podemos apreciar que cuando el
componente de 220 Hz, el más grave, hace una oscilación completa han transcurrido
dos segundos, y cuando el siguiente componente, el de 440 Hz, realiza una oscilación
completa ha transcurrido uno, y ası́ sucesivamente.
El principio del vı́deo ilustra la vibración de la membrana basilar cuando el sonido
está formado por un solo componente, el de 220 Hz. Luego, al entrar el segundo
componente, el de 440 Hz, la membrana basilar resuena además en una nueva loca-
lización, más próxima a la zona basal, donde oscila con el doble de frecuencia que
en la primera. Y cuando entra el tercer componente se crea una nueva zona de re-
sonancia, aún más próxima a la zona basal, y su frecuencia de oscilación es el triple
de la primera. Lo mismo sucede cuando entran el cuarto y el quinto componente,
cuyas frecuencias de oscilación son cuatro y cinco veces la de la primera.
Por otra parte, en el vı́deo podemos observar que las oscilaciones de las diferentes
zonas de la membrana basilar conservan la información de la fase relativa que
tenı́an los componentes que constituyen la onda vibratoria. Si paramos el vı́deo en
el momento en el que el componente más grave alcanza su desplazamiento máximo,
podremos apreciar los desfases con los demás componentes. Estos desfases estaban
presentes en la señal de entrada que he fabricado.
12.4.3. Retroalimentación de las células pilosas externas sobre la mem-

brana basilar
Como se estudia en el capı́tulo dedicado al análisis espectral, para que un anali-

zador de frecuencias sea capaz de discriminar componentes próximos presentes en
la señal de entrada, es necesario que la respuesta sea lo suficientemente picuda,
es decir, que la anchura de la banda de frecuencias afectada por el derrame es-
pectral sea pequeña. Sin embargo, el análisis mecánico que resulta del movimiento
resonante de la membrana basilar está lejos de lograr esa buena respuesta.
Pero la cóclea dispone de un sistema de retroalimentación que le permite reducir el
derrame espectral y mejorar significativamente la respuesta puramente mecánica
que le proporciona la simple resonancia de la membrana basilar: el movimiento de
las células pilosas externas del órgano de Corti. Como hemos visto, estas células
266
sensoriales no se limitan a enviar a las terminaciones nerviosas con las que están
conectadas información sobre la zona de la membrana basilar afectada por la re-
sonancia, sino que, al ser contráctiles, pueden alargarse y encogerse cuando son
excitadas por el movimiento de la membrana basilar o de la membrana tectorial,
con las que están en contacto directo.
En efecto, cuando un ramillete de células pilosas externas son afecta-
das por la vibración del punto de la membrana basilar sobre el que se
sitúan, chocan contra la membrana tectorial, de modo que el cuerpo
de estas células se contrae y se dilata, y lo hace siguiendo el ritmo de
la oscilación en ese punto. Ası́, estas células actúan como pequeños motores
que refuerzan el movimiento de la membrana basilar en un punto, incrementando
notablemente la amplitud de la resonancia en la localización exacta sobre la que se
hallan y logrando, por lo tanto, una respuesta más picuda. Esta función de retro-
alimentación es particularmente importante en las señales débiles, donde pueden
llegar a multiplicar por 100 veces la amplitud de la oscilación de un punto de la
membrana basilar.
Este mecanismo de retroalimentación explica, por una parte, el importante margen
perceptivo de la intensidad sonora que poseemos (aproximadamente de 120 dB)
y, por otra, que la anchura de la banda de frecuencias en la que dos componentes
no interfieren entre sı́ sea los suficientemente amplia como para que seamos capa-
ces de distinguir individualmente seis o siete armónicos de un sonido compuesto
(recordemos que los armónicos superiores, aunque no sean individualizables por
nuestra percepción, contribuyen también a la cualidad del sonido).
12.5. Transducción mecano-eléctrica en la cóclea

A continuación vamos a estudiar cómo los movimientos oscilatorios de cada una de
las posiciones de la membrana basilar se transforman en variaciones de la tensión
eléctrica, las cuales reproducen analógicamente esas oscilaciones.
Esta transformación se realiza gracias a dos tareas complementarias que llevan
a cabo las células sensoriales del órgano de Corti: en primer lugar, se produce
una transformación exclusivamente mecánica, mediante la cual los movimientos
ascendentes y descendentes de una localización concreta de la membrana basilar
se convierten en movimientos transversales de los estereocilios de las células pilo-
sas que están sobre ella; en segundo lugar, se origina la transformación eléctrica
propiamente dicha, mediante la cual los movimientos de izquierda y derecha de los
267
estereocilios sirven para modular la corriente que circula a través del cuerpo de las
células sensoriales.
La primera parte, la conversión de los desplazamientos verticales de
la membrana basilar en movimientos transversales de los estereocilios,
se produce como consecuencia de la fuerza ejercida sobre ellos por la
membrana tectorial. Esta membrana pivota ligeramente arriba y abajo, pero su
pivote es independiente de la membrana basilar, de modo que cuando ésta asciende,
la membrana tectorial crea una fuerza de cizalladura sobre los estereocilios que los
obliga a inclinarse hacia el lado externo de la cóclea —es decir, hacia el estereocilio
más alto—, mientras que cuando la membrana basilar desciende, los hace inclinarse
hacia el lado interno. Veamos un diagrama esquemático de este movimiento en una
imagen obtenida del curso Hearing en OpenLearn Works, de la que solamente he
traducido los nombres.
Figura 12.14: Esquema del movimiento de cizalladura de los estereocilios.
El dibujo presenta las tres situaciones caracterı́sticas del movimiento derivado de

las fuerzas de cizalladura en una sola célula pilosa.
268
En la posición de equilibrio (b), vemos que la zona de la membrana basilar donde
se encuentra la célula sensorial mantiene su horizontalidad y que los estereocilios
de esa célula están en vertical.
Cuando esa zona de la membrana basilar asciende (a), desplazándose hacia el canal
vestibular, los estereocilios empujan hacia arriba la membrana tectorial, que, al
pivotar ligeramente en el sentido contrario al de las agujas del reloj, se desplaza
un poco también hacia arriba, con lo que provoca una fuerza de cizalladura sobre
los estereocilios que los hace inclinarse en el sentido del estereocilio más alto, es
decir, hacia el exterior de la cóclea (en el dibujo hacia la derecha). Aunque en el
esquema no se puede apreciar, hay que pensar que, al inclinarse en este sentido
los estereocilios, se separan ligeramente unos de otros, de modo que los filamentos
que unen la puerta del canal iónico de cada uno de ellos con su correspondiente
estereocilio adyacente se abre más.
Cuando esa zona de la membrana basilar desciende (c), la membrana tectorial pi-
vota ligeramente en el sentido de las agujas del reloj, desplazándose hacia abajo,
de modo que ahora la fuerza de cizalladura sobre los estereocilios se produce en
sentido inverso, es decir, hacia el interior de la cóclea (en el dibujo hacia la izquier-
da). Entonces los estereocilios se juntan unos con otros, cerrándose las puertas de
los canales iónicos.
Ası́ pues, estas deflecciones de los estereocilios siguen el ritmo y la amplitud de
los movimientos oscilatorios de la membrana basilar donde se asientan. Hay que
tener en cuenta que, conforme mayor sea la amplitud del movimiento de ascenso
o descenso de una determinada localización de la membrana basilar, mayor será
también la amplitud del movimiento transversal de los estereocilios. Por otra parte,
aunque este desplazamiento de los estereocilios es muy pequeño (en un sonido muy
intenso el desplazamiento máximo en la parte superior del estereocilio más alto
es del orden 100 nm), basta que se desplacen menos de un nanómetro para que
percibamos sonido.
La segunda parte, la transformación eléctrica a partir del movimiento
transversal de los estereocilios, es posible gracias a la diferencia de po-
tencial (de unos 80 mV) que existe entre el lı́quido endolinfático del
canal medio, muy rico en iones positivos de potasio (K+), y el lı́quido
perilinfático del canal timpánico, cuyo contenido en iones positivos de
potasio es muy escaso. Debido a que los estereocilios de las células pilosas están
dentro de la endolinfa, mientras que el cuerpo de estas células está en contacto
directo o indirecto con la perilinfa y, al ser totalmente impermeable la lámina que
separa ambos lı́quidos, la única forma en la que se puede establecer una corriente
eléctrica entre estos fluidos es a través del interior de las células sensoriales, cu-
269
yos canales iónicos abiertos en sus estereocilios permiten que penetre un mayor o
menor número de iones positivos.
En efecto, los iones positivos de la endolinfa son atraı́dos por la mayor negatividad
del cuerpo de las células pilosas. Cuando el cuerpo celular recibe estos iones se
positiviza y, en consecuencia, los iones positivos son atraı́dos por las cargas nega-
tivas del lı́quido semejante a la perilinfa que llena las lagunas del órgano de Corti.
Finalmente, los iones positivos son asimilados por la perilinfa del canal timpánico,
debido a la permeabilidad de la membrana basilar al paso de los iones. Y mientras
tanto, la estrı́a vascular se encarga de suministrar constantemente nuevos iones
positivos de potasio a la endolinfa, reponiendo los que va perdiendo.
Pero esa corriente eléctrica no es constante, sino que varı́a según el movimiento
de los estereocilios de las células sensoriales. El movimiento de vaivén de los es-
tereocilios, producido como consecuencia de la oscilación de la localización de la
membrana basilar donde se encuentra la célula sensorial, abre más o menos los
canales iónicos, como acabamos de ver, modulando de ese modo el paso de la
corriente desde la endolinfa a la perilinfa.
Cuando esa localización de la membrana basilar está en una posición de equilibrio
y los estereocilios están en vertical, el flujo de iones de potasio que penetra a través
de sus canales iónicos es reducido, con lo que la corriente eléctrica que atraviese
el cuerpo de la célula será moderada. Cuando esa zona asciende hacia el canal
vestibular, abriéndose más los canales iónicos en los estereocilios, penetran por
ellos muchos más iones de potasio positivos, aumentando la corriente eléctrica.
Y, por el contrario, cuando esa zona de la membrana basilar se desplaza hacia
abajo y se tienden a cerrar los canales iónicos, penetran por ellos una cantidad
más reducida de iones positivos, quedando entonces el flujo de la corriente muy
atenuado. De este modo, el movimiento transversal de carácter mecánico de los
estereocilios se transforma en variaciones de la corriente eléctrica.
Ası́ pues, el resultado de la transducción mecano-eléctrica es que las va-
riaciones de la corriente eléctrica que atraviesa el cuerpo de cada célu-
la sensorial son capaces de reproducir de manera analógica los movi-
mientos oscilatorios de la membrana basilar en la posición en la que se
encuentra la célula. La vibración de ese punto es transformada en una señal
eléctrica analógica, de manera similar a lo que hace un micrófono respecto a las
variaciones de la presión del aire en el lugar en el que está situado. Finalmente,
conviene insistir en que el movimiento de la oscilación de los estereocilios que va
a dar lugar a las oscilaciones de la tensión eléctrica ya no reproduce la forma de
la onda vibratoria que ha llegado a la cóclea a través del estribo, la cual es una
señal en el tiempo, sino la forma de la oscilación que resuena en cada localización
270
de la membrana basilar. Idealmente esta forma es una señal sinusoidal, con sus
propios parámetros de frecuencia, amplitud y fase, resultado de la descomposición
de la señal en el tiempo que ha realizado la membrana basilar para ese componente
concreto.
12.6. Codificación de la información sonora en impulsos eléctri-

cos
A continuación vamos a estudiar cómo el conjunto de señales analógicas que nos
proporcionan las células sensoriales son codificadas por las neuronas y transforma-
das en impulsos nerviosos. Gracias a esta codificación nuestro cerebro extraerá e
interpretará la información pertinente a nuestra audición, es decir, los componentes
frecuenciales que están presentes en la vibración de entrada y su correspondiente
amplitud, e incluso la fase relativa entre ellos.
Podrı́amos pensar que, de algún modo, la codificación que realizan las neuronas en
el ganglio espiral supone la transformación de una información analógica en una
información de tipo digital. Mientras las variaciones de la corriente eléctrica que
pasa a través de las células sensoriales del órgano de Corti reproducen analógi-
camente las oscilaciones de la zona de la membrana basilar correspondiente, las
neuronas del sistema auditivo se comportan, como todas las demás neuronas, de
una manera que podrı́amos calificar de discontinua o digital. En efecto, las neu-
ronas siempre siguen la ley de todo o nada, es decir, disparan un impulso o no lo
disparan.
Los medios de los que dispone cada una de las neuronas del sistema auditivo para
codificar la información que proporcionan las células sensoriales y transmitirla a
otras neuronas ubicadas en sus respectivos centros de proceso son básicamente dos:
el número de veces que cada neurona se excita por segundo, es decir, su tasa de
disparos; y el momento preciso en el que lo hace, es decir, la circunstancia concreta
en la que dispara el impulso, como por ejemplo, cuando la oscilación de la corriente
eléctrica en la célula sensorial con la que está conectada alcanza un máximo.
Junto a estos medios individuales, hay otro muy importante en el que están im-
plicadas todo el conjunto de neuronas que se comunican con las células sensoriales
del órgano de Corti: la disposición tonotópica de las neuronas del sistema auditivo.
En efecto, estas neuronas mantienen a lo largo de su recorrido, hasta llegar a la
capa exterior del cortex auditivo, la organización tonotópica que posee la mem-
brana basilar. Dicho de otra manera, cada neurona va asociada a una determinada
frecuencia de resonancia de la membrana basilar y esta asociación se mantiene de
271
neurona en neurona, dando lugar a una especie de mapa de frecuencias en la zona
del cerebro especializada en la audición.
Puesto que cada célula pilosa interna transmite su información a unas 10 o 12
fibras nerviosas aferentes que son exclusivas para esa célula concreta, la tonotopı́a
por sı́ sola podrı́a explicar nuestra capacidad para apreciar los componentes fre-
cuenciales. Teniendo en cuenta que el rango de frecuencias que distinguimos los
humanos va desde 20 Hz a 20.000 Hz (es decir, prácticamente 10 octavas ó 120 se-
mitonos) y puesto que contamos con una hilera de aproximadamente 3.500 células
pilosas internas, podemos deducir que la separación interválica entre las células
sensoriales internas se corresponde aproximadamente a unas tres centésimas de
semitono (120/3500 = 0,0343). Este margen viene a coincidir con las mediciones
psicoacústicas sobre nuestra capacidad para apreciar las diferencias mı́nimas entre
intervalos sucesivos.
Además, la información sobre la frecuencia también lleva consigo la información
sobre la amplitud. Una parte importante de esas 10 ó 12 neuronas que hacen
sinapsis con cada célula pilosa interna transmiten la información de la amplitud
mediante su tasa de disparos. Cuando la amplitud de la oscilación eléctrica en
el cuerpo de la célula sensorial es grande, el número de disparos por segundo de
cada neurona es elevado, mientras que si la amplitud es pequeña hay un reducido
número de disparos por segundo (el número máximo de disparos que es capaz de
efectuar una neurona está en torno a los 500 disparos por segundo). Ası́ mismo, el
número de neuronas pertenecientes a cada célula sensorial que resultan activadas
es mayor cuanto mayor sea la amplitud de la oscilación eléctrica.
La combinación de estos dos medios, tonotopı́a y tasa de disparos de
las neuronas, pueden constituir los mecanismos básicos por los que se
codifica la frecuencia y la amplitud. Sin embargo, no son suficientes para
explicar fenómenos psicoacústicos, tales como la detección de la fase relativa entre
los componentes, como ocurre, por ejemplo, cuando oı́mos los batidos de segundo
orden.
El elevado número de conexiones neuronales por cada célula sensorial interna invita
a pensar que pudieran existir otros mecanismos complementarios que refuercen
y precisen esa codificación. Por un lado, parece ser que alguna de las neuronas
a las que están conectadas las células pilosas están especializadas en dispararse
cuando la oscilación eléctrica de la célula pasa por un máximo. Y esto, en principio,
ocurre de forma periódica, pues cada célula que transmite la resonancia de la
membrana basilar debe oscilar con un movimiento armónico simple. Esto implica
que si la frecuencia de oscilación eléctrica es baja, la neurona tendrá tiempo para
rearmarse y disparará un impulso por cada máximo, pero si la frecuencia de la
272
oscilación es alta, no podrá rearmarse y disparará cada dos, cada tres o cada más
máximos. El resultado será un tren de impulsos que, aunque tenga lagunas, será
predominantemente periódico. Estas lagunas podrán ser completadas por otras
neuronas de esa célula especializadas en este mecanismo, actuando en su conjunto
como si estuvieran jugando un partido de voleibol.
Ası́ pues, el disparo de estas neuronas no tendrı́a que ver con la amplitud, sino con
la fase de la oscilación, es decir, con un estado de la oscilación, el punto en el que
se alcanza el máximo. Este mecanismo, que se denomina bloqueo de fase,
servirı́a para reforzar la codificación de la frecuencia y también para
trasmitir la información de fase relativa entre los componentes de una
señal.
Hay que tener en cuenta que, aunque como consecuencia del derrame espectral
las células pilosas internas vecinas también oscilarán, lo harán no a su frecuencia
natural de resonancia, sino a la del componente frecuencial presente en la señal de
entrada. Por ello, el tren de impulsos enviado por las neuronas vecinas especiali-
zadas en este mecanismo de bloqueo de fase tendrá siempre la misma frecuencia,
lo que explicarı́a, entre otras cosas, la percepción de los batidos de segundo or-
den.
Por otra parte, en lo que concierne a la codificación de la amplitud, contamos con
dos medios complementarios. El primero es la mayor o menor extensión de
la zona afectada por el derrame espectral, es decir, el número de células
vecinas estimuladas por la presencia de un determinado componente
frecuencial presente en la señal de entrada. Conforme mayor sea la amplitud
del componente, mayor número de células vecinas se verán afectadas. El segundo
es que la información que transmite la neurona aferente conectada a
un pequeño grupo de células pilosas externas contribuye a codificar la
mayor o menor amplitud de la pequeña zona en la que están ubicadas.
Dado que estas células pilosas externas son las encargadas de retroalimentar los
movimientos resonantes de la membrana basilar, la mayor o menor tasa de disparos
de la neurona a la que están conectadas contribuirá a informar sobre la mayor o
menor amplitud de la oscilación en esa zona.
Ası́ pues, la forma en la que se realiza la codificación de la información auditi-
va explica que, a pesar de que nuestra audición es esencialmente frecuencial (es
decir, procede del análisis espectral realizado mecánicamente por la membrana ba-
silar), haya tanta coincidencia, como hemos podido comprobar en otros capı́tulos,
entre lo que vemos en la forma temporal de la vibración sonora y el sonido que
percibimos.
273
Todo este conjunto de mecanismos neuronales que sirven para codificar las señales
analógicas provenientes de las células pilosas del órgano de Corti suministran la
base sobre la cual se realizan complejos algoritmos de procesamiento de la infor-
mación auditiva, a lo largo de los diversos centros cerebrales por los que atraviesa.
Pero el funcionamiento preciso de todo ello no es todavı́a suficientemente conocido
y se escapa del objetivo de este capı́tulo.
12.7. Conclusión
Podemos concluir que nuestra percepción del sonido se fundamenta en el análisis
frecuencial que se realiza en la membrana basilar en el interior de la cóclea. La
evidente afinidad entre la forma de la vibración y nuestra percepción auditiva
se debe a que el analizador mecánico de la cóclea conserva una gran parte de
la información que se encuentra en la señal en el tiempo, pues no sólo recoge y
transmite la amplitud de cada componente presente en la señal, sino que también
atiende en cierta medida a la fase. La gran densidad de información frecuencial que
llega a nuestro cerebro le permite recuperar una parte importante del contenido
temporal de la señal sonora.
274
Capı́tulo 13
Psicoacústica musical
A pesar de que la información musical llega hasta nuestros oı́dos totalmente mez-
clada en la vibración mecánica sobre la que viaja, nuestro sistema auditivo es capaz
de determinar los sonidos musicales que contiene. De la misma manera que en la
visión tenemos la capacidad de distinguir la figura del fondo e individualizar los
múltiples objetos que ocupan la escena visual, en la percepción auditiva podemos
aislar cada una de las entidades sonoras del entorno acústico en el que están in-
mersas, ası́ como recuperar la unidad de los sonidos musicales dados por la voz o
los instrumentos, los cuales, debido a la propia fisiologı́a de nuestro oı́do, han sido
previamente divididos en sus componentes frecuenciales.
Este capı́tulo estudia la capacidad de nuestra percepción para reconocer objetos
musicales en un contexto sonoro y para reconstruir su unidad. Si bien en cier-
ta medida esta capacidad está condicionada por las caracterı́sticas fisiológicas de
nuestra audición, el proceso mediante el cual percibimos el sonido musical es de
orden superior. En efecto, nuestra percepción musical es el resultado de la manera
en la que nuestro cerebro procesa los impulsos nerviosos producidos por la cóclea
al codificar la vibración sonora. A dı́a de hoy sólo tenemos ideas de carácter muy
general sobre el proceso que realizan los diferentes núcleos cerebrales relacionados
con la audición. Pero, aunque conociéramos con detenimiento los mecanismos neu-
rológicos mediante los cuales se procesa la información acústica en el cerebro, lo
que nos interesarı́a siempre conocer es la imagen psicoacústica que construimos a
partir de esa información.
275
Examinaremos, en primer lugar, las limitaciones para la percepción del objeto so-
noro que vienen dadas por la fisiologı́a de nuestro oı́do, tales como las que afectan
a la identificación de un sonido simple en un ambiente ruidoso o, dicho de otra ma-
nera, el enmascaramiento al que da lugar la coexistencia de diversos componentes
en zonas próximas del espectro. En segundo lugar, veremos que nuestra capaci-
dad para recuperar la unidad del objeto sonoro musical viene dada por nuestra
predisposición natural para el reconocimiento del patrón armónico. Y en tercer
lugar estudiaremos cómo el reconocimiento de un patrón armónico, o de una es-
tructura que lo recuerde, explica la percepción de la consonancia entre sonidos
armónicos compuestos y cómo también en las consonancias musicales podemos
seguir percibiendo la individualidad de cada uno de los sonidos que forman parte
de la mezcla gracias a nuestra capacidad para detectar las marcas tı́mbricas que
los individualizan.
Vamos a dejar al margen las cuestiones relacionadas con la percepción de la es-
pacialidad y con todo lo que se deriva del hecho de que tengamos dos oı́dos. La
capacidad de nuestro sistema auditivo para localizar la procedencia de la fuente
sonora es un tema de interés para la tecnologı́a musical, en especial para lograr una
reproducción sonora que nos devuelva el sonido de la forma más natural posible.
Pero, dado que esta cuestión no es determinante para comprender los fundamen-
tos psicoacústicos del lenguaje musical, vamos a prescindir en este capı́tulo de
ella.
Finalmente, hay que tener en cuenta que la capacidad de reconocimiento del sonido
musical depende, en buena medida, del entrenamiento del oyente, es decir, de su
mayor o menor dedicación a la música.
13.2. Limitaciones en la percepción del objeto sonoro debidas

a la fisiologı́a del oı́do
Debido a la constitución de nuestro sistema auditivo, la presencia de otros com-
ponentes frecuenciales en zonas del espectro próximas al sonido que tratamos de
percibir nos dificulta o incluso nos impide su reconocimiento. Como ya pudimos ver
en el capı́tulo dedicado a la interferencia entre sonidos simples, nuestro oı́do re-
quiere que exista cierta separación entre los componentes frecuenciales
para poder distinguir nı́tidamente los sonidos. La anchura de la banda
crı́tica es la distancia mı́nima que sirve de lı́mite para que dos compo-
nentes sinusoidales puedan ser distinguidos con claridad. Esta distancia
mı́nima está en relación directa con el hecho de que la resonancia de la membrana
276
basilar en un punto afecta también a los puntos que están próximos, tal como
hemos visto en el capı́tulo dedicado a la fisiologı́a de la audición.
Para permitir experimentar este fenómeno voy a presentar, a modo de ejemplo,
un vı́deo con el caso más sencillo de distinción de fondo y figura en el paisaje
sonoro: la percepción de un sonido simple en un entorno ruidoso. Ahora nos interesa
solamente comprobar que la percepción de un sonido simple con una determinada
intensidad mantenida se facilita de forma significativa cuando se encuentra en una
zona libre de otros componentes. Este caso, realizado con sonidos de laboratorio,
nos servirá para entender la manera en la que nuestra percepción está condicionada
por la fisiologı́a de nuestro oı́do. Para evitar que los otros componentes puedan
provocar efectos de batidos e interferencias que obstaculizarı́an nuestra percepción
del fenómeno, he elegido como elemento perturbador una banda de ruido. En
este ejemplo el fondo consiste precisamente en esta banda de ruido, mientras que
la figura está formada por dos sonidos simples que a lo largo de todo el vı́deo
mantienen la misma amplitud y, por lo tanto, la misma intensidad. Se trata de un
la4 (440 Hz) cuya amplitud es de 0,005 (en unidades arbitrarias normalizadas como
siempre entre 0 y 1) y de un la6 (1.760 Hz) cuya amplitud es de 0,3. La diferencia
entre la intensidad de ambas señales es de 36 dB. La banda de ruido se extiende
durante los seis primeros segundos unos 1.000 Hz arriba y abajo del componente
agudo. A partir del segundo 6 se abre un hueco en esta banda de ruido que va
progresivamente separándose del componente agudo.
Al disminuir la anchura de banda del ruido, disminuye también su intensidad. Si el
objetivo de este vı́deo fuera ser utilizado como un test para ver en qué condiciones
es posible identificar un componente —es decir, medir la anchura de la banda
crı́tica—, la intensidad del ruido deberı́a haberse mantenido constante, aunque
disminuyera la anchura de su banda. Pero nuestro objetivo ahora es simplemente
ilustrar la diferencia entre la percepción que se produce en una banda ocupada y
en otra sin ocupar. Que la intensidad del ruido no se adapte a la disminución de
su anchura de banda nos facilita esta tarea.
277
Figura 13.1: Vı́deo que permite experimentar la percepción de sonidos simples en
presencia de ruido.
Durante los primeros 6 segundos del vı́deo podemos comprobar que el componente
de 440 Hz (la nota la4 que en el espectrograma corresponde a la lı́nea horizontal
inferior que casi no se ve) se oye con toda claridad, acompañada de un ruido de
carácter más agudo; sin embargo, no somos capaces de oı́r el componente de 1.760
Hz, a pesar de que en el espectrograma lo podemos ver sin dificultad en medio de
la banda ruidosa. A partir del segundo 6 el carácter del ruido va cambiando: en
el espectrograma vemos que en medio del ruido va abriéndose un hueco que se va
ensanchando progresivamente para dejar libre las bandas próximas al componente
de 1.760 Hz. Por ello el componente de 440 Hz siguen oyéndose con el mismo volu-
men sonoro que antes, pero hasta pasado el segundo 10 no empezamos a percibir
ligeramente el componente agudo de 1.760 Hz, el corrrespondiente a la nota la6
(dependiendo del volumen de nuestro reproductor y de la atención que prestemos a
su aparición podemos oı́rlo un poco antes o un poco después). Nuestra percepción
del componente agudo llega a ser cada vez más clara, hasta que, en un momento
determinado, ya no cambia y al final percibimos con claridad los dos componentes
individuales, manteniendo cada uno de ellos su propio volumen sonoro. Este efecto
se aprecia más claramente conforme va disminuyendo la intensidad del ruido y
reduciéndose la anchura de su banda.
Este fenómeno psicoacústico del enmascaramiento es utilizado por los compresores
de sonido para disminuir la codificación necesaria en función de nuestras capaci-
dades para distinguir los componentes próximos.
278
13.3. El reconocimiento del patrón armónico
En la naturaleza hay muchos sonidos que surgen en condiciones estacionarias, por
ejemplo, las cuerdas que vibran, las columnas de aire que resuenan en cavidades,
los ruidos emitidos por muchos animales, el viento que silba en las grutas, etc. Por
ello el sonido armónico es tan abundante en la naturaleza. Entre los humanos, el
sonido armónico no sólo constituye el material con el que se construye la música,
sino que también sirve de soporte para la articulación del lenguaje hablado, como
es el caso de las vocales. Esta familiaridad con un entorno sonoro armónico explica
de algún modo nuestra predisposición natural para reconocerlo.
A nuestro cerebro llega, a través del nervio auditivo, la descomposición espectral
de la vibración mecánica que ha realizado el oı́do interno y es nuestro cerebro el
que lleva a cabo la tarea de reunir todos esos componentes dispersos para recuperar
la unidad del objeto sonoro armónico. En nuestra mente se realizan una serie de
procesos psicoacústicos encaminados al reconocimiento del patrón armónico de ca-
da objeto musical mediante el cual agrupamos los componentes e identificamos las
notas. Hay que tener en cuenta que identificar una nota musical, o el intervalo que
forma con otra, no significa darle un nombre concreto; es un proceso inconsciente
para la mayor parte de las personas, pero que nos permite entender y recordar
una melodı́a. Por ejemplo, si se cambia una nota por otra en una canción conocida
casi todos los oyentes se darán cuenta; y eso ocurrirá con independencia de que
sepan o no música, ni de que sean capaces o no de nombrar la nota o las notas que
esperaban escuchar.
La identificación de un sonido armónico no se debe a que percibamos
su periodicidad en la forma de la vibración resultante, sino a que la
estructura de sus componentes frecuenciales se corresponde con una
estructura armónica. Ası́ pues, el reconocimiento del patrón armónico se pro-
duce por los intentos de nuestro sistema perceptivo por organizar en estructuras
armónicas todo el material sonoro que recibe.
En lı́neas generales, el reconocimiento del patrón armónico obedece a las leyes
de la Gestalt en su aplicación al material sonoro. Vamos a ver a continuación
que La ley de la completitud de la figura explica cómo reconstruimos un patrón
armónico en un sonido en el que hay muchos huecos dentro de la serie armónica.
Voy a presentar dos vı́deos que nos van a permitir observar la manera en la que
nuestra percepción auditiva organiza el material sonoro según la serie armónica,
completando los huecos que el sonido musical pudiera tener. En el primero mostraré
cómo reconocemos una nota musical en un sonido en el que faltan un buen número
de los primeros componentes. En el segundo veremos que seguimos identificando
la misma nota incluso cuando se le quitan sus primeros armónicos.
279
En el primer vı́deo tenemos el espectrograma de la nota más grave de un sonido
de piano, el la0 , cuya frecuencia es de 27,5 Hz. El sonido procede de una grabación
doméstica realizada con un piano vertical, donde el número e importancia de los
componentes graves es considerablemente menor que en un piano de gran cola. El
espectrograma ha sido realizado con una ventana de larga duración (0,2 segundos),
pues aquı́ nos interesa observar la frecuencia de los componentes, más que su
evolución temporal.
Figura 13.2: Vı́deo con el espectrograma de la nota la0 de un piano.
Todos reconocerı́amos aquı́ un la0 , la nota más grave del piano, con lo que, en
principio, deberı́amos ver en el espectrograma su primer armónico, es decir, el
componente de 27,5 Hz. Sin embargo, el armónico más grave que aparece en el
espectrograma es el cuarto, con una frecuencia de 110 Hz; luego el quinto, el
sexto y el séptimo, separados aproximadamente por una distancia de 27,5 Hz. El
octavo armónico no está, pero desde el noveno hasta el decimosexto vemos que
son todos consecutivos. Si seguimos hacia la parte alta del espectro observamos
una considerable cantidad de componentes armónicos, todos ellos separados entre
sı́, salvo en los casos en los que hay huecos, por una distancia de 27,5 Hz o un
poco más (hay que tener en cuenta que la ligera inarmonicidad del piano hace
que se vayan separando progresivamente). En cuanto a la energı́a que aporta cada
armónico al sonido y que afecta a su timbre, podemos apreciar que el duodécimo
es el que tiene mayor amplitud y, por lo tanto, mayor intensidad.
280
Ahora bien, a pesar de las importantes lagunas en la estructura armónica de es-
ta nota la0 e incluso de la ausencia de los primeros armónicos, nuestro sistema
perceptivo ha apreciado varios rasgos que le han ayudado en la tarea de su recons-
trucción y en la recuperación de la unidad de esa nota la0 . Ha reconocido que la
distancia que más abunda entre los diferentes componentes es de unos 27,5 Hz.
También ha apreciado los rasgos comunes que hay entre los componentes de la
nota la0 : coincidencia en el tiempo del ataque, forma similar en el ataque, hori-
zontalidad, atenuación exponencial, etc. Y a partir de todo ello ha reconocido que
todos esos componentes forman parte de la nota de piano la0 , con independencia
de que sepamos nombrarla o no. Gracias a esta capacidad de nuestra percepción
auditiva podemos oı́r las notas graves de cualquier obra musical en un reproductor
de música de no muy buena calidad, a pesar de que, en lı́neas generales, éstos no
acostumbran a reproducir frecuencias más bajas de 50 Hz.
En el segundo vı́deo he elegido un ejemplo diferente. Empezamos oyendo la nota
la2 del piano (110 Hz), pero en los sucesivos ataques le he ido quitando de for-
ma artificial diferentes componentes de la estructura armónica. La duración de la
ventana de análisis ha sido en esta ocasión 0,08 segundos, pues he pensado que,
al estar los componentes más separados, esta duración era ya suficiente para apre-
ciar con claridad la estructura armónica (insisto en que ahora nos interesa ver los
componentes frecuenciales de la estructura, no su evolución temporal).
Figura 13.3: Vı́deo con el espectrograma de la nota la2 de un piano a la que se le quitan
progresivamente sucesivos armónicos.
281
Podemos comprobar que, aunque vayan cambiando las cualidades sonoras de la
nota, en las tres ocasiones escuchamos un la2 . En el primer caso, tenemos la nota
emitida por el piano sin modificación alguna. La estructura armónica está comple-
ta: se aprecian claramente los primeros doce armónicos, se insinúan el decimoter-
cero y el decimocuarto, y el decimoquinto aparece con claridad, aunque de forma
intermitente. En el segundo caso he eliminado el primero y el segundo armónico,
pero los cambios producidos en el sonido han sido escasos: una cierta pérdida de
graves en la cualidad sonora que solamente será apreciada en un reproductor con
suficiente calidad. En el tercer caso he eliminado los cinco primeros armónicos.
Apreciamos ahora que el cambio en la cualidad sonora ha sido muy importante,
casi no parece una nota de piano, pero la identificación de la altura tonal de la
nota como un la2 no ha sufrido en absoluto.
Ası́ pues, con estos dos ejemplos hemos podido experimentar cómo actúa nuestra
percepción auditiva para reconocer la estructura del objeto, incluso cuando la
serie armónica presenta numerosas lagunas, e identificar de esta manera las notas
musicales.
13.4. Percepción de la consonancia entre sonidos musica-

les
El concepto de consonancia del que voy a ocuparme a continuación no tiene nada
que ver con la consonancia entendida como eufonı́a, es decir, con el hecho de que dos
o más sonidos emitidos simultáneamente nos suenen mejor o peor. Hay disonancias
claramente eufónicas. Por poner un ejemplo, en mi opinión, el acorde de séptima
disminuida suena deliciosamente bien y es un auténtico paradigma de la disonancia.
Por otra parte, no voy a tratar aquı́ de las convenciones que en cada momento
histórico del desarrollo de nuestro lenguaje musical han considerado consonantes
o disonantes determinados intervalos musicales, o unas u otras agrupaciones de
sonidos. Por ejemplo, en unos contextos armónicos el intervalo de cuarta es tratado
como disonante y exige resolución, mientras que en otros es considerado como
consonante.
Aquı́ vamos a atender a los fundamentos acústicos y psicoacústicos de la consonan-
cia entre sonidos musicales, es decir, tanto lo que concierne a su propia constitución
fı́sica como a las caracterı́sticas de nuestra percepción musical que permiten que
reconozcamos la consonancia, con total independencia de los criterios estéticos de
cada época o de las apreciaciones subjetivas de un número mayor o menor de
oyentes. Nos interesa ahora atender a los sonidos reales, es decir, a sonidos indivi-
282
dualizados complejos y distintos, tal como surgen de la voz y de los instrumentos,
cada uno con su propia marca tı́mbrica.
Cuando dos notas suenan a la vez puede ocurrir, o bien que permanezcan indepen-
dientes una de la otra, o bien que se acoplen y produzcan una mezcla consonante.
En el capı́tulo 6 vimos que la consonancia entre sonidos simples se debe a que la
mezcla resultante tiene una periodicidad que nuestro sistema auditivo es capaz de
reconocer y que esa periodicidad viene dada por la conmensurabilidad próxima
entre sus frecuencias. Pero en la mayor parte de las ocasiones los sonidos musicales
son compuestos, es decir, están formados por un buen número de componentes
cuyas frecuencias forman entre sı́ una estructura armónica. En estos casos, la per-
cepción de la consonancia está en relación directa con la posibilidad de organizar
los componentes de la mezcla resultante en una nueva estructura armónica más
o menos completa. Dicho de otra manera, la combinación de los componentes de
los sonidos musicales que intervienen en la mezcla ha de formar una estructura lo
suficientemente armónica como para que nuestra mente sea capaz de reconocerla,
completando los elementos que faltan si es necesario. Cuando eso sucede nosotros
percibimos la mezcla resultante como una entidad musical a la que llamamos conso-
nancia. En este sentido podemos decir que la consonancia se produce cuando
al mezclarse dos o más sonidos musicales se crea una nueva estructura
armónica o casi armónica.
Pero la mezcla consonante no es una combinación de componentes simples en la
que cada uno de ellos se disuelve y desaparece, como hemos visto que ocurre cuando
se combinan componentes sinusoidales para formar el sonido armónico compuesto.
Las marcas tı́mbricas que caracterizan a cada sonido impiden que la mezcla se
comporte como una mera suma de componentes sinusoidales que darı́a lugar a
un nuevo y único sonido. Por el contrario, cuando se unen sonidos consonantes,
cada uno de ellos sigue estando presente en el sonido resultante, de modo que,
si prestamos atención, podemos seguir distinguiendo cada uno de los sonidos que
se mezclan. Salvo cuando los intérpretes pretenden anular las individualidades y
fundirlas en una masa coral, como ocurre con las diferentes secciones de cuerda de
una orquesta, el timbre de cada sonido de algún modo permanece y deja su huella
en la textura de la mezcla consonante.
En realidad, éste es el sentido preciso del concepto de “armonı́a”, concepto que se
fundamenta en la consonancia natural y que tanto ha influido en el pensamiento
de Occidente. La armonı́a es la buena mezcla, la mezcla hecha de tal modo que
resulta una nueva entidad más rica y compleja, un conjunto bien trabado, pero
un conjunto en el que las partes no se disuelven, sino que siguen manteniendo su
individualidad.
283
Para comprender en qué consiste la consonancia entendida como mezcla, ası́ como
para observar los diversos tipos de consonancias naturales, voy a presentar varios
vı́deos en los que los sonidos van acompañados de su correspondiente espectro-
grama. En los ejemplos suena primero cada una de las dos notas por separado y
luego el sonido resultante de su “emisión simultánea”. Esta “emisón simultánea”
ha sido simulada mezclando las dos notas con ayuda de un editor de sonido, con
la finalidad de que las notas presentes en la combinación sean exactamente las
mismas que las que han sido emitidas por separado.
13.4.1. Consonancia y disonancia
En primer lugar voy explicar la diferencia entre consonancia y disonancia, para lo

que voy a poner un ejemplo de cada una de ellas. Como consonancia he elegido
el unı́sono, la más perfecta de las consonancias, y como disonancia, una séptima
menor. En ambos casos he combinado la misma nota de piano, el sol3 , con otra nota
de violı́n; en el ejemplo de la consonancia, con otro sol3 , y en el de la disonancia,
con un fa4 .
Comencemos con el ejemplo de la consonancia.
Figura 13.4: Vı́deo con el espectrograma de una nota de piano y otra de violı́n al
unı́sono.
284
Oigamos cómo suenan y paremos luego el vı́deo en cualquier momento para ver
el espectrograma. La columna izquierda del espectrograma corresponde al sol3 del
piano, la columna del medio al sol3 del violı́n y la de la derecha a la emisión
simultánea de ambas notas. En el espectrograma observamos que el número y
la estructura de los componentes frecuenciales de las dos notas simultáneas (los
armónicos de la columna de la derecha) vienen a ser el resultado de la combinación
de los componentes de las dos notas emitidas por separado (los de las columnas
de la izquierda y del medio). Enseguida entendemos por qué las dos notas se han
mezclado tan bien. En efecto, comprobamos que ambas notas comparten un buen
número de sus componentes frecuenciales, lo que era de esperar al tratarse de
un unı́sono. Observamos, además, que la combinación resultante también posee
un patrón armónico. En una primera ojeada, y especialmente si atendemos solo
a los siete primeros componentes, podrı́amos pensar que estamos ante un único
sonido individual, pues en la estructura frecuencial no encontramos nada de parti-
cular diferente de la que posee un único sonido armónico compuesto. La capacidad
de nuestra percepción musical para reconocer el patrón armónico ha funcionado
también aquı́: ha reunificado los componentes frecuenciales y ha reconstruido una
nueva unidad.
Ahora bien, la cosa no es tan sencilla. Con esto queda explicada solamente la parte
unitaria de la mezcla consonante, el hecho de que estos sonidos se mezclen bien y
den como resultado una nueva unidad; pero nos falta entender por qué en la mezcla
se sigue reconociendo el sonido de las dos notas, la de piano y la de violı́n, es decir,
por qué, a pesar de esa buena mezcla, se conservan los elementos individuales. En
efecto, si volvemos a escuchar el ejemplo, nos damos cuenta de que en la emisión
simultánea también podemos seguir oyendo con claridad cada una de las dos notas:
en función de sus propias dinámicas hay momentos en los que el piano se destaca
más (como por ejemplo, en el ataque) y hay otros en los que es el violı́n el que
domina (como sucede cuando el volumen de la nota de violı́n se mantiene elevado
mientras la nota de piano se encuentra ya muy amortiguada).
Tendremos que fijarnos con más detenimiento en el espectrograma para entender
por qué se siguen oyendo las dos notas individuales. En muchos componentes de la
columna de la derecha (la de las dos notas simultáneas) reconocemos las mismas
marcas tı́mbricas especı́ficas del piano o del violı́n que están en los respectivos
componentes de las notas dadas por separado (las columnas izquierda y central).
Por ejemplo, vemos que ese punto luminoso que destaca en el primer componente
de la nota de piano sola o esa lı́nea vertical que señala el ruido inicial del ataque
aparecen de nuevo en los componentes del sonido mezclado; y también que ese
dibujo de la nota de violı́n solo, que indica que se está manteniendo la amplitud sin
amortiguación, se repite en los componentes de las dos notas mezcladas, igual que
285
se repite el elevado número de componentes armónicos superiores y su permanencia
en el tiempo. Podemos concluir, ası́ pues, que en la mezcla consonante se conservan
buena parte de los rasgos tı́mbricos de cada uno de los sonidos individuales que la
componen, lo que explica que percibamos una nota de piano y otra de violı́n dadas
simultáneamente y no un único sonido con otro timbre diferente.
Pero hay también otros elementos que se pueden observar en la mezcla y que no
están en los sonidos individuales. Podrı́amos decir que son algo ası́ como los efec-
tos colaterales de la mezcla. En el armónico sexto y en otros superiores podemos
observar unas discontinuidades —que en el oı́do se traducen en la percepción de
pequeños batidos—, las cuales son el resultado de la inarmonicidad de los compo-
nentes del piano interactuando con la armonicidad casi total de los componentes
de violı́n. En efecto, la progresiva “desafinación” de los componentes superiores
del piano choca con la afinación casi perfecta del violı́n y provoca esas interfe-
rencias. Este abrirse de los componentes frecuenciales de las notas del piano, que
contribuye a mantener la individualidad de cada una de las notas emitidas, llega
a plasmarse en los armónicos superiores en las dos lı́neas distintas y próximas que
se aprecian en la columna derecha del espectrograma.
Ası́ pues, hasta aquı́ hemos podido comprobar que la consonancia consiste en la
combinación de dos condiciones aparentemente opuestas. Por un lado, la posibili-
dad de que dos sonidos distintos emitidos simultáneamente sean reconocidos como
uno solo: al compartir un buen número de componentes frecuenciales y al poseer
un patrón armónico, el resultado de la combinación de dos sonidos consonantes
es una nueva entidad sonora unitaria. Y, por otro, la pervivencia en la mezcla, en
esa nueva entidad sonora que ha surgido, de ciertos rasgos propios de cada uno
de los sonidos individuales, lo que impiden la disolución total de las partes. Todo
esto explica que haya instrumentos que se amalgamen más o menos, que empasten
entre sı́ mejor o peor. Y también que la combinación de piano y violı́n, en la que
se mantiene muy bien la individualidad de los sonidos, haya obtenido un amplio
reconocimiento en la literatura musical clásica.
Veamos el caso opuesto, aquél en el que las notas no se mezclan y se produce la
disonancia. Utilizo la misma combinación de piano y violı́n.
286
Figura 13.5: Vı́deo con el espectrograma de una nota de piano y otra de violı́n formando
un intervalo de séptima menor.
Comprobamos en el espectrograma que ambos sonidos no comparten apenas mate-

rial sonoro. Además, ahora no se puede distinguir en el sonido compuesto un único
patrón armónico. Por el contrario, en este sencillo caso es perfectamente posible
reconocer los dos patrones armónicos de cada nota por separado. Los dos sonidos
se producen simultáneamente, pero sus componentes no se mezclan prácticamente
nada. Si comparamos las columas de la izquierda (la nota del piano) y del medio
(la nota de violı́n) con la columna de la derecha del espectrograma (las dos no-
tas simultáneas) podemos apreciar con claridad a qué instrumento pertenece cada
componente de esta última columna. Tenemos en este caso dos notas que suenan
perfectamente bien al ser emitidas simultáneamente, pero que no son para nada
consonantes, pues no se han mezclado en absoluto.
En resumen, la consonancia supone la mezcla de dos o más sonidos, mientras
que en la disonancia existe solamente una reunión simultánea, pues los sonidos
permanecen sin mezclarse. Para que exista consonancia se han de producir dos
condiciones: 1) que los dos sonidos compartan buena parte de su material sonoro,
es decir, que tengan en común la mayor parte de sus componentes; 2) que la mezcla
resultante guarde un patrón armónico.
Pero la consonancia es una categorı́a relativa: unas mezclas son más consonantes
que otras. Existe, por decirlo de algún modo, una cierta degradación en los niveles
de consonancia, una creciente imperfección de la mezcla, desde el unı́sono hasta
la disonancia. Conforme las dos notas compartan mayor número de componentes
287
y conforme el patrón armónico del sonido resultante sea más completo, sin huecos
en su estructura, mayor será el grado de su consonancia. Lo que hace que dos
notas sean más o menos consonantes es el grado de conmensurabilidad entre sus
frecuencias: cuanto más próxima, más consonante es la mezcla. La progresión es
la siguiente: unı́sono 1:1 (igual); octava 2:1 (doble); octava y quinta 3:1 (triple);
doble octava 4:1 (cuádruple); quinta 3:2 (sesquiáltera); y cuarta 4:3 (sesquitercia).
Más allá de estas razones la consonacia desaparece. Los nombres de los intervalos
consonantes proceden de su orden en la escala de referencia que fue ya formulada
por los teóricos musicales griegos.
13.4.2. Consonancia de octava, de quinta y de cuarta
Veamos ahora algunas situaciones en las que las mezclas de dos sonidos, aun siendo
consonantes, no son tan perfectas como el unı́sono. Me voy a limitar a analizar los
intervalos consonantes que no superan el marco de la octava. Estos son, en orden
de mayor a menor grado de integración de sus sonidos, los siguientes: la octava, la
quinta y la cuarta. La frecuencia de una nota que está a una octava superior es
el doble de la frecuencia de la nota inferior; la de una quinta es 3:2 veces la de la
nota inferior, y la de la cuarta es de 4:3.
Comienzo con el intervalo de octava. Veamos, ası́ pues, un ejemplo en el que he
juntado la nota sol3 del violı́n anterior y la nota sol4 dada ahora por un clarinete
en sib. Las notas no están perfectamente afinadas. La frecuencia de la nota de
violı́n es de 195,9 Hz y la de la nota de clarinete es de 394,5 Hz. Por eso el
primer armónico de la nota de clarinete (394,5 Hz) está ligeramente más alto que el
segundo armónico de la nota de violı́n (195,9 x 2 = 391,8 Hz). Pero estas diferencias
no son significativas y lo que nos interesa es experimentar lo que ocurre cuando
se mezclan sonidos reales, como sucede de ordinario en la música, no situaciones
teóricas de laboratorio.
288
Figura 13.6: Vı́deo con el espectrograma de una nota de violı́n y otra de clarinete
formando un intervalo de octava.
Los componentes de una nota que está a un intervalo de octava superior tienen to-
dos la frecuencia doble del componente equivalente de la nota que está una octava
baja. Lo podemos verificar fácilmente al observar la estructura de los componentes
correspondiente a la nota de clarinete emitida sola. Recordemos también que el
sonido del clarinete se caracteriza, en general, por el predominio de los armónicos
impares, como también podemos observar en este espectrograma. No obstante,
en la estructura de los componentes correspondiente a las dos notas emitidas si-
multáneamente también vemos con claridad la presencia de un patrón armónico.
En principio podrı́amos decir que se trata de un solo sonido armónico. El primer
armónico pasa casi totalmente desapercibido, pues también pasa desapercibido en
la nota aislada de violı́n y el clarinete no puede añadir nada, ya que su espectro
no forma parte de la composición de esa nota que está a octava superior. Pero el
resto de los componentes sı́ están presentes, con mayor o menor importancia. Esa
estructura armónica hace que nuestra percepción reconozca allı́ una unidad sonora,
un sonido armónico. El grado de integración de los componentes es también muy
elevado, casi equiparable al del unı́sono. Y también observamos ahora la perma-
nencia de las marcas tı́mbricas individuales de cada uno de los sonidos. Ası́, por
ejemplo, podemos fijarnos en el predominio de los componentes impares, propio de
la sonoridad del clarinete, o en la riqueza de los armónicos superiores caracterı́sti-
ca de la nota de violı́n. Por otra parte, surgen también una serie de fenómenos
nuevos resultantes de la mezcla, como la aparición de esas intermitencias en nu-
merosos componentes que son el resultado de las ligeras diferencias en afinación
entre los dos instrumentos, como hemos visto al estudiar los batidos. Resumiendo,
podemos decir aquı́ algo muy similar a lo que dijimos acerca del unı́sono: se reco-
289
noce claramente un patrón armónico que explica la fusión y se mantienen a la vez
ciertas peculiaridades tı́mbricas que justifican la permanencia de la individualidad
de cada uno de los sonidos constitutivos de la mezcla. La relación de octava —es
decir, la relación 2 a 1, que es una conmensurabilidad muy cercana— da lugar a
un intervalo claramente consonante.
Veamos ahora lo que sucede en el caso de intervalos cuya conmensurabilidad no
es ya tan inmediata. Los ejemplos que voy a presentar a continuación tienen como
caracterı́stica común que los sonidos que constituyen el intervalo consonante pro-
ceden del mismo instrumento, un piano. En el primer ejemplo examinaremos lo que
sucede en un intervalo de quinta, donde la relación entre sus frecuencias es de 3:2
(relación sesquiáltera); y en el segundo ejemplo analizaremos cómo se comporta un
intervalo de cuarta, cuyas frecuencias están en la relación 4:3 (sesquitercia). Para
facilitar la observación he elegido unas notas del registro medio-agudo, donde el
número de componentes por nota es ya relativamente bajo.
Figura 13.7: Vı́deo con el espectrograma de dos notas de piano formando un intervalo
de quinta.
En el espectrograma podemos comprobar que tres componentes de la nota la4 , en

la columna de la izquierda, se corresponden con dos componentes de la nota mi5 ,
en la columna del medio. En efecto, la frecuencia del componente fundamental
de la nota mi5 (659,3 Hz) está casi en una relación de 3 a 2 respecto a a la
frecuencia fundamental de la nota la4 (440 Hz). En el sonido resultante de la
290
mezcla, en la columna de la derecha, es posible percibir una cierta aproximación
a un patrón armónico, si bien imperfecto. Este patrón armónico tendrı́a como
fundamental un supuesto primer armónico, cuya frecuencia serı́a la mitad de la
del primer armónico de la nota la4 y la tercera parte de la de la nota mi5 , pues
el componente fundamental del sonido mezclado habrá de ser el máximo común
divisor de los fundamentales de las dos notas que han intervenido en la mezcla
(es decir, con independencia del margen debido al temperamento, 220 Hz). En
la descomposición espectral del sonido mezclado —el de columna derecha— no
aparece como es lógico ese supuesto primer armónico, pero podemos deducirlo
de la estructura armónica, en la cual podemos observar que los componentes se
corresponden con los de las notas sin mezclar: el segundo armónico coincide con
el primer armónico de la nota aislada la4 ; el tercer armónico es el mismo que
el primer armónico de la nota mi5 ; el cuarto armónico es el segundo armónico
de la nota la4 ; el quinto armónico está ausente, ya que no podrı́a corresponder
a ningún componente armónico de ninguno de los dos sonidos aislados; el sexto
armónico es el resultado de la aportación de ambos sonidos originales (el tercer
armónico de la4 y el segundo de mi5 ); y ası́ sucesivamente. Es decir, es posible
detectar un cierto patrón armónico, pero lleno de huecos. Si a esta deficiencia en
la estructura armónica del sonido mezclado unimos la fuerte pervivencia de las
marcas individuales de cada uno de los sonidos emitidos (entre otras, el ataque
individual, claramente destacado, de cada uno de las notas aisladas que queda
reflejado en las correspondientes marcas luminosas iniciales), el resultado es la
prevalencia de la percepción individualizada de los sonidos. En efecto, en el vı́deo
podemos apreciar que las notas se mezclan, pero su integración sonora es mucho
menor que la de la consonancia de octava. Ello se debe, sobre todo, a que la
estructura armónica está llena de huecos. Las marcas tı́mbricas individuales, al
pertenecer al mismo instrumento e incluso al mismo registro y estar dadas con
el mismo tipo de ataque, son menores, pero son lo suficientemente significativas
como para mantener la individualidad de los sonidos. Hay que añadir también una
circunstancia que pertenece a nuestro sistema cognitivo: sabemos cómo suena una
nota aislada de piano, por lo que ese doble ataque que oı́mos en el sonido mezclado
no nos confunde, sino que percibimos dos sonidos emitidos simultáneamente y no
uno solo.
Algo similar, pero con un menor grado de integración todavı́a, ocurre en el caso
de la consonancia de cuarta, aquella que se establece entre dos sonidos cuyas
frecuencias están en una relación 4:3.
291
Figura 13.8: Vı́deo con el espectrograma de dos notas de piano formando un intervalo
de cuarta.
Ahora podemos apreciar en el espectrograma que por cada cuatro componentes de

la nota la4 hay tres de la nota re5 . En el sonido resultante de la emisión simultánea
de las dos notas es más difı́cil distinguir un único patrón armónico. Tendrı́amos
que suponer la existencia de un componente fundamental que fuera la tercera parte
del componente primero de la nota la4 y la cuarta parte del componente primero
de la nota re5 . Esa supuesta estructura armónica del sonido mezclado tendrı́a el
primer y segundo armónico ausentes; el tercero y el cuarto corresponderı́an al
primero y segundo de los respectivos sonidos aislados; necesariamente el quinto,
séptimo, undécimo y duodécimo componentes estarı́an ausentes. Podemos darnos
cuenta de que si bien aun es posible distinguir un cierto patrón integrador, su
debilidad es manifiesta, dado el número y relevancia de sus lagunas. Ası́ mismo,
las marcas individuales de cada sonido perviven claramente. El resultado es que
nosotros oı́mos un sonido compuesto, que en cierto modo parece mezclarse algo,
pero en el que predomina por completo la individualidad de los componentes.
Pienso que, en lo que concierne a la reunión de solamente dos sonidos simultáneos,
el lı́mite perceptivo de la mezcla está en la relación de conmensurabilidad 4:3, la
del intervalo de cuarta, pues incluso aquı́ es dudosa la plena integración de dos
sonidos en uno solo. Esta carácter ambiguo de la cuarta explica que haya sido
considerada como consonancia o como disonancia en función de otras categorı́as
propias de cada idioma musical.
292
Como conclusión podrı́amos decir que para que se produzca la consonancia es nece-
sario el reconocimiento de un patrón armónico en el sonido resultante de la mezcla,
el mismo que constituye necesariamente todo sonido musical, todo sonido que tiene
una frecuencia determinada y que es percibido por nuestro sistema cognitivo como
una nota. De ese modo percibiremos la mezcla como una unidad. Nuestro cerebro
ha “aprendido” a reconocer el patrón de la serie armónica (de uno u otro modo, ya
sea porque la serie armónica está presente en todos los ámbitos de la naturaleza,
ya porque culturalmente estamos desde nada más nacer inmersos en la música que
ha sido compuesta mediante la serie armónica). Por lo tanto, hay una tendencia a
entender como unificador todo aquello que tenga que ver con ese patrón de la serie
armónica. La percepción de una mezcla de sonidos consonantes se asemeja hasta
cierto punto a la percepción unitaria de un solo sonido armónico compuesto de
componenetes frecuenciales, pues, en tanto que se mezclan bien, percibimos como
unidades aquellos sonidos cuyas frecuencias son múltiples o conmensurables próxi-
mas. Pero, a la vez, en la percepción de la consonancia hay un reconocimiento de
la individualidad de cada sonido, de cada voz, que la diferencia de la percepción
de un sonido compuesto, donde no se aprecia ninguna parte constituyente. Si ese
reconocimiento de la individualidad no se produce estaremos más próximos a ha-
blar de un sonido coral, es decir, de un conjunto de sonidos individuales fundidos
en una sola voz, la voz del coro.
13.5. Conclusión
En este capı́tulo hemos estudiado cómo percibimos el sonido musical en un en-
torno acústico, identificándolo por sus marcas tı́mbricas y reconstruyendo su patrón
armónico, con los lı́mites que nuestro sistema auditivo tiene para distinguir com-
ponentes próximos. Ası́ mismo hemos podido experimentar que reconocemos dos
sonidos musicales como consonantes cuando su estructura armónica posee suficien-
tes elementos en común como para que nuestra percepción auditiva sea capaz de
percibir una nueva estructura lo suficientemente armónica, a la vez que seguimos
reconociendo su individualidad gracias a sus marcas tı́mbricas.
293
Capı́tulo 14
La voz musical
La tarea de la percepción musical no acaba con la identificación de los sonidos,
sino que exige también la asignación de cada uno de ellos a un sujeto, a una
voz. En efecto, la música requiere la organización en voces de todo el material
sonoro. Para ello se sirve tanto de las marcas tı́mbricas que cada sonido posee,
como de las leyes sintácticas del lenguaje musical, que son las que establecen los
criterios de continuidad. Esta es la razón por la que para los antiguos teóricos
musicales la voz era la primera categorı́a musical, de tal modo que los sonidos
eran definidos a continuación como las partes más pequeñas de la voz musical. En
ese mismo sentido, este capı́tulo pretende servir de puente entre la acústica y la
teorı́a musical, cerrando, por un lado, el conjunto de nociones acerca del sonido
que, a mi juicio, deberı́a conocer un músico, e iniciando, por otro, el primer tema
propiamente musical, la naturaleza especı́fica de la voz musical y su origen en la
prosodia del habla.
La voz musical se diferencia de la del habla en que mantiene las alturas tonales
durante el tiempo suficiente como para que seamos capaces de percibir las notas
y, en lugar de discurrir de forma continua, va a saltos a través de intervalos. A lo
largo de este capı́tulo voy a mostrar que nuestro lenguaje musical es el resultado
de la aplicación de números al movimiento continuo de la voz del habla, o dicho
de otra manera, que la voz musical se origina a partir de la discretización de la
prosodia del habla.
Para ilustrar el concepto de voz musical y para poder entender con claridad en
qué sentido la música surge al establecer números sobre el movimiento de la voz,
294
he elegido cuatro ejemplos que, debido a las caracterı́sticas del instrumento y de
la interpretación, muestran una progresión clara desde el movimiento totalmente
continuo de la voz en el habla (ejemplo 1) hasta la estabilidad de las alturas tonales
en el piano (ejemplo 4).
Por otra parte, para permitir apreciar cómo es la voz en cada caso he realizado
mediante Matlab un tipo de representación gráfica que dibuja el movimiento de la
voz, a la que podrı́amos llamar “melograma” (del griego mélos, melodı́a, y grámma,
dibujo), y que atiende especialmente a nuestra cognición musical. Si el espectro-
grama se asemeja a la manera en la que nuestro sistema auditivo descompone el
sonido, como hemos visto en el capı́tulo dedicado a la fisiologı́a de la audición, esta
forma de representación va a integrar de nuevo el objeto musical armónico y va a
mostrar la evolución de sus parámetros a lo largo del tiempo.
Como en el espectrograma, también en el melograma la coordenada horizontal
representará el tiempo, la vertical la frecuencia (traducida ahora a altura tonal
y por ello expresada en cents) y la escala de color la mayor o menor intensidad,
ahora vista como volumen sonoro. La transformación en altura tonal y en volumen
sonoro de la frecuencia y la intensidad utilizará la escala logarı́tmica que vimos
en el capı́tulo 5. Tomaré como punto de partida la nota la0 a la que asignaré 0
cents y desde allı́ el número de cents irá incrementándose. Ası́, por ejemplo, 1.200
cents corresponderá a la1 , 2.400 a la2 , y ası́ sucesivamente. Para mayor claridad,
a la izquierda del número de cents figurará el nombre de la nota correspondiente
en nuestra escala temperada. Respecto al volumen sonoro será el resultado de la
traducción de la intensidad sonora a decibelios, expresados utilizando la misma
escala de color, habitual ya en los espectrogramas.
Tenemos también que tener presente que el melograma sólo representa aquellos
momentos en los que la voz está constituida por sonidos armónicos, es decir, en los
que es posible definir una frecuencia y en consecuencia percibimos una altura tonal,
mientras que aquellas partes en las que domina el ruido no están representadas,
como es el caso de la mayorı́a de las consonantes o el del ataque inicial de las notas
de piano.
14.2. El concepto de voz musical

Dos son las razones que justifican que el concepto de voz sea el fundamento de
nuestra teorı́a musical. La primera y más importante es que el discurrir de la voz,
y no los sonidos aislados, es la realidad más inmediata con la que nos encontramos
en la música. La segunda es que el modelo sobre el que se ha construido nuestro
295
lenguaje musical es la voz humana en el habla. En nuestra música hablamos de
voz o voces para referirnos a las diferentes estructuras melódicas que conviven en
el desarrollo de una pieza musical, pero que mantienen su identidad y su sentido.
Y se llaman voz o voces precisamente porque su referencia es la voz humana en el
habla, con toda su expresividad, emotividad y matices retóricos.
En efecto, la asignación de voces es la forma inicial en la que organizamos
el material sonoro con la finalidad de hacerlo inteligible. Por naturaleza
nuestra percepción busca siempre distinguir voces en medio del fondo sonoro, de la
misma manera que busca figuras en las imágenes visuales. Es la manera de poner
orden en el complejo sonoro que llega a nuestros oı́dos, de darle forma y dotarlo
de significación. Si prestamos atención al ruido de tráfico de una carretera, por
ejemplo, lo primero que nos surgen son “voces” en medio del ruido: la “voz” de
la motocicleta, la “voz” del camión, etc. Organizamos cualquier material sonoro
diverso en voces, es decir, en protagonistas, en “personajes”.
Encontramos, ası́ pues, que la voz lleva asociada la idea de identidad, la de in-
dividualidad. La voz posee una marca, un distintivo, lo que hoy llamamos, preci-
samente por eso, un timbre, algo que le da una personalidad propia capaz de ser
distinguida en medio de otras voces o de un ruido confuso. La palabra “voz” nos
trae a la mente que hay un sujeto que está detrás, que hay un “alguien” que dice
algo o, en música, que canta algo. Entre todas las informaciones que transmite la
voz, hay una de especial relevancia: es su propio auto-identificador. La voz está
diciendo constantemente “quién es”, y esto lo hace de múltiples maneras, de las
cuales el timbre es quizás la más evidente. Por ejemplo, la voz del contralto puede
ascender por encima de la del tiple y la del tiple, obviamente, descender por debajo
de la del contralto, pero la voz del contralto seguirá siendo la del contralto y la del
tiple la del tiple y el oyente no tiene ningún problema, incluso aunque se mezclen
unas con otras, en reconocer cada una de esas voces.
En medio de una partitura, con sonidos simultáneos que suben y bajan y se entre-
lazan en todas las direcciones, podemos distinguir el desarrollo de cada una de las
voces. No en vano “cantar las voces” es uno de los objetivos más importantes de
todo instrumentista, muchas veces lo que diferencia al buen intérprete del medio-
cre. Por ejemplo, cualquiera que está aprendiendo a tocar el piano lo primero con
lo que se encuentra es con la dificultad de dar las notas. Solo más tarde esas notas
pasan a formar parte de “ideas musicales”, y todavı́a mucho más tarde, y después
de mucho esfuerzo, surge en él la capacidad de entender y de contar la multiplici-
dad de “ideas” que laten en medio de la maraña de una partitura compleja y que
se ponen de manifiesto en el juego de las diferentes voces. En efecto, estas ideas
habitan la partitura de mil formas: unas veces en las voces intermedias, donde pa-
san casi desapercibidas; otras, perfiladas por notas que a veces están distanciadas
296
entre sı́ por compases enteros; otras entre los extremos de los arpegios que acom-
pañan muchas veces a las melodı́as; etc. Entonces es cuando la partitura comienza
a tomar vida y deja de ser una amalgama de sonidos incomprensibles y mecánica-
mente ejecutados, para pasar a ser un conjunto de voces trabadas en el que cada
una cumple su función y dice sus ideas. Esto, que puede parecer propio solo de
los instrumentos capaces de dar notas simultáneas como el piano, se da también
en instrumentos tan aparentemente poco dotados para la polifonı́a como el violı́n.
¡Cuántas veces hemos oı́do alabar la interpretación de un violinista diciendo que
parecı́a un dueto! ¿Cómo podemos oı́r en un simple violı́n una fuga a tres voces?
La música es cosa de voces y la tarea del instrumentista es “decir” las voces y
expresar mediante ellas emociones y sentimientos. Algo parecido podrı́amos haber
dicho del que aprende a escuchar música, porque aprender a escuchar música no
es otra cosa que aprender a oı́r voces y a distinguir las ideas musicales que ellas
van diciendo. Ası́ es como cobra su pleno sentido la emoción de la música.
Dejando ya los aspectos cognitivos que justifican el carácter primigenio del con-
cepto de voz en música, pasaré ahora a explicar en qué sentido digo que la voz
humana ha sido el modelo sobre el que se ha construido nuestro sistema musical.
La voz ha sido nuestra principal herramienta de comunicación con el mundo, en
un proceso evolutivo que probablemente ha ido desde los primeros gruñidos, gritos
y demás ruidos inarticulados, hasta las construcciones más elaboradas del habla y
de la música.
En el habla la voz ha codificado principalmente tipos de ruidos distintos (las di-
ferentes consonantes) y posiciones distintas de resonancias del órgano vocal (las
diferentes vocales). Mediante combinaciones de ambos elementos hemos ido adqui-
riendo la capacidad de nombrar las cosas y de contar nuestras experiencias. Por
ejemplo, si decimos la frase “quiero esto”, estamos utilizando el ruido “k” para
empezar, luego el ruido “r”, después la especie de silbido “s”, y por último el ruido
“t”. Para ayudarnos a articular estos ruidos, especialmente aquellos de muy corta
duración, nos servimos de unos sonidos vocálicos, los cuales, a diferencia de los
ruidos de las consonantes, sı́ poseen una altura tonal y tienen una duración sufi-
ciente. No obstante, no diferenciamos estos sonidos vocálicos por su altura tonal,
sino por la manera en la que los hacemos resonar variando la posición de nuestro
aparato fonador. En este ejemplo hemos utilizado tres conjuntos de resonancias
vocálicas distintas: las propias de la “i”, las de la “e” y las de la “o”. No es posible
explicar aquı́ qué son las resonancias especı́ficas de cada vocal, ni cómo son ni en
qué consisten las articulaciones de los sonidos que constituyen la cadena hablada;
ahora nos interesa atender sólo a aquellos aspectos del habla que van a tener mayor
repercusión en la música, en concreto, la altura tonal de los sonidos vocálicos.
297
Ası́ pues, la voz hablada no consta sólo de ruidos, sino también de sonidos vocáli-
cos que, aunque se distinguen por la forma de su resonancia (los denominados
formantes propios de cada vocal) poseen una altura tonal. Pero en el habla la altu-
ra tonal en la mayorı́a de las lenguas no está prácticamente codificada y no lleva,
por lo tanto, una parte importante de significación léxica. Aunque sı́ posee otra
función muy importante: la altura tonal es la que organiza las palabras y las frases
y, sobre todo, permite unir a la expresión de los conceptos los matices emotivos del
hablante. La altura tonal, junto con la intensidad sonora y la duración temporal
de las sı́labas, constituyen los aspectos más importantes de lo que en general se
denomina prosodia del habla.
En el caso de la música occidental el modelo sobre el que se ha construido el len-
guaje musical ha sido la voz humana en el habla. Con esto no quiero decir que
todo lenguaje musical tenga que surgir necesariamente ligado al habla, sino sólo
que nuestro sistema musical lo ha hecho ası́: ha nacido en ı́ntima relación con los
aspectos prosódicos del griego antiguo, tanto en lo que concierne a las alturas to-
nales como a las duraciones. Los elementos de nuestro lenguaje musical (sonidos,
intervalos, escalas, tiempos, compases) son el resultado de una abstracción de los
aspectos prosódicos de la voz hablada, es decir, de aquellos aspectos que, como
su nombre indica, son afines al canto (“prosodia” viene de ōdē, canto), los cuales
son precisamente los que llevan en mayor medida la significación emotiva. Esta
abstracción ha consistido en fijar numéricamente las alturas tonales y las dura-
ciones, y en establecer entre ellas un sistema de proporciones. Con independencia
de su evolución histórica, esta abstracción es un proceso lógico que ha dado lugar
a un sistema de codificaciones capaz de expresar y transmitir una significación
emotiva. Ası́ pues, la voz musical, a diferencia de la voz del habla, es el
resultado de la codificación de las alturas tonales de los sonidos y de sus
duraciones.
14.3. El movimiento de la voz en el recitado de la primera

estrofa de la Oda a la flor de Gnido de Garcilaso de la
Vega
Comencemos examinando cómo es el movimiento de la voz en el habla. Veámoslo
en la declamación de la primera estrofa del poema de Garcilaso de la Vega, Oda
a la flor de Gnido. He elegido este poema como homenaje al instrumento sobre el
que se basó la construcción de nuestro sistema musical, la lira. Garcilaso, además,
es de los primeros poetas castellanos que vuelven su mirada al mundo antiguo,
298
como queda reflejado claramente en el poema, y es el inventor de esta estrofa, la
lira, en la que se combinan los versos endecası́labos, muy ligados al habla natural,
con los de siete sı́labas. Los versos son:
Si de mi baja lira
tanto pudiese el son que en un momento
aplacase la ira
del animoso viento
y la furia del mar y el movimiento,
Veamos en primer lugar un vı́deo con el espectrograma del recitado de la estrofa

entera.
Figura 14.1: Vı́deo con el espectrograma de la primera estrofa de la Oda a la flor de

Gnido de Garcilaso de la Vega.
La declamación es más lenta que lo habitual en un poema y las pausas entre

versos son también muy exageradas, pues he pretendido principalmente mostrar
con claridad cómo discurre el movimiento de la voz hablada. Pero hemos de tener
en cuenta que la prosodia de la voz recitada ya tiene algo de musical: las palabras
del poema han sido elegidas por el poeta teniendo en cuenta su sonoridad, su
entonación y el ritmo que se deriva de la ordenación de los acentos (por eso se
299
valora la musicalidad de una poesı́a). Ası́ mismo, en un poema la rima establece
la periodicidad del verso, sin necesidad de interrumpir de una manera tan grande
como se ha hecho aquı́ la cadena hablada. Nada de esto se produce en el habla
ordinaria, por lo que si hubiera elegido un fragmento del habla común, este tipo
de formas que aquı́ apreciamos con claridad quedarı́an algo desdibujadas.
En el espectrograma vemos claramente separados los cinco versos de la estrofa y
podemos distinguir también las diferentes sı́labas, tal como han sido pronunciadas.
Si nos fijamos, por ejemplo, en el primer armónico, en el componente más grave,
podemos también hacernos una idea aproximada del movimiento de la voz.
Pero un espectrograma no es la forma de representación idónea para el movimiento
de la voz, pues contiene mucha información que nos complica su observación. Cier-
tamente podemos apreciar que hay una relación clara entre lo que vemos y lo que
oı́mos, pero a la hora de recuperar el mensaje sonoro nuestro cerebro da un paso
más que no está recogido en el espectrograma. Como hemos visto en el módulo
acerca de la percepción del sonido musical, nuestra mente integra el conjunto de
armónicos para recuperar la unidad del sonido y seguir la evolución en el tiempo
de los parámetros de ese sonido. Por eso nos viene muy bien utilizar el melograma,
una forma de representación gráfica más apropiada para el movimiento de la voz,
que reproduzca, aunque sea de manera aproximada, la evolución de los parámetros
sonoros que realiza el intérprete y su recuperación por parte de nuestro cerebro.
En el vı́deo que presento a continuación se muestra el melograma del primer verso
de este recitado. Al tratarse de un fragmento de escasa duración podemos apreciar
con claridad los detalles del movimiento de la voz. Recordemos que los huecos de
la gráfica se corresponden con los sonidos consonánticos que carecen de una altura
tonal definida.
300
Figura 14.2: Vı́deo con el melograma de la recitación del primer verso de la Oda a la
flor de Gnido de Garcilaso de la Vega.
Pasemos ahora a analizar las caracterı́sticas del movimiento de la voz en el habla

que se pueden observar en el espectrograma y en el melograma del recitado de
estos versos de Garcilaso, atendiendo especialmente a aquellas que poseen cierta
validez general.
La primera y más destacada es la continuidad del movimiento de la voz en el
habla. Si nos pidieran que a partir de estas gráficas precisáramos las notas que se
han dado y cuándo, verı́amos que esto es algo realmente imposible, pues la voz sube
y baja continuamente sin detenerse nunca en ninguna altura determinada. Y eso
que estamos ante un recitado, que si fuera en el habla cotidiana esta continuidad
serı́a todavı́a más exagerada.
Por otra parte, el rango tonal del movimiento de la voz en el habla es
reducido. En los vı́deos vemos que incluso tratándose de un poema recitado,
el rango total de la voz en el habla no excede de una octava. La altura tonal
más aguda corresponde a la sı́laba “fu” de “furia”, que vendrı́a a ser un re3 , y
la más grave a la sı́laba “ra” de “lira”, que en su punto más grave serı́a un re2 .
Desde la perspectiva musical nos interesa este dato porque es otro elemento a
tener en cuenta a la hora de justificar la importancia del intervalo de octava y,
especialmente, la importancia de las formas escalares de octava. Sin embargo, si
atendemos solamente a cada sintagma, que en este caso coincide con cada verso (a
excepción del segundo verso donde hay dos sintagmas), vemos que el rango es más
reducido, situándose en torno a una cuarta o una quinta aproximadamente.
301
Ası́ mismo, observamos que cada sintagma se encuentra definido prosódi-
camente por una fórmula cadencial descendente, es decir, la voz puede
iniciarse en el punto más grave o en el medio, sube o baja, pero siempre termina
en el punto más grave, habiendo abarcado un intervalo aproximado de cuarta o
quinta. El modelo de cadencia descendente en torno a un intervalo de cuarta o
quinta es de especial importancia, como se puede ver en el estudio de la teorı́a
musical, para entender la construcción de nuestro sistema musical. El último ver-
so, sin embargo, parece ser una excepción a este modelo. Encontramos que allı́ no
se produce esta fórmula cadencial, sino que, por el contrario, la prosodia termina
arriba. Esta ausencia de fórmula cadencial nos informa de que el sentido de la frase
queda abierto, que la prosodia exige una continuación. En efecto, la estrofa entera
constituye el antecedente de una oración condicional que va a reposar dos estrofas
más allá.
Observamos también que, en general, el acento supone una elevación de la
altura tonal respecto a la sı́laba siguiente, junto a un incremento de la inten-
sidad y una mayor duración de la sı́laba. En castellano el acento es significativo a
la hora de distinguir entre palabras distintas (por ejemplo, “público”, “publico” y
“publicó”). Pero este acento se encuentra siempre supeditado e integrado dentro
de la fórmula cadencial que organiza los sintagmas.
14.4. El movimiento de la voz en los compases iniciales del

Lamento de Ariadna de Monteverdi
El siguiente ejemplo lo constituyen los seis primeros compases del Lamento de
Ariadna de Claudio Monteverdi, compositor representativo de la nueva corriente
musical que en la frontera de los siglos XVI y XVII intenta recuperar la música
griega antigua y, en especial, el teatro musical griego. Podemos observar los rasgos
de este intento en el carácter homófono de esta nueva forma de hacer música,
caracterizada por una voz sola acompañada de un bajo continuo que lleva el soporte
armónico y por el cromatismo intenso que intenta imitar los géneros cromático y
enarmónico que se atribuı́an a la tragedia griega. La razón principal por la que he
elegido este fragmento es por su proximidad a la prosodia del habla. En efecto, se
trata de voz cantada, pero, al ser un lamento, es casi un recitativo: el tempo es
lento, y el ritmo y la modulación de la voz son muy flexibles. Veamos primero la
partitura y luego un espectrograma del fragmento entero y un melograma en el que
podremos apreciar el detalle del movimiento de la voz de la segunda frase.
302
Figura 14.3: Partitura de los compases iniciales del Lamento de Ariadna de Monteverdi.
Figura 14.4: Vı́deo con el espectrograma de los compases iniciales del Lamento de
Ariadna de Monteverdi.
Figura 14.5: Vı́deo con el movimiento de la voz de la segunda frase del Lamento de
Ariadna de Monteverdi.
303
Comenzaré por lo más evidente que podemos ver en ambas representaciones. El
registro en el que se sitúa es mucho más alto que el recitado del poema de Garcilaso.
Evidentemente la diferencia de altura tonal entre una voz de hombre y una de
mujer es grande, aproximadamente una octava, pero la altura en la que se mueve
este lamento es ya muy elevada para una voz hablada. Simplemente, si oyéramos
hablar a alguien con una entonación en este registro nos resultarı́a como mı́nimo
sorprendente.
Ası́ mismo, el ámbito de esta idea musical es también superior al de la prosodia: a
pesar de su austeridad, aquı́ recorre la octava entera con agilidad. Por otra parte,
los saltos de altura tonal entre sı́labas o palabras son impensables en la prosodia
del habla (entre sib4 y fa4 , entre mi4 y si4 , y entre re5 y fa4 ). Solamente estos rasgos
establecerı́an ya una diferencia clara entre este pasaje y el de la voz hablada.
Pero vamos ahora ya a lo que más nos interesa, el tipo de movimiento de la voz.
Si nos fijamos en el melograma de la figura 14.5 vemos que la voz sigue teniendo
un cierto carácter continuo, y de hecho no permanece fija prácticamente nunca.
No obstante, hay una considerable diferencia con el movimiento de la voz en la
declamación del poema anterior: en general, la voz tiende a mantener ahora
unas lı́neas más o menos horizontales. El lenguaje musical ha construido estas
“lı́neas” y ha definido las alturas tonales precisas sobre las que la voz se ha de
mantener, o ha de girar en torno, durante un espacio de tiempo lo suficientemente
prolongado para ser reconocidas como notas.
En este ejemplo, esta tendencia a la horizontalidad parece clara, hasta el extremo
de que podrı́amos aventurar en el melograma las notas que constituyen la melodı́a.
Ahora bien, su altura tonal se modifica a lo largo de la emisión, bien ascendiendo
o descendiendo ligeramente, bien oscilando en torno a un valor medio. En la inter-
pretación de estas notas vemos que, por un lado, la cantante ha tendido a imitar la
continuidad de la prosodia hablada, deslizando la voz, pero, por otro, ha utilizado
un recurso especı́ficamente musical, un vibrato muy rápido y muy amplio.
Resumiendo, en la comparación de este fragmento cantado con la declamación an-
terior, vemos que hay acontecimientos definidos y, en general, separados, que nos
permiten identificar como notas musicales cada una de los dibujos del melograma.
Podemos también establecer un cierto valor medio en la altura tonal de las no-
tas, pero las libertades expresivas de la interpretación hacen que la determinación
precisa de la altura tonal no sea posible en todos los casos.
304
14.5. El movimiento de la voz en el inicio del Adagio de la
Sonata I para violı́n solo (BWV 1001) de J. S. Bach
El ejemplo siguiente corresponde al inicio del Adagio de la Sonata I para violı́n solo
de J. S. Bach, BWV 1001. El violı́n —y lo mismo podrı́amos decir de los demás
miembros de su familia— es el instrumento que más se asemeja en posibilidades
expresivas a la voz humana. No en vano su desarrollo está muy ligado al estilo
homofónico que triunfa a partir de 1600 (la seconda prattica que he mencionado
a propósito del fragmento de Monteverdi). En efecto, al carecer de trastes, el
violı́n puede dar cualquier altura tonal intermedia dentro de su tesitura (la primera
dificultad a la que se enfrenta el violinista es la de afinar bien) y el intérprete puede
modificarla con toda libertad a lo largo de su emisión, deslizando la voz de nota
en nota o haciéndola oscilar a voluntad. También, al igual que en el canto, puede
modificar libremente a lo largo de la emisión la intensidad del sonido e incluso la
cualidad sonora, aumentando o disminuyendo el número de sus armónicos.
Veamos, igual que en el ejemplo anterior, la partitura, un vı́deo con el espectrogra-
ma del fragmento entero y otro con el melograma en el que vemos el movimiento
de la voz principal de la primera parte de la frase inicial. Como ahora el espectro-
grama es un poco más complicado, me ha parecido oportuno etiquetar las notas
de la melodı́a.
Figura 14.6: Partitura de la primera frase del Adagio de la Sonata I para violı́n solo
(BWV 1001) de J. S. Bach.
305
Figura 14.7: Vı́deo con el espectrograma de la primera frase del Adagio de la Sonata
I para violı́n solo (BWV 1001) de J. S. Bach.
Figura 14.8: Vı́deo con el melograma que representa el movimiento de la voz del inicio
de la primera frase del Adagio de la Sonata I para violı́n solo (BWV 1001) de J. S. Bach.
306
Una comparación superficial de este ejemplo con el anterior nos muestra ahora una
definición más clara de las alturas tonales y de las duraciones. Ası́ mismo,
salvo alguna pequeña excepción en notas muy rápidas y seguidas, el movimiento
de la voz es interválico, es decir, la voz va a saltos. La voz se establece con
claridad en una altura tonal determinada y procede a intervalos, de modo que re-
sulta imperceptible la transición de una altura a otra, a excepción de la bordadura
sib4 -la4 -sib4 donde la ejecución es ligada. En este ejemplo estarı́amos ya mucho más
cerca de poder definir unas alturas tonales relativamente estables. Esto no se puede
atribuir a un rasgo especı́fico del instrumento, sino que ha sido la partitura elegida
la que ha condicionado una interpretación más definida en las altura tonales. En
lo que concierne a la duración de las notas, vemos también que mantienen un claro
patrón de espaciamiento, es decir, una cierta regularidad rı́tmica. El hecho de que
en el espectrograma algunas notas a veces parezcan superponerse a las siguientes
es debido a la resonancia de la sala o, en su caso, a la posible reverberación añadida
en la grabación.
No obstante, un examen más minucioso del espectrograma y del melograma nos
permite observar varias caracterı́sticas que contravienen esa aparente regularidad
y que recuerdan al ejemplo anterior. En primer lugar, la altura de las notas
que llevan el mismo nombre no siempre es exactamente la misma. En
ocasiones el instrumentista tiende a aproximarse más a la nota inferior o a la
superior, alejándose de la afinación temperada, para destacar más la atracción
de las notas próximas. A modo de ejemplo, el segundo de los dos fa#4 es casi un
cuarto de tono más alto que el primero, lo que podrı́amos haber apreciado con más
claridad que en el espectrograma si hubiera extendido un poco más la duración del
movimiento de la voz en el melograma. Ası́ mismo, en las notas cuya duración
es más larga se aprecia con claridad una oscilación rápida de su altura
tonal, que es el resultado del vibrato producido por el violinista, si bien
este vibrato es mucho menos amplio que el que vimos en algunas notas del Lamento
de Ariadna. El vibrato tiene principalmente dos finalidades: por un lado, dulcifica
la aspereza de la cualidad sonora y, por otro, facilita la afinación, al posibilitar una
cierta indeterminación de la altura tonal.
14.6. El movimiento de la voz en el inicio del Nocturno op.9,

no 1 de Fr. Chopin
Como último ejemplo he elegido un pasaje muy cantabile, el inicio del Nocturno
op. 9 no 1 de Fr. Chopin. Presento en primer lugar la partitura y luego el espec-
trograma y la representación del movimiento melódico en el melograma.
307
Figura 14.9: Partitura del inicio del Nocturno op. 9 no 1 de Fr. Chopin.
Figura 14.10: Vı́deo con el espectrograma del inicio del Nocturno op. 9 no 1 de Fr.
Chopin.
308
Figura 14.11: Vı́deo con el melograma del inicio del Nocturno op. 9 no 1 de Fr. Chopin.
Las imágenes de ambos vı́deos presentan unas caracterı́sticas muy distintas de todo
lo que hemos visto hasta ahora. En el espectrograma vemos que predomina la lı́neas
horizontales, y en el melograma vemos con total claridad un conjunto de lı́neas
horizontales que precisamente se superponen a la retı́cula que define las alturas
tonales de nuestras notas del sistema temperado en el diapasón estándar.
Esta horizontalidad en este caso vienen determinada por la naturaleza del instru-
mento. El piano es un instrumento de afinación fija, en el que el principal parámetro
sobre el que puede actuar el pianista es la velocidad de ataque, es decir, la rapidez
con la que baja la tecla. Una vez que el macillo queda libre de la tecla mediante
el mecanismo de escape ya no hay posibilidad alguna de modificar el sonido (salvo
apagarlo antes o después al soltar la tecla y liberar el apagador). Por ello, la mayor
parte de la información que el intérprete aporta queda condensada en las milésimas
iniciales de su ataque.
Si en este ejemplo se nos pidiera de nuevo precisar las alturas tonales del movi-
miento de la voz utilizando solamente el espectrograma, la respuesta no plantearı́a
ninguna dificultad. En el caso del espectrograma nos bastarı́a con trazar lı́neas
horizontales que pasaran por el medio de cada figura o mancha de luz. En el melo-
grama la respuesta serı́a todavı́a más evidente. Observamos, además, que, como es
lógico, todas las notas con el mismo nombre están ahora a la misma altura tonal.
Efectivamente, las alturas tonales están ahora totalmente definidas. Ası́ pues, en
este ejemplo podrı́amos asignar un número preciso a cada nota, su altura tonal
expresada en cents. De hecho, realmente es al revés: es esta posibilidad de tener
309
alturas tonales fijas, expresables numéricamente, la que nos permite dar nombre a
las notas.
Podrı́amos observar también algunas pequeñas diferencias respecto al modelo ideal
de lı́neas horizontales. Por ejemplo, las lı́neas correspondientes a las notas más
agudas parecen estar ligeramente por encima de la retı́cula que marca la afinación
temperada estándar (con el la4 a 440 Hz). Esto se debe a la inarmonicidad del
piano que hace que la afinación de las notas superiores se vaya estirando un poco.
Podrı́amos también apreciar algunas ligeras indecisiones en la afinación de algunas
notas que parecen incluso oscilar ligeramente. Ello es debido al problema del de-
rrame espectral que unido al ruido que acompaña el ataque de cada nota provoca
una cierta indeterminación en la precisión del reconocimiento de la frecuencia. Y
todavı́a más, dejando al margen estas cuestiones, incluso las notas de un piano, en
una escala minúscula cierto es, presentan también una cierta evolución en la fre-
cuencia. Pero no es momento de tratar estas cuestiones ahora. Lo que nos interesa
es que aquı́ si que vemos ya los elementos del lenguaje musical: las alturas tonales
definidas con claridad que determinan las notas y que constituyen la referencia que
se crea en nuestra mente musical y que nos permite entender y dar sentido incluso
a los movimientos de la voz musicales que se alejan de este modelo y se acercan
más al del habla.
Por otra parte, resulta también claro que aquı́ nos serı́a muy fácil especificar con
toda seguridad la duración de cada nota (teniendo en cuenta, claro está, que lo
que debemos medir es la distancia entre sucesivos ataques). Ya he explicado en
el ejemplo del violı́n a qué se debe la superposición de algunas notas en el es-
pectrograma. Aquı́, en este ejemplo, la utilización del pedal hace que las notas
tiendan a superponerse más que en el caso del violı́n. Pero también podrı́a haber
sucedido lo contrario, y la ejecución de las notas haber sido más picada. Ahora
bien, desde el punto de vista métrico ambas situaciones son irrelevantes: afectan
sólo al carácter de las notas, a la expresión, pero no al ritmo, es decir, no alteran
la codificación métrica. Ası́ mismo, resulta aquı́ también más clara todavı́a la exis-
tencia de una repetición de determinadas duraciones. Dar un paso más y ver que
esas duraciones guardan entre sı́ las proporciones sencillas de doble, triple, etc.,
requerirı́a simplemente el uso de la regla.
Es importante destacar que en este ejemplo, en el que las altura tonales son cla-
ramente estables y definidas numéricamente, debemos seguir hablando de movi-
miento de la voz. Aunque sea a saltos, aunque ya estemos muy lejos de los rasgos
de la prosodia, aunque no tengamos la versatilidad de la voz cantada, ni su imi-
tación como hace la voz en el violı́n, también aquı́ hay un movimiento de la voz.
El intérprete de piano tiene que hacer todo lo posible para que el instrumento
“cante”. Sin el movimiento de la voz no existirı́a música en su sentido pleno, sino
310
solamente una sucesión de sonidos carentes de significación. El piano es, de algún
modo, el instrumento de referencia de nuestro sistema musical y en ese sentido
tiene un papel equivalente al que tenı́a la lira en la Antigüedad.
Ası́ pues, si volvemos al ejemplo del recitado del poema, donde la voz discurre sin
solución de continuidad y la comparamos con el movimiento puramente interválico
de la voz en un instrumento de afinación fija como es el piano, podemos ver cómo
nuestro lenguaje musical es el resultado de la cuantificación de la altura tonal y, a
partir de ella, de la duración.
14.7. El “espacio” de la significación musical

Para concluir este capı́tulo, y con ello este curso, voy hacer ahora una breve refle-
xión sobre lo que hemos observado en todas estas gráficas de los distintos tipos de
movimiento de la voz.
Los melogramas nos han permitido intuir una noción muy próxima a la realidad
sonora: el “espacio musical”, es decir, el “lugar” en el que se produce la significa-
ción de la música. El movimiento de la voz o de las voces discurre a lo largo del
tiempo en un espacio sonoro que va del grave al agudo. Nuestro sistema notacio-
nal, nuestra partitura, representa de algún modo esta noción de espacio musical:
el tiempo con la dimensión horizontal y la altura tonal con la dimensión vertical.
Pero lo que tenemos en una partitura es la “obra musical”, la “idea musical”, una
elaboración mental, no es su realización fı́sica, sonora, no es su interpretación. En
el melograma, sin embargo, “vemos” el espacio de la música sonando, interpretada,
hecha sonido.
Además, ese espacio musical, tal como queda representado en el melograma, es
el espacio de nuestra sensación auditiva, no el del hecho fı́sico, no es la vibración
sonora. La música debe muchas de sus propiedades a la fı́sica del sonido, pero su
verdadero punto de partida es nuestra sensación, la manera en la que nosotros
percibimos los acontecimientos sonoros. El movimiento de la voz que hemos visto
en todos los melogramas es movimiento respecto a nuestra percepción, es decir, es
la variación dentro de una escala temporal adecuada a nuestra percepción de uno
de los parámetros caracterı́sticos del sonido: la frecuencia instantánea. Al margen
de que desde el punto de vista fı́sico el sonido sea movimiento —más
exactamente movimiento vibratorio—, el movimiento que interesa a la
música es el movimiento de la voz que percibimos, es decir, la variación
en el tiempo de su altura tonal.
311
El melograma nos ha permitido también ilustrar con imágenes el proceso de abs-
tracción que conduce desde la prosodia de la voz hablada hasta la constitución del
sistema musical. La permanencia de la voz en alturas tonales determina-
das permite establecer medidas y proporciones entre ellas. Estos números
son los que codifican las alturas tonales y determinan un conjunto de intervalos a
los que el sistema musical dará significación, organizando las escalas. El lenguaje
musical se crea a partir del espı́ritu de la voz humana en el habla, pero adquiere su
ordenación precisa —es decir, se codifica, se hace propiamente “sistema” (escala)—
mediante un instrumento de afinación fija que permite precisar las alturas tonales.
En el caso de su creación histórica, este instrumento fue la lira; hoy es el piano del
que podemos considerar, en este sentido, que la lira fue un antecedente.
Por otra parte, hemos visto en el ejemplo del poema recitado dos caracterı́sticas
de la voz hablada que van a tener muchas consecuencias en la creación
de nuestro sistema musical: una es el reducido ámbito tonal en el que
se mueve la entonación de cada unidad sintagmática en el habla, un
ámbito de aproximadamente una cuarta o una quinta; otra, la fórmula
cadencial descendente con la que se delimitan estas unidades. Por las
noticias que nos han llegado de los teóricos musicales y de los gramáticos antiguos,
estas caracterı́sticas se daban también en el griego antiguo, lengua que sirvió de
fundamento a la construcción de nuestro sistema musical. La primera explicará en
parte la importancia del tetracordio y de la consonancia de cuarta en las primeras
formas escalares antiguas. La segunda se reflejará en el carácter descendente de
todas las resoluciones: las cadencias descendentes van a dominar por completo el
lenguaje musical de Occidente hasta la aparición de los primeros atisbos de la
sensible ascendente en la música de los trovadores. Pero las consecuencias de esta
cuestión pertenecen ya al estudio de la teorı́a musical.
Ası́ mismo, estos ejemplos nos han permitido acercarnos mejor a un asunto que
tiene que ver con la interpretación. Consideramos que una cualidad del intérprete
es hacer hablar al instrumento. Mediante los melogramas hemos podido comprobar
hasta qué punto esto es literal: hacer hablar al instrumento es acercarse a
la prosodia del habla, es decir, alterar las alturas tonales o las duraciones de las
notas que corresponderı́an al patrón escalar o rı́tmico, bien a través de inflexiones
o desviaciones de la voz, bien a través de modificaciones de los tiempos (rubato,
ritandando, etc.), para aproximarnos a la naturalidad del movimiento de la voz en
el habla, adquiriendo mediante este pequeño alejamiento del código musical una
alta significación emotiva.
312
14.8. Conclusión
Este capı́tulo ha tratado de mostrar que la música es esencialmente una cuestión
de voz o de voces —entendiendo la palabra voz en su sentido más amplio— y que
lo especı́fico de nuestro lenguaje musical consiste en establecer números y medidas
sobre ese movimiento de la voz. Al hacerlo ası́, al detenerse la voz durante algún
tiempo en algún lugar del espacio sonoro, en alguna altura tonal concreta, surge el
sonido musical, definido por los antiguos precisamente como la parte más pequeña
de la voz melódica. El estudio de las relaciones entre esos sonidos —tanto las leyes
que rigen su sucesión en cada una de las voces, como las de su reunión simultánea
en los acordes— compete ya al estudio propio de la Teorı́a Musical.
Como dije al empezar, la finalidad de este curso ha sido proporcionar los fundamen-
tos acústicos y psicoacústicos sobre los que se ha creado nuestro lenguaje musical.
Por ello hemos ido examinando todos los aspectos que conciernen al sonido musi-
cal, desde su constitución fı́sica —como un movimiento mecánico que se transmite
por un medio elástico cuyos parámetros frecuenciales cumplen unas caracterı́sticas
que las hacen adecuados para ser percibidos por el oı́do humano—, hasta su cua-
lidad de ser el primer elemento de la melodı́a, el que se pone de manifiesto cuando
el movimiento de la voz musical se detiene en un determinado punto del espacio
sonoro. También hemos conocido, aunque haya sido someramente, cómo es y cómo
actúa nuestro sistema auditivo a la hora de reconocer el sonido musical o armónico.
Y de paso hemos aprendido a observar unas representaciones gráficas del sonido,
el espectrograma y el melograma, que pueden ser de gran utilidad al músico y al
musicólogo para realizar el análisis sonoro de una interpretación musical.
Aquı́ nos quedamos, pues, a las puertas del estudio de la Teorı́a Musical, que
debe dar cuenta del lenguaje que permite dotar de sentido a los sonidos de la
música.
313
Bibliografı́a
[1] Hartmann, William M., Principles of Musical Acoustics, Springer, 2013.

[2] Johnston, I., Measured Tones: The Interplay of Physics and Music, 3rd
Edition, CRC Press, 2009.
[3] Roederer, Juan G., The Physics and Psychophysics of Music. An Intro-
duction, 4th Edition, Springer, 2008.
[4] Rossing, Thomas D., Moore, F. Richard y Wheeler, Paul A., The
Science of Sound, 3rd Edition, Pearson, 2013.
[5] Schnupp, Jan, Nelken, Israel y King, Andrew, Auditory Neuroscience:
Making Sense of Sound, The MIT Press, 2011.
314

Acustica Musical PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Acustica Musical PDF

Transféré par

Droits d'auteur :

Formats disponibles

Acústica Musical

Luis Colomer Blasco

Este documento esta realizado bajo licencia Creative

Este curso multimedia va acompañado de 141 archivos de vı́deo e imágenes. Los

1. El sonido como vibración 1

3. Caracterı́sticas de los sonidos musicales 26

5. Altura tonal, intervalos y volumen sonoro 57

6. Mezcla e interferencia de dos sonidos simples 78

7. El sonido armónico 111

8. Ondas estacionarias y resonancia: Generación del sonido armóni-

9. Envolventes de amplitud y de frecuencia 176

10.Análisis espectral de los sonidos musicales 190

11.El timbre 211

12.Fisiologı́a de la audición 241

13.Psicoacústica musical 275

14.La voz musical 294

Este curso pretende proporcionar al músico y al musicólogo los conocimientos de

El sonido como vibración

1.1. ¿Qué es el sonido?

1.2. Simulación de la vibración del aire en un sonido sim-

Aunque la finalidad del vı́deo es puramente didáctica, he tratado de que el modelo

1.2.1. Propagación de la perturbación a través del aire

Los movimientos de la fuente sonora provocan una cadena de compresiones y

1.2.2. Movimiento individual de oscilación

Vemos que la forma de la gráfica que dibuja el movimiento de oscilación de ca-

1.2.3. De la oscilación individual a la propagación ondulatoria

Figura 1.3: Vı́deo con el movimiento oscilatorio de una fila de esferitas.

a) En las ondas longitudinales la dirección de propagación es la misma que la de la

En el vı́deo observamos que la elasticidad de los muellecillos causa retrasos en la

Desplazamiento Distancia entre esferitas

Como consecuencia de los desfases debidos a la elasticidad, se produce una cadena

Veamos ahora lo que es especı́fico de un sonido simple y, en concreto, de la onda

La longitud de onda es la distancia entre dos puntos equivalentes de la perturbación

1.3. Simulación de la vibración del aire en un fragmento so-

2.1. Representación del sonido

Figura 2.1: Un fonógrafo. Dibujo de la época.

Con el desarrollo de la electricidad, las oscilaciones mecánicas de la membrana que

2.2. Un ejemplo de registro digital

Figura 2.2: Vı́deo que ilustra el proceso de digitalización sobre un fragmento de 20 ms

En el vı́deo podemos observar la representación de la señal de audio de un frag-

Figura 2.4: Fragmento de 50 ms de la señal de audio del inicio de la Quinta Sinfonı́a

Figura 2.5: Vı́deo con la representación en un osciloscopio simulado de los compases

Caracterı́sticas de los sonidos musicales

Figura 3.2: Gráfica de la señal de audio de ruido blanco.

Vemos en esta gráfica que el movimiento de la vibración no posee forma alguna, ni

3.4. Tráfico con lluvia y notas de clarinete

Figura 3.6: Gráfica de la señal de audio de una nota de clarinete.

3.5. Campanadas y notas de piano

La gráfica de la campana no muestra ninguna periodicidad, lo que explica que no

Figura 3.9: Gráfica de la señal de audio de una nota de piano.

En la gráfica del piano la situación es diferente. A pesar de que ni siquiera durante

3.6. Habla y canto

El texto de la locutora es:

La letra del Lamento de Ariadna es:

En la primera parte, durante el enunciado de la locutora, podemos ver en el os-

Figura 3.11: Gráfica de la señal de audio correspondiente a la emisión de la palabra

La parte de la señal correspondiente a cada fonema está delimitada por unos

Vemos que el periodo de la vocal i es un poco más de 5 milésimas de segundo, lo

Figura 3.13: Gráfica de la señal de audio correspondiente a la vocal a cantada.

Podemos detener el reproductor en cualquier momento y observaremos con más

4.2. El sonido simple como fundamento del sonido musical

El sonido simple es periódico en el sentido más estricto, es decir, su vibración se

b) El sonido simple es el elemento constitutivo de todo sonido musical