Audio

Tecnologie Digitali del Suono e dellImmagine: SUONO
1 - ACUSTICA. La natura del suono

La natura fisica del suono di tipo ondulatorio: sono onde meccaniche che trasportano energia lontano
dalla sorgente sonora, ovvero un oggetto in vibrazione. Ci che viene trasportato non materia, un
segnale, ossia una variazione di qualche parametro legato allambiente in cui avviene la propagazione del
suono. Tutto ha origine dalla vibrazione di un oggetto o di una sua parte, ed il disturbo/segnale creato da
questa vibrazione nellambiente circostante inizia a propagarsi in tutte le direzioni, lontano dalla sorgente
(ex: onde sullacqua) e pone in vibrazione ogni oggetto che si trova sulla sua traiettoria (quando londa
passata ogni cosa torna nella sua posizione originale). Esistono due tipi di onde: le onde longitudinali si
propagano nella stessa direzione dellasse lungo il quale avviene la vibrazione (ex: molla), ed proprio il
caso del segnale sonoro (ex: altoparlante). Nelle onde trasversali lasse della vibrazione perpendicolare
alla direzione di propagazione dellonda (ex: corda). Tra gli oggetti che si possono trovare sulla traiettoria di
unonda acustica potrebbe esserci il timpano dellorecchio.
La produzione del suono
Tutte le sorgenti sonore vibrano ed ogni vibrazione completa detta ciclo.
Ad esempio una corda fissata a due estremit se posta in movimento parte da una posizione A (riposo) e si muove
verso una direzione. Raggiunta la massima distanza (B) da A, la corda torna verso la posizione di riposo e riprende
il cammino nella direzione opposta alla precedente, raggiungendo la massima distanza al punto C. Infinte, torna
da A e ricomincia. Un diapason oscilla con lo stesso meccanismo della corda.
I moti di questo tipo sono detti moti oscillatori: una particella oscilla (vibra) intorno a una posizione di
equilibrio (ex: pendolo, peso + molla, atomi, corda). Il pi semplice dei moti oscillatori (e il pi importante) il
moto armonico semplice che si ha quando la forza che riporta loggetto nella posizione di riposo
proporzionale allo spostamento delloggetto (es. il pendolo e la massa attaccata alla molla).
Per capire meglio il meccanismo, si pu descrivere il moto su un cerchio: qui si pu vedere infatti come una
particella compia unoscillazione completa dopo aver percorso un angolo di 360. Se oltre alla posizione
vogliamo rappresentare le variazioni della distanza dallorigine e la variazione dellangolo in cui si trova la
particella, occorre disegnare un diagramma cartesiano, con una funzione trigonometrica. Il seno di un
angolo la posizione della particella sullasse verticale rispetto allorigine. La funzione disegnata descrive un
movimento sinusoidale e il fenomeno ondulatorio connesso a tale vibrazione detto onda seno.
Lasse orizzontale rappresenta il tempo e londa sinusoidale rappresenta la posizione (causata dalla
vibrazione). Langolo che corrisponde alla posizione della particella in un certo istante di tempo risplende
dalla velocit della vibrazione. Questa rappresentazione chiamata rappresentazione nel dominio del
tempo.
Questa curva rappresenta le caratteristiche pi importanti delloscillazione nel tempo:
Pagina 1 di 25
- Lampiezza ~ lintensit sonora (ovvero lenergia trasportata): maggiore la distanza percorsa dalla
particella dalla posizione di equilibrio, maggiore lintensit. Si pu misurare in metri, visto che
rappresenta la distanza. Quindi le oscillazioni dei suoni deboli saranno vicine al punto di equilibrio mentre
nelle dei suoni forti saranno ampie. Essa viene misurata in un certo punto dello spazio interessato al
passaggio dellonda, dove avviene uno spostamento (oscillazione) delle particelle daria.
- La frequenza la grandezza che misura i numeri di cicli completati dalla particella nellunit di tempo,
ossia la velocit con cui la particella oscilla (velocit di rotazione sul cerchio). Maggiore la frequenza, pi
acuto il suono. Per calcolare la frequenza occorre sapere quanti cicli (e frazioni di ciclo) sono stati
completati in un secondo, e questa misura detta Hertz (Hz).
- Il periodo (T) linverso della frequenza: il tempo che impiega londa a completare un ciclo di
vibrazione. A periodi lunghi corrispondono basse frequenze e viceversa.
- La fase indica un istante preciso in un ciclo di un segnale. Per calcolare la frequenza, un ciclo si considera
completato tutte le volte che un segnale si presenta nella stessa fase. Visto che un ciclo consta di 360,
un modo per misurare la fase langolo che corrisponde allistante di tempo considerato. Se due o pi
onde hanno la stessa frequenza e raggiungono il massimo nello stesso istante allora le onde si dicono in
fase. Se invece una al minimo e laltra al massimo, si dicono in opposizione di fase.
- La lunghezza donda ~ la distanza tra due punti identici in cicli adiacenti di un segnale. Nel caso delle
onde sonore la distanza tra due particelle daria che si trovano nella stessa fase in cicli adiacenti. Si
misura in metri e centimetri. inversamente proporzionale alla frequenza: maggiore la frequenza,
minore la lunghezza donda.
- La forma dellonda non sempre sinusoidale, in natura queste forme sono particolarmente complesse.
Lampiezza, ovvero la forza del suono ~
Esistono tre tipi di misure per lampiezza:
1. Spostamento della particella daria nel punto desiderato (utilizzata poco perch essendo troppo piccola
non riesce ad essere rilevata)
2. Pressione sonora dellaria dovuto a compressione e rarefazione delle particelle (livello di pressione
sonora, Sound Pressure Level - SPL)
3. Intensit sonora dovuta allenergia trasportata dallonda sonora (livello di intensit sonora, Sound
Intensity Level - SIL)
2. La misura dellampiezza di pressione prende in esame il massimo incremento di pressione dellaria
rispetto alla pressione atmosferica, che corrisponde al silenzio puro dovuta a unonda sonora.
La pressione la forza (Newton (N) + direzione di applicazione) applicata a una superficie, quindi si misura in N/
m perch la forza da dividere per ogni m (quindi, maggiore la superficie, minore lefficacia della pressione).
La pressione abituale a cui siamo sottoposti dallaria, che viene applicata su tutte le superfici e agisce
contemporaneamente in tutte le direzioni, detta pressione atmosferica e vale circa 100.000 N/m e non viene
percepita dagli esseri umani. (per questo non frantuma i vetri) e pu disgregarsi solo a causa di qualche evento
eccezionale (tornado, esplosione...) che crea una differenza elevata di pressione.
Per misurare lampiezza della pressione di unonda sonora si considera la variazione media della
pressione rispetto alla pressione atmosferica. Pi precisamente, visto che la media dei valori positivi e
negativi tenderebbe a 0, ci che si calcola la pressione quadratica media (Root Mean Square - RMS),
cio la radice quadrata della media dei quadrati delle pressioni.
Prendiamo ad esempio le soglie di udibilit. Studi statistici hanno rilevato che la soglia minima di udibilit si
aggira intorno ai 0,000025 N/m (2,5x10), una percentuale piccolissima della pressione atmosferica
(0,000000025%). Allaltro estremo, la soglia del dolore, corrisponde a 30 N/m (1 milione di volte pi grande
rispetto alla soglia minima) e anche qui la percentuale risulta piccolissima: 0,03%. Introduciamo una scala
logaritmica per capire meglio: il Livello di Pressione Sonora (Sound Pressure Level - SPL), basata sul
rapporto tra due suoni e misurata in decibel.
SPL= 20 x log(p/p)
p la pressione del suono da misurare, p la pressione del suono di riferimento, data dalla soglia minima
di udibilit (con frequenza di 1000 Hz). Di questo rapporto si prende il logaritmo e si moltiplica per 20, che in
realt sarebbe 10x2 perch 10 serve a trasformare i bel (logaritmo del rapporto) in decibel e il 2 il
quadrato, legato allintensit [vedi dopo].
3. Il terzo tipo di misura dellampiezza dato dallintensit sonora. Lintensit sonora la misura
dellenergia (Joule = forza x spostamento) trasportata dallonda, in particolare lenergia che passa
attraverso una superficie unitaria (1m) per unit di tempo (1s); poich lenergia al secondo si misura in Watt,
lintensit si misura in Watt/m. Nel caso dellintensit sonora la scala dei decibel prende il nome di Livello
di Intensit Sonora (Sound Intensity Level - SIL) ed dato dalla relazione:
Pagina 2 di 25
SIL= 10 x log (I/I)
I lintensit del suono in questione e I il valore dellintensit del suono di riferimento, ovvero la soglia
minima di intensit (1000 Hz di frequenza) e che vale 10 Watt/m.
Poich sia SPL che SIL sono valori presi in relazione alla soglia minima di udibilit, nella maggior parte dei
suoni standard si ha che i due valori sono identici. Differiscono dal punto di vista dellinterpretazione fisica:
la pressione il risultato di onde che arrivano da molteplici direzioni, lintensit definita per una direzione di
flusso dellenergia e una superficie attraversata.
facile passare da una formula allaltra poich lintensit in relazione alla pressione. Lenergia dellonda
proporzionale al quadrato della pressione: se si raddoppia la pressione, lenergia trasportata quadruplica
(questa la spiegazione del fattore 2 che si trova nella formula della pressione). Siccome il logaritmo di una
potenza il logaritmo della base moltiplicato per lesponente: log a = b x log a, la spiegazione del 2 nella
formula di SPL quindi :
SPL= 20 x log (p/p) = 10x2 log (p/p) = 10 log (p/p) = 10 log (I/I)
Il bel quindi una relazione tra due suoni (decibel = 1/10 di bel) e non una quantit. Solitamente il rapporto
si determina in relazione a un suono sulla soglia di udibilit. La scala dei decibel ha una gamma di valori
(dal non udibile alla soglia del dolore) che va da 0 dB a 120 dB (fino a 210 dB oltre il dolore). Il rapporto tra
lintensit del suono alla soglia del dolore fisico e il minimo suono udibile di circa 100 miliardi (10). raro
ascoltare musica sotto i 50 dB, poich occorre superare almeno il rumore di fondo, sia allesterno che nelle
sale da concerto. Siccome al di sopra dei 100 dB lintensit inizia a risultare fastidiosa, la gamma disponibile
per la musica ristretta, la media si aggira intorno ai 70 dB.
La frequenza, ovvero laltezza del suono
La frequenza di un suono il numero di vibrazioni complete che la sorgente compie in un secondo, o
alternativamente il numero di compressioni/rarefazioni che subisce una particella daria in una secondo, ed
la principale responsabile dellaltezza di un suono. Laltezza di un suono il parametro legato alla
sensazione di gravit o acutezza che si percepisce di un suono, e risulta dalla periodicit di un segnale,
ovvero la ripetizione dello stesso andamento per un po di tempo. Distinguiamo tra suono puro e suono
complesso:
- il suono puro (detto anche tono) costituito da una sola frequenza e quindi descritto da unonda
sinusoidale semplice, landamento arrotondato, il periodo composto da una singola compressione e
una singola rarefazione ben definite;
- il suono complesso consiste invece di pi frequenze sommate in unonda dallandamento articolato.
In un singolo periodo possono essere comprese pi alternanze di compressioni e rarefazioni intermedie e
lascolto rivela il timbro caratteristico di una sorgente e dellambiente circostante. Generalmente i suoni in
natura sono di tipo complesso.
I suoni sono segnali che hanno frequenze tra i 20 e i 20.000 Hz. (infrasuoni < 20 Hz, ultrasuoni > 20 kHz)
La forma dellonda
La forma dellonda ci che permette di distinguere i suoni a parit di frequenza e ampiezza, caratterizza il
modo in cui una specifica sorgente vibra, permettendo di identificare lorigine di un suono. Descrive
landamento di compressioni e rarefazioni, che per i suoni complessi molto articolato. Il parametro
percettivo che meglio corrisponde alla forma donda il timbro (ci che permette di distinguere lo strumento
da cui proviene una nota). Due elementi contribuiscono alla ricchezza delle forme donda complesse (e
quindi al timbro):
- nel dominio della frequenza (punti di una curva che descrive un segnale che associano lintensit a
frequenze specifiche) le componenti spettrali,
- nel dominio del tempo (intensit associata a istanti di tempo rappresentati dai punti sullasse delle
ascisse) i transitori.
Tra i suoni complessi si possono distinguere due categorie: i suoni che non manifestano periodicit e i suoni
che manifestano periodicit.
Lanalisi di Fourier
Innanzitutto bisogna distinguere le forme donda in segnali sinusoidali semplici, segnali complessi ma
periodici (che contengono una porzione di segnale che si ripete) e segnali complessi e non periodici.
Fourier dimostr che qualsiasi segnale complesso poteva essere descritto come una somma di segnali
sinusoidali semplici. Il suo metodo matematico chiamato Trasformata di Fourier, che permette di
individuare le componenti di frequenza di un segnale tramite un processo denominato analisi spettrale o
armonica. Lidea fondamentale, enunciata dal teorema di Fourier recita:
Un segnale periodico qualsiasi, di periodo P, dato dalla sovrapposizione di onde sinusoidali semplici,
ciascuna con la sua ampiezza e fase, e le cui frequenze sono armoniche della frequenza fondamentale del
segnale (f = 1/P).
Pagina 3 di 25
Ogni onda sinusoidale avr una sua fase (n) e ampiezza (Cn), e anche queste possono essere estratte
dalla forma donda complessa. Un requisito del segnale complesso la periodicit (andamento anche
solo parziale e limitato che si ripete a intervalli di tempo regolari), ad esempio la nota di una chitarra.
Considerando lentit dellintervallo che caratterizza la ripetizione, si ha la frequenza fondamentale del
segnale, e non ci possono essere frequenze inferiori ad essa nel segnale. La sovrapposizione delle onde
implica che, in un dato istante di tempo, le ampiezze delle onde semplici vengono sommate per ottenere
lampiezza totale del segnale. Le frequenze delle onde semplici sono armoniche della frequenza
fondamentale, ossia sono multipli interi della frequenza fondamentale. Ex: frequenza fondamentale (f) =
155 Hz 2f = 310 Hz, 3f = 465 Hz,
Un esempio noto di onda complessa londa quadra; una delle forme di base generate dai sintetizzatori
elettronici e digitali. Per ottenere unonda quadra occorrono infinite sinusoidi, in particolare tutte le armoniche
dispari (155, 465, 775...). Il numero di armoniche viene dato dal numero di picchi intermedi. Nellonda a
impulsi invece tutte le armoniche tranne il reciproco del ciclo dellimpulso e i suoimultipli.
- Analisi di Fourier: individuazione dei segnali semplici che compongono un segnale complesso;
- Sintesi di Fourier: sintesi di un suono a partire da sinusoidi semplici;
- Spettro di Fourier: insieme delle componenti di un segnale, con la propria ampiezza e fase, che formano
unonda complessa (spettro di ampiezza e spettro di fase);
- Trasformata di Fourier: calcolo per passare da una rappresentazione dellonda nel dominio del tempo a
una rappresentazione del tempo nel dominio della frequenza e viceversa (trasformata inversa di
Fourier). La trasformata prende un segnale specifico e calcola i valori e le frequenze delle sinusoidi
presenti, con ampiezze e fasi effettive. Se le forme donda sono molto arrotondate, lo spettro formato da
un limitato numero di armoniche (termine di base la sinusoide pura), quando il segnale spigoloso si ha
la presenza di numerose armoniche.
Rappresentazione dello spettro di un segnale: ogni
componente ha una sua ampiezza e una sua fase, quindi si
possono costruire dei diagrammi che hanno la frequenza sulle
ascisse (>) e fase (b) o ampiezza (a) sulle ordinate. Nel caso
di unonda con 3 armoniche le barre nello spettro saranno solo
3 (con fase 0 per la fondamentale). In unonda sinusoidale lo
spettro avr solo la fondamentale.
Il teorema di Fourier si pu estendere anche a segnali non periodici, eliminando il vincolo dellarmonicit
delle frequenze rispetto alla fondamentale. Lo spettro risultante si dice inarmonico. Gli spettri possono
essere pi o meno inarmonici, a seconda di quanto si allontanano dalle relazioni dia armonia. Il caso limite
rappresentato dal rumore, che un segnale in cui non presente alcuna forma di periodicit e il suo spettro
contiene tutte le frequenze con la stessa ampiezza (rumore bianco). Il rumore rosa invece privilegia le
basse frequenze. I suoni musicali non presentano alcuna periodicit, per si distinguono dal rumore in
quanto anche la loro non periodicit pu essere caratterizzata mediante delle funzioni, tipicamente, a livello
macroscopico, linviluppo.
I transitori
I suoni periodici per un tempo infinito in natura non esistono perch ogni sorgente deve transitare da una
condizione di riposo a una condizione di vibrazione periodica e
a una condizione in cui il suono si estingue. Linviluppo il
modo in cui un suono evolve nel tempo rispetto alla sua
ampiezza. Linviluppo di un segnale quindi la curva che si
ottiene congiungendo tutti i picchi della parte positiva. In
generale si possono individuare quattro fasi (o transitori) che si
differenziano in base al tipo di sorgente sonora:
- Attacco (attack): lampiezza varia da 0 al max valore;
- Decadimento (decay): diminuisce fino a un certo livello;
- Sostegno (sustain): ampiezza costante;
- Estinzione (release): diminuisce fino a 0.
Per quanto riguarda linviluppo di alcuni strumenti musicali, i
suoni percussioni come il pianoforte o i blocchi di legno hanno
degli inviluppi con dei transitori molto repentini, con lassenza
quasi totale di fasi di sostegno. I suoni derivanti da vibrazioni di
colonne daria (flauto/tromba) o corde (violino/contrabbasso)
hanno dei transitori meno repentini.
Pagina 4 di 25
Gli inviluppi sono molto importanti per il riconoscimento delle sorgenti sonore (soprattutto per gli strumenti
musicali) e per lediting di un suono, perch consentono di individuare le aree da selezionare per i tagli. Per
poter realizzare unanalisi di Fourier di un suono musicale, occorre considerare quale sia levoluzione dello
spettro nel tempo.
Lo spettro di uno strumento musicale contiene dei picchi e non barre isolate, cio le frequenze
sono infinite ma alcune sono pi significative di altre. La fase iniziale e di attacco e decadimento ricca di
armoniche, mentre la fase di decadimento e sostegno caratterizzata da un segnale povero.
2. RAPPRESENTAZIONE DIGITALE DEL SUONO. Da analogico a digitale
Una rappresentazione analogica una rappresentazione che lavora per analogia: la curva continua nel
tempo delle variazioni dellampiezza viene rappresentata con una curva continua nel tempo delle variazioni
della tensione elettrica (curva memorizzata nei solchi di un disco o nel campo magnetico di un nastro; per la
precisione, il tracciato dei solchi nel vinile e lintensit del campo magnetico del nastro seguono landamento
della curva dellampiezza, dopo che questa stata convertita in segnale elettrico (vedi dopo)).
Catena della registrazione e riproduzione del suono in modo analogico:
1. Il microfono cattura le variazioni di
pressione nellaria e le trasduce in un segnale
elettrico
2. Il segnale passa attraverso un pre-
amplificatore e un amplificatore
3. Il segnale viene memorizzato su un nastro
magnetico
4. Il segnale viene trasferito su un supporto
5. Il segnale viene prelevato (trasdotto) dal
supporto mediante un lettore adeguato (es.
giradischi)
6. Il segnale viene amplificato nuovamente e
mandato ai diffusori acustici
7. I diffusori acustici trasducono il segnale
elettrico in segnale sonoro
In questa catena non esistono componenti
digitali, sono tutti elettrici.
Alcuni elementi potrebbero introdurre del
rumore e della distorsione. Il rumore un
segnale indesiderato che si aggiunge al
segnale analogico e che generalmente ad
ampio spettro (vedi rumore bianco). Un rumore tipico quello causato dallimpressione magnetica sul nastro
e dalla lettura del segnale registrato, percepiti dal nostro udito come fruscio. Per la riduzione del rumore
(noise reduction) sono stati sviluppati vari metodi: il sistema della Dolby che enfatizza in registrazione le
regioni dello spettro in cui il rumore percepibile e le de-enfatizza in fase di riproduzione. Per fare una stima
del rumore in un sistema analogico si usa il rapporto segnale-rumore, lSNR (Signal-to-Noise-Ratio),
che si definisce come il rapporto tra la massima ampiezza utile del segnale e lampiezza del rumore
presente (la differenza tra le due onde d il rumore).
SNR = max ampiezza segnale / ampiezza rumore
proporzionale alla qualit del segnale. La versione logaritmica :
SNR (in dB)= 20 log (max ampiezza segnale / ampiezza rumore)
Un altro parametro che misura la qualit di un audio analogico la gamma dinamica, che sarebbe il
rapporto tra lampiezza massima e lampiezza minima presenti nel segnale ed connessa anchessa al
rumore. Se si vuole misurare in dB allora diventa la differenza tra ampiezza massima e ampiezza minima. La
gamma dinamica misura quanto c dal suono pi forte a quello pi debole, un brano che passa da un
pianissimo a un fortissimo presenta unampia gamma dinamica. Il sistema analogico migliore quello che
approssima meglio la gamma del segnale in ingresso.
La distorsione una modifica non desiderata della forma donda (e quindi dello spettro) di un segnale, di
solito aumenta con lampiezza, quindi nella caratterizzazione SNR lampiezza utile lampiezza massima
alla quale non si presentano effetti di distorsione. Il nostro apparato uditivo percepisce in modo differente le
forme donda in ingresso a causa della colorazione che introduce. Grazie a questa colorazione
dellapparato, leffetto della distorsione viene annullato.
La rappresentazione digitale non imita il segnale ma assegna dei numeri che rappresentano di volta in
volta il valore dellampiezza in istanti di tempo successivi. Questo tipo di rappresentazione non continua
ma discreta e si avvale di un codice simbolico preciso.
Pagina 5 di 25
Vantaggi: Svantaggi:
- al contrario del segnale analogico, fare una copia - occorre realizzare un sistema di comunicazione
del segnale non comporta nessuna perdita tra linterno e lesterno dellelaboratore
- segnale facilmente manipolabile (operazioni - costi eccessivi a causa della necessit di grandi
aritmetiche) capacit di memoria e velocit di trasmissione
- possibilit di correzione degli errori grazie ai per memorizzazione e trasferimento del segnale
supporti per la memorizzazione e ai dispositivi di (questo ha portato alle tecniche di
trasmissione compressione)
Catena dellaudio digitale:
1. Il microfono cattura le variazioni di
pressione nellaria e le trasduce in un segnale
elettrico
2. Il segnale passa attraverso un pre-
amplificatore e un amplificatore
3. Il segnale viene filtrato tramite il filtro
passabasso (perch fa passare le frequenze
che stanno al di sotto di una determinata
soglia - frequenza di taglio, che met del
tasso di campionamento) per evitare laliasing
[vedi teorema di Nyquist pi avanti]
4. LADC (Convertitore Analogico-Digitale) in
base a un suo orologio interno (clock) preleva
i campioni dellampiezza del segnale
a n a l o g i c o e fi s s a l a f r e q u e n z a d i
campionamento (ogni quanto vengono
prelevati i campioni)
5. I campioni vengono memorizzati su un
dispositivo digitale (Hard Disk nella figura)
6. Il DAC (Convertitore Digitale-Analogico)
converte il segnale in analogico (da numeri a tensioni elettriche)
7. Un interpolatore smussa i gradini dovuti al salto tra i valori di tensione vicini e necessita di un altro
filtro passabasso (i gradini sono infatti dovuti ad alte frequenze che devono essere eliminate)
8. Il segnale viene amplificato e mandato ai diffusori per la trasduzione a segnale acustico
Il passaggio da analogico a digitale e viceversa caratterizzato
da due operazioni di discretizzazione, in cui grandezze
continue tempo e ampiezza assumono valori discreti.
Loperazione che discretizza il tempo detta campionamento,
quella che discretezza lampiezza detta quantizzazione.
a) segnale analogico
b) segnale quantizzato
c) segnale campionato
d) segnale quantizzato e campionato
Il campionamento
Il campionamento la discretizzazione del segnale analogico nel tempo, ovvero lindividuazione di istanti
di tempo (valori discreti) sullasse delle ascisse (). Per avere un segnale digitale fedele occorre che i
campioni siano prelevati a una velocit (tasso) abbastanza elevata da riuscire a tener conto di tutte le
variazioni di segnale. Il tasso di campionamento quindi devessere dipendente dalla velocit di variazione
del segnale, che dipende a sua volta dalla parziale con frequenza pi alta [vedi teorema di Fourier]. Pi
brevi sono gli intervalli di tempo tra un campione e latro, pi il segnale sar simile alloriginale. Lintervallo di
tempo tra campioni detto periodo di campionamento (il cui inverso il tasso di c.). A ogni periodo di
campionamento si preleva un campione dellampiezza (valore quantizzato del segnale analogico in
quellistante). Pi i valori sono ravvicinati, pi efficace sar la descrizione dellandamento del segnale. La
dimensione migliore dellintervallo un compromesso tra la qualit del suono e il numero di campioni:
buona qualit tante informazioni tanti campioni tanto spazio sulla memoria velocit
Ex. sulla velocit: Se i campioni che descrivono il segnale sono 44.100 al secondo, la capacit di lettura del
dispositivo (hard disk, CD, ecc..) devessere sufficientemente veloce da inviare 44100 numeri al DAC. Se
laudio viaggia su Internet allora la rete devessere in grado di trasportare 44100 campioni al secondo. Se la
quantit di campioni diminuisce, allora la descrizione sar meno accurata. La scelta del tasso di
Pagina 6 di 25
campionamento dipende dalle esigenze delle applicazioni individuali in quanto qualit e numero di campioni
sono in contrasto.
Nella digitalizzazione di un segnale si ha un fenomeno di distorsione dovuto tipicamente alloperazione di
campionamento utile a fissare dei limiti inferiori al tasso di campionamento, detta aliasing, fenomeno che
introduce in un segnale digitale delle frequenze spurie, non presenti nel segnale analogico in ingresso.
a) sovraccampionamento: il segnale analogico
una sinusoide la cui frequenza 1/8 del tasso di
campionamento (al di sotto della met). Se il tasso di
campionamento di 1000 campioni al secondo, la
frequenza del segnale di 125 Hz (1000/8). Le
informazioni che risultano alla digitalizzazione sono
pi che sufficienti per ricreare il segnale originale.
b) campionamento critico: la sinusoide ha una
frequenza che la met della velocit di
campionamento (con 1000 campioni al secondo la
frequenza 500 Hz), in questo modo linterpolato
produce un risultato adeguato solo in determinate
condizioni (ad esempio se cambia la fase, il segnale
non si pu ricostruire).
c) sottocampionamento: la ricostruzione del
segnale a partire dai campioni produce un segnale
nuovo (la frequenza spuria). Il segnale analogico di
partenza ha una frequenza che 7/8 il tasso di
campionamento (con 100 campioni al secondo il
segnale di 875 Hz, al di sopra della met del tasso di campionamento). Il segnale ricostruito 1/8, con una
frequenza di 125 Hz, ma con la fase invertita, quindi si dice che la curva ha una frequenza di -1/8 rispetto al
tasso, ossia -125 Hz. Qui si ha laliasing: i campioni ottenuti dal segnale da 875 Hz non sono distinguibili da
quelli ottenuti dal segnale di 125 Hz (usando lo stesso tasso di campionamento).
Esiste una formula che permette di calcolare la frequenza ricostruita (f) a partire dalla frequenza
originale (f) e il tasso di campionamento (fc).
f = f + kfc
k un numero intero (positivo o negativo) dato da:
k = - fc/2 < f + kfc < fc/2
Ex: f=30000; fc=44100 f = 30000 + k x 44100 || k = - 22050 < 30000 + k x 44100 < 22050
se k= -1 30000 - 44100= -14000 // k = [ 2 f / fc ] f = f - [ 2 f / fc ] fc
Un altro esempio di aliasing pu essere il fenomeno dei battimenti, ovvero quando una o pi frequenze
spurie sono molto vicine a una frequenza gi presente nel segnale. I battimenti sono generati da un aliasing,
non sono la conseguenza di un sottocampionamento.
Un altro caso di alterazione del suono dovuta allaliasing si verifica con il glissando: finch la frequenza del
segnale rimane al di sotto della met del tasso di campionamento, il segnale digitale rappresenta
correttamente il segnale analogico; non appena la frequenza del segnale supera la met del tasso di
campionamento, il segnale ricostruito diminuisce la frequenza.
Si pu comprare laliasing con un fenomeno analogo che avviene nelle immagini. Qui parliamo di frequenze alte/basse,
nellimmagine di luce/ombra. Una sinusoide a frequenza elevata corrisponde a cambiamenti repentini di luminosit o
colore, mentre una sinusoide a basse frequenze corrisponde a fluttuazioni pi graduali di intensit o colore.
Laliasing si pu formare anche quando loperazione di campionamento manca di memorizzare qualche
informazione generando un sottocampionamento. Sono necessari almeno due campioni per periodo.
Il Teorema di Nyquist stato formulato nel 1928 da Harold Nyquist e riguarda il tasso di campionamento:
il tasso di campionamento devessere almeno il doppio della frequenza massima presente nel segnale in
input originale (tasso di Nyquist).
Se il tasso di campionamento inferiore al tasso di Nyquist si verifica il fenomeno dellaliasing. Nel senso
inverso, per campionare il segnale in input, devono essere eliminate le frequenze che sono la met della
frequenza di campionamento. Ad esempio, la percezione delluomo arriva a segnali di circa 20000 Hz, per
non avere perdite significative di segnale occorre campionare a 40.000 campioni al secondo. Il tasso dei CD
di 44.100 campioni/secondo. Anche YouTube applica il campionamento quando sceglie la qualit del
video, se passi da 1080px a 360px taglia le parti in eccesso.
Il dispositivo che permette di filtrare il segnale in modo da far passare solo le frequenze al di sotto della met
del tasso di campionamento il filtro passabasso. In alto a sinistra ci sono le 4 parziali del segnale in
Pagina 7 di 25
ingresso al filtro. Il segnale complesso che ne risulta in basso a
sinistra. Il filtro attenua le due frequenze pi elevate e il segnale
risultante (diverso da quello in partenza) in basso a destra. La
frequenza che fissa la soglia oltre la quale le frequenze vengono
attenuate detta frequenza di taglio o di cut-off. Ci avviene
anche nella ricostruzione del segnale analogico, quando il filtro
deve eliminare i cambi repentini (perch la tensione rimane
costante fino alla conversione del campione successivo) di
intensit dovuti alla successine di tensioni generate dal DAC nella
lettura.
La quantizzazione
La quantizzazione del singolo campione di ampiezza ha lobiettivo di assegnare al campione dei valori
numerici, consentiti nella codifica digitale. La codifica digitale divide la gamma delle ampiezze possibili in
intervalli o regioni: ogni campione ha unampiezza che cade in una delle regioni, ed il numero di esse
dipende dai bit a disposizione per la codifica. Una sequenza di bit detta parola binaria che pu assumere
2 valori/sequenze differenti. Parametri importanti: numero bit, accuratezza, errore di quantizzazione.
Per associare una configurazione di bit a una regione si usa la quantizzazione lineare che divide la gamma
delle ampiezze in 2 regioni uguali e associa a ciascuna delle regioni uno dei 2 valori numerici.
Ex: Valore minimo e massimo delle 256 regioni in cui suddivisa la gamma delle ampiezze di 10 volt (da -5 a +5 volt).
Ciascuna regione ampia 0,039 volt (10/256). Per ciascuna regione vengono indicati gli estremi minimo e massimo e la
parola binaria che rappresenta il codice.
Nel processo di quantizzazione si perde
dellinformazione poich tutti i valori che
rientrano in una regione verranno convertiti
nello stesso codice binario creando cos
lerrore di quantizzazione, che si pu
ridurre man mano che i bit della codifica
aumentano perch le regioni si riducono di
ampiezza. Lerrore massimo di
quantizzazione la met della
dimensione di una regione, assumendo
che il codice corrisponda al valore di
mezzo. Lerrore di quantizzazione la
differenza tra ampiezza reale e ampiezza
quantizzata, tra segnale di input e
rappresentazione. Il DAC colui che vede il numero della regione e lo ritrasforma in tensione.
Lerrore di quantizzazione che pu essere considerato casuale, pu essere negativo o positivo, grande o
piccolo, ed correlato dal segnale si comporta come un segnale aggiunto simile al rumore bianco,
creando il rumore di quantizzazione. Per determinare se una registrazione del segnale corretta bisogna
fissare dei parametri, dei limiti di precisazione di una codifica digitale, simile al rapporto SNR dellanalogico,
confrontando lampiezza del segnale con lampiezza del rumore di quantizzazione. Per differenziarlo
dallanalogico si pu chiamare SQNR (Rapporto Segnale - Rumore di Quantizzazione). Poich N il
numero di bit della rappresentazione digitale e SQNR espresso in funzione di N, questultima relazione
stabilisce che ogni bit contribuisce per circa 6 dB (1 bit = 6 dB) al rapporto tra il segnale e lerrore di
quantizzazione.
SQNR = 2
con 8 bit > SQNR= 8x6=48 dB || con 16 bit > SQNR=16x6=96 dB (standard CD)
Laggiunta di un bit raddoppia la gamma dinamica dei valori e dimezza lerrore di quantizzazione. Nel caso di
ampiezze minime il segnale varia solo due regioni e nella codifica digitale si ha una variazione (chiamata
flip) dellultimo bit della parola binaria. Se si verifica una regolarit del segnale londa sar unonda quadra o
unonda a impulsi e la presenza di questonda introduce nel segnale delle armoniche non desiderate e causa
alle ampiezze minime degli effetti indesiderati (low level quantization noise). La soluzione (oltre allaumento
del numero di bit) una correzione detta dithering, che introduce nel segnale (prima della conversione
analogico-digitale) del rumore di eccitazione (~3dB), che distrugge la regolarit del rumore provocando
variazioni casuali nei valori e non permette il formarsi di unonda quadra. Nelle immagini la tecnica di dithering
utilizzata quando si vogliono visualizzare delle sfumature e si mischiano i pixel disponibili ingannando il nostro apparato
visivo che fa una media e produce le sfumature. La gamma dinamica nel caso della quantizzazione lineare ha lo
stesso valore del rapporto SQNR e nel sistema digitale a N bit 6N dB.
Pagina 8 di 25
Codifica del segnale audio
Il passo finale della digitalizzazione la generazione del codice associato al campione che identifica tutta la
regione che verr memorizzato sui supporti e poi trasmesso.
Il modo pi immediato per codificare un segnale la modulazione
dellampiezza dellimpulso (PAM - Pulse Amplitude Modulation), per la
quale un impulso occorre a ogni intervallo di campionamento e lampiezza
della forma donda un valore digitale che corrisponde allampiezza
analogica. Ogni campione determina la sua rappresentazione con la
propria forza, rileva la sua potenza (pi profondo = pi forte). La
modulazione (variazione guidata nel tempo) pu riguardare anche altre
grandezze, come la durata dellimpulso.
La forma pi diffusa della codifica digitale avviene mediante la
modulazione del codice dellimpulso (PCM - Pulse Code
Modulation), in cui linformazione digitale viene codificata in
modo seriale: limpulso rappresenta l1, lassenza rappresenta
lo 0. Per irrobustire la codifica si usano dei bit extra utili per il
controllo di eventuali errori. Un esempio un bit di parit: si
aggiunge un bit a una sequenza fissata e nel caso in cui un bit
per errore subisca un flip (varia da 0 a 1 o viceversa), il bit di parit permette di scoprirlo (ma non dove
occorre lerrore, e non funziona se ce n pi di uno, quindi conviene aumentare il numero di bit di controllo).
Poich la spaziatura delle regioni di ampiezza uniforme, la codifica PCM appena descritta detta PCM
lineare. Visto che lerrore di quantizzazione indipendente dallampiezza del segnale e varia in modo
casuale tra 0 (errore nullo) e la met della regione, unespressione pi accurata per la SQNR pu essere:
SQNR= 6xN + S dove S il fattore di correzione che vale 0 dB per lampiezza massima del segnale, -6 dB
quando il segnale decresce a met dellampiezza massima, -12 dB quando va a 1/4 dellampiezza massima
e cos via. Quindi SQNR diminuisce con lampiezza del segnale. Per mantenere un livello elevato del
rapporto SQNR sufficiente usare un numero elevato di bit (anche se decresce mantiene valori adeguati).
Quantizzazione non lineare
La quantizzazione non lineare una spaziatura non uniforme delle regioni di quantizzazione, unaltra
soluzione per evitare la degradazione dei segnali deboli. Il numero delle regioni rimane lo stesso ma cambia
la loro dimensione: diminuisce per le regioni con ampiezze deboli e aumenta per le regioni con ampiezze
forti. Quindi, lerrore decresce per le ampiezze deboli e aumenta per quelle forti. Il primo effetto di questa
quantizzazione la separazione tra il rapporto SQNR e la gamma dinamica, in quanto lampiezza dellerrore
varia con lampiezza del segnale.
Sia i metodi che gli effetti udibili della quantizzazione non lineare sono simili alla tecnica compansion (compression +
expansion), che si basa sul fatto che il nostro sistema uditivo tollera un maggiore livello di rumore rispetto che alle
ampiezze forti. Il sistema Dolby (che lo utilizza per le registrazioni su nastro magnetico) comprime il segnale in fase di
registrazione, in modo che non ci sia una grande differenza tra la minima e la massima ampiezza (i segnali deboli
vengono amplificati e quelli forti rimangono inalterati) e la gamma dinamica ridotta. In riproduzione la gamma dinamica
viene espansa e vengono reintrodotte le variazioni originali. In questo modo il rumore pi forte quando il segnale pi
forte ed debole quando il segnale debole. Lo spettro del suono riprodotto con questo sistema privo di numerose
armoniche (picchi) e risulta pi ovattato, la componente di fruscio per molto ridotta.
La quantizzazione non lineare si comporta, in ambito digitale, come una compansion. Lidea quella di
ridurre il rumore alle ampiezze deboli e aumentarlo alle ampiezze forti. Per ottenere questo risultato le
regioni pi vicine allampiezza nulla vengono quantizzate in maniera pi fine rispetto a quelle elevate. Ci
porta allallontanamento tra il rapporto SQNR e la gamma dinamica, poich il rapporto SQNR viene a
dipendere dallerrore variabile nelle varie regioni, mentre il calcolo della gamma dinamica resta invariato.
Due tipi di quantizzazione non lineare sono la quantizzazione logaritmica e a virgola mobile:
La quantizzazione logaritmica si ritrova in alcuni formati audio
e la sua caratteristica fondamentale che la dimensione delle
regioni di quantizzazione cresce com lampiezza del segnale
secondo una curva logaritmica. Sullasse delle ordinate della
curva sono state segnate le regioni di quantizzazione uniformi
secondo la scala logaritmica e sullasse delle ascisse sono
invece segnate le corrispondenti regioni di quantizzazione sulla
scala lineare. Quelle vicino alla 0 sono pi ravvicinate rispetto a
quelle distanti dallo 0.
Quantizzare in modo logaritmico vuol dire assegnare le regioni di
quantizzazione in modo uniforme rispetto a una scala
logaritmica, risultando non uniformi sulla scala lineare.
Pagina 9 di 25
I codici digitali vengono assegnati seguendo questa suddivisione. Il rapporto SQNR migliore alle ampiezze
deboli, con un peggioramento a quelle elevate ma il mascheramento aiuta per a tollerare la situazione -
vedi parte su percezione uditiva.
Lo svantaggio di questo tipo di quantizzazione
che non molto efficiente quando il segnale
quantizzato devessere in seguito sottoposto a
elaborazione [vedi DSP - elaborazione digitale e
audio], perch calcolare il logaritmo dei valori della
scala unoperazione costosa in termini di tempo.
La soluzione adottata solitamente convertire il
segnale digitale in forma lineare e applicare poi le
operazioni di elaborazione del segnale (ma anche
questo comporta una grossa perdita di tempo);
consigliabile adottare la forma logaritmica in
applicazioni in cui non ci si pu permettere un
numero elevato di bit di quantizzazione. Un altro vantaggio invece il miglioramento della gamma dinamica:
una quantizzazione logaritmica di buona qualit a 8 bit produce infatti una gamma dinamica pari a una
quantizzazione lineare a 13 o 14 bit.
La quantizzazione a virgola mobile si ottiene aggiungendo dei bit extra ai bit di quantizzazione lineare. Il
rapporto SQNR rimane determinato dai bit di quantizzazione, la gamma dinamica invece viene estesa
proporzionalmente alla somma dei numeri di bit di quantizzazione e dei bit extra.
Esempio: Aggiungiamo un bit extra
1. Sistema di quantizzazione lineare a 8 bit 4. il valore a 8 bit diventa a 9 bit
2. rapporto SQNR e gamma dinamica di 48 dB 5. se bit extra 0 allora il MSB il primo e sar 0
3. segnale quantizzato in 256 regioni uniformi 6. se bit extra 1, il MSB lultimo e sar 0 (shift)
Supponiamo di decidere il bit extra in base allampiezza:
- lampiezza massima 2 Volt
- dividiamo la gamma delle ampiezze in due parti uguali
(intervallo tra -V/2 e V/2)
- se lampiezza del campione supera questo
intervallo, la quantizzazione avviene in modo
lineare
- su 8 bit e il bit extra 0 (nessuno shift)
- se lampiezza del campione fuori intervallo, essa
viene divisa per 2 (rientra nellintervallo) e
quantizzata su 8 bit lineari e il bit extra sar 1
(shift)
- i campioni passano da 8 a 9 bit
- il sistema a 9 bit quantizza i campioni a 8 bit
La differenza rispetto a un sistema lineare a 9 bit che nel nuovo sistema non possibile assegnare delle
codifiche che iniziano e finiscono con 1, in quanto il modo di ottenere i campioni da 8 bit solo mediante la
traslazione e concatenazione dello 0. Il rapporto SQNR non cambia ma la gamma dinamica risulta estesa
(54 dB invece che 48), ma entrambi sono migliori; il sistema pu incrementare la gamma di un bit extra
chiamato bit esponente (da qui il nome di virgola mobile), i bit extra diventano cos 2 e le possibilit di shift
4, con 3 8, ecc Se il sistema ha N bit e P traslazioni (shift) la gamma dinamica sar: 6N + 6P dB. Nel caso
di questo tipo di quantizzazione, i segnali forti vengono attenuati in fase di codifica e amplificati in fase di
riproduzione.
Cenni sulla trasformata discreta di Fourier
La trasformata di Fourier uno strumento matematico che permette di passare da una forma donda al suo
spettro (cio, di passare dal tempo alla frequenza, a partire dalla curva restituisce le frequenze con
ampiezza e fase di ciascuna). Quando il segnale di partenza in formato digitale si pu applicare la
Trasformata Discreta di Fourier (DFT). Qui lo spettro viene campionato in frequenze, le quali sono fissate
da un intervallo di campionamento frequenziale. La DFT scompone la forma donda in un insieme unico di
armoniche, individua quella fondamentale e poi prende i multipli interi dellintervallo seguendo il teorema di
Nyquist. Il risultato fotografa uno spettro fisso e costante per la durata di tempo esaminata. Un maggiore
numero di campioni utilizzati nella DFT comporta una maggiore risoluzione di frequenza ma una minore
risoluzione temporale. Lalgoritmo DFT importante per lanalisi dei segnali. Aumentando il numero di
campioni utilizzati per il calcolo dello spettro, la risoluzione aumenta, aumentano per anche i tempi di
calcolo. La tecnica utilizzata per il software di elaborazione del segnale chiamata Trasformata Veloce di
Fourier.
Pagina 10 di 25
PERCEZIONE UDITIVA Fisiologia delludito:
Le funzioni principali del nostro apparato uditivo sono la comunicazione uditiva (tra cui il linguaggio) e la
localizzazione dei suoni (spazializzazione). La percezione uditiva data dalla fisiologia dellorecchio interno
e dallazione del cervello.
Lorecchio diviso in esterno (padiglione auricolare, meato e
timpano), medio (martello, incudine e staffa) e interno
(perilinfa e coclea).
Il meato collega il padiglione con il timpano. La sua frequenza

di risonanza di 2000 Hz (frequenze amplificate).
Il ruolo dellorecchio medio duplice: propaga

le vibrazioni del timpano alla perilinfa e protegge questultima
dai suoni alti a bassa frequenza.
Le vibrazioni del segnale percorrono

lorecchio in questa successione:
timpano, martello, incudine, staffa,
perilinfa, coclea.
La perilinfa un liquido spesso che circonda la coclea, quindi martello/

incudine/staffa devono dirigere la stessa energia presa dal timpano (che
ha una superficie estesa) alla coclea (che ha una superficie meno estesa).
La coclea divisa in tre camere: vestibolare, media e timpanica.
Tra la media e la timpanica si trova la membrana basilare dove a sua
volta si trova lorgano di Corti, che trasduce il segnale acustico in segnale
continuo.
Le cellule cigliate dellorgano di Corti in assenza di rumore mandano un tasso di impulsi spontanei al
cervello. Quando invece c rumore ill tasso modificato in base alle vibrazioni che arrivano dagli ossicini.
Le cellule cigliate funzionano come un analizzatore di Fourier, ossia analizzano le frequenze. Il cervello
rileva poi le differenze tra impulsi spontanei e vibrazioni. Sopra i 3000 Hz le cellule cigliate vanno in phase
locking, ossia non riescono pi a mandare impulsi sincronizzati ma devono alternarsi.
Nella membrana basilare, le frequenze sono distribuite in maniera ordinata: quelle alte vanno allestremit
vicina agli ossicini (perch stretta, rigida e leggera) mentre quelle basse vanno allestremit interna (perch
ampia, flessibile e massiccia). Tutta la membrana copre lestensione delludibile e funziona come un
analizzatore di Fourier.
Le trasduzioni acustiche vengono trasmesse dai neurotrasmettitori che si trovano tra le cellule cigliate e il
nervo uditivo. Il segnale elettrico passa lungo il nervo coclearie e dopo limpulso le fibre subiscono una stasi
di 1 ms. Per una cellula cigliata ci sono 10 fibre connesse, con soglie di attivazione differenti. Sulla
membrana c un punto in cui si esercita la massima il massimo tasso di attivazione, ed il punto che
Pagina 11 di 25
stimola il numero massimo di cellule. Gli intervalli tra gli impulsi
codificano la frequenza del tono. Lintensit dei suoni
determinata dallampiezza della vibrazione della membrana
basilare. gamma dinamica pi ampia. A seconda del livello la
codifica diversa: se lintensit debole verr coinvolta la
maggior parte delle fibre, se lintensit elevata verranno
coinvolte le fibre con bassi tassi spontanei, con una
I segnali che arrivano allorecchio vengono miscelati ed elaborati
in pi stazioni e poi vengono interpretati nella corteccia uditiva.
Il segnale si pu rappresentare nel dominio della frequenza

(organizzazione tonotopica) e nel dominio del tempo (pattern di attivazione lungo il nervo uditivo).
Psicologia delludito
Il volume viene percepito in foni e il volume soggettivo in soni. I suoni sotto i 30 Hz sono difficili da udire. I
suoni con intensit a 1000 Hz sono udibili (soglia) agli ascoltatori acuti. Le soglie di udibilit si possono
vedere con il diagramma di Fletcher-Munson.

Il segnale che si trova al di sotto dei 0 foni non viene udito (quindi, nel
caso di elaborazione del suono o di compressione, anche se le
frequenze al di sotto di questa soglia vengono eliminate, non si perde
nulla).
La soglia bassa alle alte frequenze perch bastano pochi deciBel per
suoni facilmente udibili.
Per il riconoscimento degli strumenti, la durata dei transitori dipende da strumento e esecutore. Il vibrato la
modulazione periodica allaltezza di un suono, il tremolo il corrispondente in ampiezza. Il suono viene
sintetizzato spesso in assenza di un vibrato realistico. La differenza di attacco un altro fattore importante
per il riconoscimento degli strumenti: la sensibilit alle differenze dei suoni tra le due orecchie alta e si
percepiscono ritardi di pochi microsecondi tra due suoni.
Interferenza tra suoni: il mascheramento prodotto dalla membrana basilare, quando la percezione
dellaltezza di un suono incerta. I neuroni si bloccano per scaricare assieme al picco del segnale e la
coclea funziona come un phase detector e un frequency discriminator.
Un esempio quando, nella vita quotidiana, non si
riesce ad ascoltare qualcuno che bisbiglia quando c
qualcun altro che sta urlando.
Mascheramento tonale e mascheramento non tonale:
Con il mascheramento tonale nello spettro del suono
si pu riconoscere un tono, mentre con quello non
tonale il suono mascheratore rumore che copre
tutto.
Il mascheramento temporale dato dalleffetto di mascheramento oltre la durata del suono mascheratore, si
percepisce un ritardo maggiore con il tono mascherato pi debole.
Organizzazione percettiva del suono: al nostro orecchio arriva ununica forma donda complessa analizzata
nelle sue parziali (informazione grezza). Le sorgenti vengono re-identificate, ossia vengono ri-assegnate le
parziali alle sorgenti sonore di provenienza.
La scena uditiva comprende tutto il percepito, un continuum acustico grezzo. Gli eventi del mondo, causa
degli eventi sonori, vengono ricostruiti.
Il problemi del nostro apparato sono per la generale instabilit degli oggetti uditivi (quanti strati), la
complessit del lavoro e la valutazione dei risultati proposti da euristiche in conflitto. Le euristiche possono
essere basate su primitive percettive (Gestalt - somiglianza, buona continuazione in frequenza...) o su
schemi cognitivi appresi (non elencabili perch dipendono da un contesto culturale e personale).
Localizzazione dei suoni
Per localizzare le sorgenti sonore si costruisce una mappa sonora soggettiva, con la localizzazione vera e
propria delle sorgenti (direzione e distanza) e la caratterizzazione dellambiente circostante (spazi senza
Pagina 12 di 25
sorgenti specifiche). Anche la localizzazione binaurale (altezza e davanti/dietro) risente del filtraggio
spettrale operato dal lobo.
Un ambiente sonoro pu essere outdoor (facile per direzione e difficile per distanza) o indoor (facile per
distanza, meno per la dimensione).
La sorgente pu essere pi o meno direzionale ed data dal rapporto tra decibel diffusi nella direzione
preferenziale e decibel diffusi in tutte le altre direzioni. Le sorgenti con alte frequenze sono le pi direzionali.
Nello spazio, oltre al suono diretto, si crea una coda riverberante.
Teoria Duplex: la localizzazione del suono basata su differenze interaurali (intensit per le alte frequenze -
IID - e fase per le basse frequenze - ITD). Questa teoria valida per i toni puri o i suoni a regime.
LITD la differenza di tempo (o di fase - se si tratta di sinusoidi)

tra le orecchie.
LIID la differenza di ampiezza (o di spettro) tra le due orecchie.

[immagine a sx]
Ruolo della testa: con le alte frequenze, la testa getta unombra

acustica, come se fosse un filtro passabasso, e il volume relativo
del suono arriva in maniera differente alle orecchie. Con le basse frequenze il suono subisce una diffrazione
e avvolge la testa e arriva con ritardo allaltro orecchio.
Il ruolo dellintensit alle basse frequenze (ITD) quella della localizzazione di una sorgente sonora. E
efficace per i suoni complessi nelle fasi transitorie (attacco e rilascio), si basa sulle basse frequenze e
discrimina tra sinistra e destra ma non tra fronte/retro o elevazione.
Per calcolare lITD bisogna prendere in considerazione il raggio della testa e langolo della sorgente.
Per calcolare lIID (intensit alle alte frequenze) bisogna fare la differenza di ampiezza dovuta al filtraggio
spettrale. Si prendono in considerazione anche testa, padiglione auricolare, spalle e corpo.
LHRTF lHead Related Transfer Function, ossia la funzione di trasferimento in relazione alla testa. SI
rilevano i cambiamenti di forma donda, di fase e di ampiezza. La misurazione avviene con microfono posti
nellorecchio (dummy head). I risultati di queste misurazioni rilevano un povero contenuto di alte frequenze
delle sorgenti poste dietro e che alcune regioni dello spettro sono enfatizzate in determinate direzioni.
Effetto di precedenza: legge del primo fronte donda, effetto Haas o legge di soppressione delleco. Si
percepisce una direzione che corrisponde allincirca alla prima sorgente (ce ne sono due simili ma in
posizioni diverse). Leco molto pi forte del primo suono prima di poter percepirne la direzione.
Bilanciamento tra IID e ITD:
Leffetto di precedenza in stereofonia si ha variando ITD e
IID fino ad avere la localizzazione desiderata (pu avvenire
in cuffia o con altoparlanti).
La percezione della direzione dipende da almeno 4 fattori
complementari:
- rilevamento IID (efficace soprattutto alle alte frequenze,
maggiori di 1,5 kHz))
- rilevamento ITD (funziona bene sotto i 1500 Hz e
contribuisce alla lateralizzazione)
- rilevamento tempi di attacco (solo per suoni transitori,
provoca ritardo tra orecchie)
- forma orecchio esterno (distingue il davanti da dietro)
Anche il movimento della testa aiuta per captare come cambia il suono per avere unidentificazione accurata.
3. FORMATI E SUPPORTI. Archiviazione dei dati audio
Il processo di digitalizzazione si conclude con larchiviazione dei campioni, scegliendo un formato
riconosciuto dai dispositivi di lettura per poter ricostruire il segnale analogico in maniera corretta.
I parametri fondamentali per larchiviazione sono: campionamento, quantizzazione e codifica. Ci sono per
due ulteriori aspetti che bisogna tenere in considerazione, ossia la modalit di memorizzazione dei canali
multipli di uno stesso brano e la struttura interna (rappresentazione binaria) dei campioni.
Innanzitutto, la differenza fondamentale dal punto di vista della rappresentazione binaria se la codifica
con segno (il numero negativo con il massimo valore assoluto corrisponde alla minima tensione elettrica
negativa) o senza segno (0 corrisponde alla minima tensione negativa).
Nei canali multipli bisogna decidere come alternare i campioni nella memorizzazione. Si costruiscono cos
gruppi di campioni da tutti i canali presenti, secondo uno schema detto interleaving (interfogliamento), che
Pagina 13 di 25
raggruppa i campioni per numero (tutti i primi, tutti i secondi, ecc...) e nel caso dei canali stereo fa precedere
il canale sinistro a quello destro (Ex: Campione 1sx, C 1dx, C2 sx, C 2dx, ecc). I vantaggi di questo
schema sono la velocit di archiviazione o trasmissione dei dati e la facile sincronizzazione dei canali. Gli
svantaggi sono il possibile spreco di spazio e la difficolt di effettuare operazioni di elaborazione del segnale
che contengono un solo canale.
Laltro aspetto da tenere conto lordine dei byte nei campioni (quando un dato necessita pi di 1 byte). Nel
caso di 16 bit, per esempio, che formato da 2 byte, esiste un byte pi significativo e uno meno significativo.
Esistono due ordini: quello naturale, detto LITTLE-ENDIAN che fa precedere il meno significativo e che
utilizzato dalle macchine Intel (comuni PC) e quello inverso, detto BIG-ENDIAN, adottato da Motorola, Apple
e Sun. Lordine importante soprattutto quando si deve passare da una macchina allaltra perch i dati
potrebbero essere letti erroneamente.
I formati del file audio
I formati del file audio sono stati sviluppati per standardizzare la riproduzione e la distribuzione dei dati
audio nei sistemi digitali. Una volta, ogni tipo di macchina usava un suo formato. I parametri che
determinano i dati audio sono: il tasso di campionamento (sampling rate), lunghezza e tipo di parola binaria
(bit per campione) e il numero di canali. Esistono due tipi di formati:
- con intestazione (header), detti anche autodescriventi: forma pi flessibile, permette di inserire
nellintestazione i parametri espliciti del formato;
- senza intestazione (headerless): i parametri sono impliciti e verranno interpretati caso per caso;
Il formato con intestazione definisce una famiglia di codifiche per i dati audio. Nellintestazione si impostano
dei parametri o si inseriscono informazioni sul brano come descrizione del contenuto o copyright. La
struttura tipica dellintestazione : parola chiave + dati di codifica.
Questa tabella riassume i formati audio pi comuni

che possiedono unintestazione. Sono formati molto
diffusi quindi la maggior parte dei programmi di
elaborazione audio li interpreta e li produce. Alcuni di
questi formati sono compressi (dati ridotti).
I formati senza intestazione definiscono invece una
singola codifica dei dati e non ammettono
variazioni dei parametri.
Il formato pi diffuso il WAVE di Microsoft che supporta pi livelli di quantizzazione, di tassi di

campionamento e di canali e discende dal processore Intel (LITTLE ENDIAN). I file WAVE si basano sul
formato RIFF che prevede la memorizzazione dei dati in sezioni logiche allinterno del file, dette chunk.
Esistono due chunk che sono sempre presenti: quello del formato (informazioni sui dati audio, format
chunk - fmt) e quello dei dati (campioni della forma donda, data chunk). Tra i chunk opzionali ci sono
quelli che definiscono i punti precisi del brano, quello che specifica lordine di riproduzione o quello che
definisce i parametri di uno strumento per riprodurre la forma donda.
Il RIFF (Resource Interchange File Format) un formato per la memorizzazione di dati multimediali assieme
a informazioni descrittive. I primi 4 byte identificano il formato del file, i secondi 4 byte indicano la
lunghezza rimanente del file e a partire dallottavo byte ci sono i dati (dove troveremo lindicazione del
formato WAVE e il suo contenuto audio).
Ora analizziamo il chunk data (rDATA - riff data): vi sono 24 byte che rappresentano il chunk di formato e
a partire dal byte 28 vi sono i dati audio veri e propri (i campioni). Il chunk del formato descrive i parametri
fondamentali della forma donda, cio il tasso di campionamento, bit di quantizzazione e numero dei canali:
RIFF: 00 - rID, 4 byte (fmt: R I F F); 04 - rLEN, 4 byte; 08 - rDATA, rLEN
WAVE: 00 - WID, 4 byte (fmt, W A V E); 04 - format chunk (header), 24 byte; 28 - data chunk (campioni), ?
Pagina 14 di 25
- 4 byte per identificare il chunk (caratteri fmt)
- 4 byte per la lunghezza dei dati campo wFormatTag: definisce il formato effettivo dei dati audio
(compressione 1/non compressione = 1)
- #Canali: numero di canali audio la memorizzazione dei campioni (nel caso di pi canali avviene in modo
interfogliato)
- #Campioni/sec: tasso di campionamento a cui il suono devessere riprodotto (campioni per canale)
- #BlockAlign: numero che rappresenta la dimensione in byte di un salpe frame (si moltiplica il numero dei
canali per la quantizzazione divisa per 8)
Ex: Q = 16 bit, mono #BA = 2; Q = 16 bit, stereo #BA = 4.
- AvgByte/sec: indica quanti byte devono essere riprodotti per secondo (si moltiplica il tasso di
campionamento per il valore del campo BlockAlign)
- chunk dei dati veri e propri (stringa data)
- 4 byte della lunghezza dei dati
- dati audio (campioni della forma donda
Supporti per laudio digitale
Fisicamente, i supporti possono essere magnetici, ottici o elettronici. Logicamente, ciascun supporto ha un
proprio standard per la struttura dei dati. Le caratteristiche pi importanti di un supporto sono: capacit
(contenuto dei dati) e velocit.
Esempio di un frammento audio di 1 minuto, con i Quanti byte occupano?
parametri di un CD: - campioni totali per 2 canali = 44.100 x 2 = 88.200
- tasso di campionamento a 44.100 campioni/sec - campioni in un minuto = 88.200 x 60 = 5.292.000
- quantizzazione 16 bit (2 byte) - byte per campione sono due, quindi i byte
- segnale stereo (2 canali) occupati = 2 x 5.292.000 = 10.584.000 (10+ MB)
Per calcolare la velocit di trasferimento invece:
- i campioni totali in 1 secondo sono 88.200
- ciascun campione occupa 2 byte
- i byte totali che occorre inviare ai convertitori in 1 secondo sono 176.400
- occorrono almeno 10 Megabyte per minuto di musica
- velocit di lettura di 176 kilobyte/sec
Il compact disc (CD)
Il CD un disco in policarbonato di 12 cm di diametro
con un buco in mezzo. La parte pi interna del disco e
quella pi esterna non contengono dati. I dati sono scritti
dal centro verso lesterno, seguendo un percorso a
spirale. Esterne allarea dati ci sono due aree di
informazioni aggiuntive: al centro c larea di entrata
e al bordo quella di uscita. La memorizzazione dei dati
si basa sulle propriet di riflessione della luce sulla
superficie del disco. Per poter rappresentare gli 0 e gli 1
occorre modificare delle aree, chiamate avvallamenti o
pit, creati mediante delle bruciature sulla superficie fatte
con un raggio laser. I pit sono disposti su tracce a
spirale (dal centro verso lesterno). La superficie tra i pit detta land.
Il policarbonato su cui sono impressi i pit ricoperto da un sottile strato di alluminio e da una pellicola
protettiva su cui viene applicata letichetta. La lettura avviene poi nel lato opposto al quale sono stati
impressi, quindi si rilevano le gobbe degli avvallamenti. La rotazione dei dischi avviene a velocit lineare
costante (CLV, usate dai CD-ROM e CD-audio) o a velocit angolare costante (CAV). Per mantenere la
velocit lineare, il disco rallenta verso le parti esterne; i dati rilevati vengono inviati ad un buffer (memoria di
passaggio) che li memorizza e i restituisce nello steso ordine di arrivo, spaziandoli ad intervalli di tempo
precisi. La tecnica CAV mantiene la velocit costante e riduce i tempi di ricerca della testina.
Il formato di scrittura dei CD molto articolato, perch questo formato contiene anche i codici di rilevamento
e correzione dellerrore, e i dati vengono rimescolati e sottoposti alla codifica EFM (*). Il rimescolamento dei
dati segue la tecnica di interfogliamento (i campioni di un gruppo vengono disposti in maniera differente
dalloriginale), cos in caso di errore in lettura la forma donda pi facile da ricostruire.
(*) La codifica EFM utile per ridurre gli errori. La sigla sta per Modulazione 8-14 ed evita la bruciatura dei
pit di piccole dimensioni minimizzando il numero di transizioni 0-1 e 1-0 in lettura (ossia riflessione non
costante). I codici di 8 bit diventano di 14 bit, rendendo il supporto pi robusto. Nella loro totalit, le
operazioni di controllo degli errori e rimescolamento sono denominate Codifica di Reed-Solomon Code -
CIRC. Il processo di memorizzazione inizia con la forma donda digitalizzata in parole binarie da 16 bit per
Pagina 15 di 25
campione e i campioni sono interfogliati tra canale sinistro e destro. Il primo byte viene spostato avanti di 4
frame, il secondo a 8, il terzo a
12, ecc... (rimescolamento).
Aggiungo altri 4 byte di parit e
il blocco diventa di 33 byte e per
ridurre ancora le possibilit di
errore si rimescolano i byte una
terza volta. A questo punto entra
in azione la codifica EFM e tutto
il frame viene convertito nel
formato EFM e in questo modo
abbiamo 462 bit (33 x 14). Si
aggiungono altri 24 bit di
sincronizzazione allinizio del
frame (i bit ora sono 486).
Infine a ogni sequenza di 14 bit
vengono aggiunti 3 bit. Il totale
588 bit (partendo da 192 bit).
Le informazioni extra contenute nelle aree di entrata (lead in area) e di uscita (lead out area), oltre che
nellarea dati, si conformano a due modalit fissate:
- modalit 1: linformazione dellarea di entrata consiste nel numero di tracce e il tempo di inizio assoluto di
ogni traccia, mentre nelle aree di programma e di uscita le informazioni consistono nel numero di traccia,
indice, tempo della traccia e tempo assoluto;
- modalit 2: include anche il catalogo del disco e altre informazioni.
Il lettore CD legge ogni frame a 4.323.529 bit/sec.
Digital Versatile Disc (DVD)
Il DVD un formato versatile e capace, e rappresenta il supporto che nel futuro verr usato dalla maggior
parte dei produttori di contenuti multimediali, il DVD-Audio infatti un grande competitore del Super Audio
CD della Sony e di Philips. Entrambi lavorano a 96.000 campioni/sec di 24 bit (i CD lavorano a 44.100 e 16
bit).
CD e DVD, somiglianze e differenze:
- hanno lo stesso diametro e lo stesso spessore
- sono basati su una tecnologia laser per la lettura e hanno la traccia a spirale
- le tracce del DVD sono meno distanti e i pit sono pi piccoli
- la capacit del DVD-ROM supera di 4 volte
- linformazione sul DVD disposta su pi livelli che possono essere letti in modo distinto; ci sono due
modalit: PTP (Parallel Track Path, le tracce su entrambi i livelli vanno dal centro verso lesterno) e OTP
(Opposite Track Path, le tracce vanno in direzioni opposte)
- i DVD possono avere due facce, ci raddoppia la sua capacit (essendo uno strato troppo sottile se n
aggiunto un altro)
- il DVD impiega tecniche pi efficienti di correzione degli errori che portano ad avere pi spazio per i dati
Il DVD-Audio corrisponde al CD-DA e il suo principale competitore il Super Audio CD (SACD) di Sony e
Philips.
Le caratteristiche principali del DVD-Audio sono:
- audio di qualit multicanale con protezione - possibilit di contenuti extra (testo, menu, video,
- compatibilit di lettura tra DVD-Audio e CD ecc)
- possibilit di scegliere livelli di qualit e canali - navigazione dei contenuti semplice (interfaccia
- apertura verso nuove tecnologie agevole)
- possibile connessione a Internet
Per quanto riguarda il Super Audio CD, una delle maggiori innovazioni che la parte del disco ad alta
densit viene codificata con il formato Direct Stream Digital (DSD) che possiede un tasso di campionamento
altissimo, che porta a eliminare le operazioni di filtraggio del sovracampionamento.
6. La compressione audio
La compressione audio larte di minimizzare le risorse per i dati audio. I suoi obiettivi principali sono la
riduzione della memoria occupata e dei tempi di trasmissione, oltre che allavere una buona qualit in
confronto allaudio non compresso. Occorre quindi individuare quale sia il numero minimo di bit per
rappresentare il segnale in modo che la riproduzione sia trasparente, ossia che anche orecchie sensibili
non riescano a distinguere il segnale originale da quello ottenuto dopo la decompressione.
Pagina 16 di 25
La compressione raggiunge il suo apice con il successo dei Compact Disc che ha portato alla luce i vantaggi
dellaudio digitale (alta fedelt delle copie del segnale, robustezza del supporto e gamma dinamica estesa)
ma anche i suoi svantaggi (alto tasso di trasferimento dati e quindi molto spazio occupato - 10 Megabyte per
1 minuto di musica stereo).
Le operazioni di compressione (encoding) e decompressione (decoding) del segnale sono:
Durante la fase di compressione, i dati audio digitali (con campioni di 8 16 bit) vengono prelevati da un file e
trasformati in una sequenza di bit in modalit compressa rispetto alloriginale; durante la fase di
decompressione, si ricostruisce il segnale di partenza (nel caso della compressione senza perdita o
lossless) o si ricostruisce un segnale che suona come loriginale (nel caso della compressione con perdita
o lossy; pi efficace anche se la qualit non sempre eccellente). La differenza tra i due schemi si basa
sulla complessit degli algoritmi, che determina il tempo di computazione, e sulla qualit dellaudio
compresso e lefficacia di compressione.
La codifica usata dipende dallo schema di compressione che include pi tipi di elaborazione del segnale:
esistono degli standard (come MPEG-1, MP3) e degli schemi proprietari (PASC). Gli schemi di
compressione vengono implementati in CoDec (Coder/Decoder) che sono delle librerie software che,
installate su un calcolatore, consentono di comprimere e decomprimere nella modalit corrispondente.
Schemi di compressione semplice
Sono schemi lossy che si basano su algoritmi non sofisticati e che sono di rapida esecuzione.
Compressione del silenzio
utile in segnali in cui ci sono spesso delle pause o delle intensit vicine allo 0. Il silenzio consiste in
sequenze di campioni intensit nulla (o quasi) che possono essere compressi usando un algoritmo simile a
RLE (Run Length Encoding), uno schema di compressione di tipo lossless che raggruppa una serie di
elementi omogenei con un contatore (dddddddhhhhhhhhyyyyyyyyy diventa 7d8h9y) risparmiando spazio.
Esistono due casi di perdita di informazione nella compressione del silenzio:
1. quando si indica una soglia di intensit sonora sotto la quale il segnale viene interpretato come silenzio;
2. quando si determina un minimo numero di campioni forti che chiudono una sequenza di silenzio, ed
importante perch in una sequenza, ad esempio, di 15 campioni deboli, 2 forti e altri 13 deboli, i 2 forti
potrebbero essere eliminati insieme agli altri, invece bisogna interpretarli come 15+2+13
Codifiche -law e A-law
La codifica -law utilizzata in Nord America e in Giappone per i servizi voce ISDN (telefonia digitale), per
far s che laudio sia sufficientemente compresso per essere inviato su questo tipo di linea (in Europa in
uso la codifica A-law, sempre con lo stesso intento).
La sua quantizzazione di tipo logaritmica e la sua gamma dinamica di 14 bit, con una codifica a 8 bit
e bitrate di 64 kbps.
Questo tipo di codifica comprime i campioni in modo non lineare, e da 16 bit li fa diventare di 8 bit. La non
linearit si pu notare dal fatto che i campioni di forte intensit vengono compressi in pochi valori di
codifica. La formula inversa, la decompressione, porta a dei valori approssimati (a volte in maniera
grossolana).
y il segnale da comprimere, x il segnale in input (originale).
La prima formula quella di codifica, e intende portare i valori da un certo intervallo (colonna campione
originale della tabella) a un altro intervallo (colonna nuovo campione della tabella). Il valore di x stato
standardizzato tra -1 e +1 (colonna centrale).
Pagina 17 di 25
Le formule, sia di compressione che di decompressione, sono due: una per i valori positivi (x>0 o y >128) e
una per i valori negativi (x<0 o y<128). La decompressione asimmetrica.
Codifica ADPCM
La PCM Differenziale Adattiva un metodo che codifica le differenze tra i campioni e adatta le differenze
a uno specifico segnale audio in input. Questa codifica sfrutta il fatto che campioni adiacenti sono simili nel
valore e quindi, invece di rappresentare ogni singolo campione audio (come nella codifica PCM),
rappresenta la differenza tra un campione e un valore deciso in base al campione precedente.
Compressione:
X[n] il segnale in input; n il numero di campione; Xp[n] sono i campioni ricostruiti o predetti; D[n] sono le
differenze; C[n] loutput della codifica (differenze quantizzate)
Il campione in input diviene un campione con il segno + e ad esso viene sottratto il campione predetto. La
differenza sar positiva o negativa a seconda se il campione inferiore o superiore a quello predetto.
Nel dettaglio, il Quantizer prende i primi 4 bit dei 16 di cui composto il segnale e produce la prima
differenza quantizzata. Questa anche loutput della codifica, che viene ripresa ed emessa in circolo per
calcolare il prossimo valore predetto. Quindi, continua il circolo e il Requantizer (adattativo) traduce la
differenza quantizzata in una nuova quantizzazione. Il valore quantizzato Dq[n] viene addizionato al
campione predetto al passo precedente, che ricostruisce il campione Xp[n] (il valore predetto a posteriori per
X[n]). Il Predictor usa questo valore per costruire il valore predetto per il prossimo campione (Xp[n-1]), che
viene sottoposto a una somma per poi tornare indietro ed essere scritto nel file.
Decompressione:
Funziona come un meccanismo simmetrico. Le differenze quantizzate vengono ri-quantizzate con lo stesso
meccanismo di Requantizer e addizionate al valore Xp[n-1]. Il risultato la sequenza ricostruita di Xp[n].
Lo schema ADPCM reale pi complesso in quanto include anche: la formattazione della sequenza C[n],
ossia il bitstream (utile per il recupero degli errori di decodifica), informazioni aggiuntive e ladattativit del
processo al segnale in input.
Per comprendere ladattativit al segnale di input,
possiamo vedere unimplementazione dello schema
ADPCM, ossia lalgoritmo IMA ADPCM. Il suo
obiettivo quello di selezionare un algoritmo di
compressione audio in grado di produrre un rapporto
discreto di compressione, che potesse permettere
una decodifica software in tempo reale.
Il valore predetto dal Predictor il valore decodificato
del campione audio precedente. Il Predictor IMA non adattativo e permette di risparmiare sulle informazioni
aggiuntive (necessarie per la ricostruzione del campione).
Ladattativit di IMA ADPCM presente solo nel processo di quantizzazione. Lalgoritmo si deve adattare al
segnale in input variando il passo di quantizzazione (che determina le dimensioni delle regioni di
Pagina 18 di 25
quantizzazione). Se la differenza piccola allora il passo viene assottigliato, se grande viene ampliato. I
possibili passi sono contenuti in una tabella di 88 voci.
Lalgoritmo di codifica mantiene un indice sulla tabella delle dimensioni dei passi di quantizzazione detta
seconda tabella di lookup. La tabella di lookup nelle immagini legato al concetto di palette.
Schemi di compressione di tipo percettivo
Le codifiche di tipo percettivo, di tipo lossy, comprimono il segnale eliminando quelle parti che il nostro
apparato uditivo non percepirebbe. Esiste un dibattito in corso riguardo alla qualit che si pu ottenere con questi
schemi, poich il segnale di qualit CD-Audio di qualit limitata e sarebbero necessarie frequenze di campionamento
oltre i 55 kHz (invece che 44 kHz). La compressione di tipo percettivo anche alla base delle tecniche
multicanale di spazializzazione del suono (es. Dolby).
La soglia assoluta delludibilit
La soglia assoluta delludibilit caratterizzata dalla quantit minima di energia che deve trasportare un
suono puro perch un ascoltatore riesca a percepirlo, determina quale parte dello spettro del suono
complesso non udibile. Con il diagramma di Fletcher e Munson si evidenzia la curva isolata a 0 foni,
ossia la solita assoluta di udibilit, per cui tutti i suoni che si trovano al di sotto di questa curva non
verranno uditi e quindi possono essere eliminati senza introdurre distorsioni nel segnale.
La soglia approssimata dalla funzione non lineare in cui data una certa frequenza e una soglia di
udibilit, si divide la frequenza per 1000, elevata a potenza e moltiplicata per fattori costanti. Applicata alla
compressione del segnale pu essere interpretata come il massimo livello di energia.
Le bande critiche e il mascheramento simultaneo
Lorecchio interno un analizzatore dello spettro del segnale che lavora in modo tonotopico (assegna un
suono puro a unarea specifica della membrana basilare). Lanalisi spettrale sulla membrana non segue
una scala lineare sulle frequenze ma si possono identificare delle bande di frequenza, dette bande
critiche. Nel passaggio da una allaltra possiamo notare un cambiamento repentino della percezione
uditiva, detto mascheramento. Se la banda del rumore si estende oltre i confini della banda critica si
percepisce un aumento del volume. Il sistema uditivo si pu descrivere come un banco di filtri
passabanda.
Il mascheramento simultaneo quel fenomeno per cui un segnale debole intensit (mascherato) non
viene percepito a causa della presenza simultanea di un segnale di intensit superiore (mascheratore).
La condizione necessaria per il mascheramento la frequenza dei due segnali abbastanza vicina. Il
comportamento di un segnale mascherato viene descritto da una soglia di mascheramento, per cui tutti i
segnali che sono al di sotto della soglia non si possono udire. Tra i segnali che non si possono udire ci
sono sia segnali naturali di debole intensit sia artifici introdotti con la digitalizzazione. La soglia di
mascheramento dipende da alcuni fattori, come intensit e frequenza del mascheratore, Le soglie di
mascheramento che dipendono dai toni mascheratori hanno la forma di una campana con una curva di
ascesa ripida sul lato delle frequenze pi basse e una curva di discesa dolce sul lato delle frequenze alte.
Quindi, le frequenze pi alte del tono mascheratore vengono mascherate pi facilmente.
Il rumore un mascheratore pi efficace dei toni singoli in quanto la distanza tra mascheratore e
mascherato inferiore. Entrambi i tipi di soglia di mascheramento giocano un ruolo negli schemi di
compressione di tipo percettivo. Quando nel segnale originale sono presenti pi segnali mascheratori (che
non si mascherano a vicenda) possibile costruire una soglia di mascheramento globale a partire dalle
singole soglie. Le relazioni sono espresse in
dB. TH la soglia di mascheramento del
rumore (noise treshold), THT la soglia di
mascheramento del tono (tone treshold), E
e ET sono i livelli di energia del
mascheratore, B il numero di banda
critica, K un parametro che varia da 3 a 5
dB. Le soglie di mascheramento sono
considerate delle funzioni su una scala in
bark (una scala di frequenza sulla quale
distanze uguali corrispondono distanze
percettibilmente uguali) delle distorsioni
appena percettibili (JND - just noticeable
distorsions), cio le misure psicoacustiche
che determinano le minime variazioni
spettrali che il nostro sistema uditivo riesce a
cogliere.
Se la compressione del segnale determina una variazione dello spettro (inferiore alla JND relativa), la
distorsione non verr percepita. Lapplicazione delle soglie di mascheramento nel contesto della
Pagina 19 di 25
compressione comporta quindi la classificazione del mascheratore in un rumore (o tono), quindi il calcolo
delle soglie e quindi luso dellinformazione per ridisegnare lo spettro del rumore sotto la soglia di
mascheramento (o JND). Al ridisegno contribuisce anche la soglia assoluta delludito.
Questo diagramma rappresenta un singolo tono di
mascheramento che si trova allinterno di una banda
critica. In ascissa la frequenza e in ordinata lintensit
in dB (in scala logaritmica): Il tono di
mascheramento genera una certa soglia di
mascheramento (la linea spezzata). La figura riporta
3 possibilit di rapporto segnale rumore (SNR) per
m-1, m, m+1 bit. Man mano che i bit aumentano,
anche SNR aumenta. La figura riporta nel dettaglio
lSNR nel caso di m bit. LSMR il rapporto
segnale/maschera (distanza tra livello del tono
mascheratore e minima soglia di mascheramento) e
lNMR il rapporto rumore/maschera (distanza tra livello di rumore e minima soglia di mascheramento).
Il rapporto SNR dato dalla somma di SMR+NMR. Per ogni campione scelgo un tot di bit che mi copre la
parte non udita. Aumentando i bit aumenta la frequenza e si scende dal tono mascheratore, ma se tolgo bit
rappresento di conseguenza meno parte del segnale. Per risparmiare spazio non basta solo eliminare una
parte del suono, ma meglio rendere il segnale ripetitivo per applicare le tecniche di compressione (ex: su
Audacity faccio un tono sinusoidale singolo, non posso mascherare nulla perch lunico tono che c).
Mascheramento temporale
Il mascheramento temporale, formato da un pre-mascheramento, mascheramento e post-
mascheramento, crea un problema: il fenomeno dei pre-echi, ovvero un rumore che si diffonde prima
dellevento che causa il rumore stesso e che si spalma per tutta la durata, rendendo lerrore percepibile.
Levento che causa questo rumore solitamente un incremento rapido di intensit sonora, in cui aumenta
la gamma dinamica ma non aumentano i bit a disposizione.
Entropia percettiva
Gli schemi di codifica che si basano sul dominio della frequenza risultano pi efficaci. Se si riesce a
riprodurre il bitrate necessario a rappresentare il mascheramento completo del rumore e della distorsione,
lo schema di compressione produrr una codifica percettivamente trasparente, cio il segnale decodificato
sar indistinguibile dal segnale originale. Non sempre per possibile applicarlo nella pratica, anche
perch il mascheramento non un fenomeno realmente conosciuto nel dettaglio.
Uno schema generale di compressione di tipo percettivo
E uno schema asimmetrico (decompressione per pi semplice perch veloce) e vale per tutti i formati.
Allinizio il segnale viene segmentato in input, poi:
Pagina 20 di 25
1. analisi tempo/frequenza: calcola lo spettro, analisi condotta o da una trasformata unica o da un banco
di filtri che suddivide il segnale in sottobande
2. analisi psicoacustica: disegna sullo spettro le curve di mascheramento, opera una misura della
distorsione percettiva producendo le soglie di mascheramento, che permettono di determinare il
massimo ammontare di distorsione armonica che si pu introdurre nel segnale durante la fase di
quantizzazione. Il modello psicoacustico calcola anche il rapporto SMR
3. allocazione dei bit: il rapporto SMR utilizzato per decidere quanti bit vengono allocati per la
quantizzazione del segnale in ogni banda, per minimizzare il rumore di quantizzazione
4. quantizzazione e codifica: decide come quantizzare le bande, usa i bit allocati per stabilire le
dimensioni delle regioni di quantizzazione e codificare il segnale
5. compressione senza perdite basata sullentropia: compressione di Huffman, rimuovono ridondanze
ancora presenti nel segnale (anche attraverso schemi di tipo lossy)
6. codifica del bitstream: dati memorizzati non in ordine cronologico, compressi e mischiati per evitare
errori
7. bitstream: non ha niente a che fare con il file originale
8. decodifica del bitstream: dati rimessi nellordine corretto
9. ricostruzione dei campioni: decompressione, somma le sottobanco
10. ricostruzione dei campioni nel tempo
Lo standard MPEG e il formato MP3
MPEG (Motion Picture Coding Experts Group) un gruppo di lavoro delle organizzazioni internazionali
ISO/IEC per lo sviluppo di standard, tra i quali rappresentazione codificata di video e audio.
Una delle caratteristiche pi importanti di questi standard il principio di minimizzare gli elementi normativi
allinterno dello standard, in particolare quelli imposti sono il formato dellaudio compresso e la scrittura
dellalgoritmo di codifica.
Lo standard MPEG1 di compressione audio divenuto uno standard universale in vari settori, lavora su 3
livelli di compressione, detti layer : layer I (algoritmo di base), layer II e III (migliorano i moduli dello
schema).
Struttura base asimmetrica:
- il segnale audio viene convertito in spettro tramite un banco di filtri
- ogni componente spettrale viene quantizzata e codificata con lo scopo di mantenere il rumore di
quantizzazione sotto la soglia di mascheramento
- i campioni di frequenza vengono raggruppati in blocchi e per ciascun blocco si applica la comparino
- tutti i campioni del blocco vengono amplificati di un fattore scala determinato a partire dal valore di picco di
blocco e si decidono i bit da allocare per ogni blocco, in base al modello psicoacustico, minimizzando la
distorsione e il rumore
- i bit determinano il numero delle regioni di quantizzazione
- la somma dei bit allocati per ciascuna sottobanda non deve eccedere il massimo bitrate fissato a priori
- i codici, il fattore di scala e linformazione sullallocazione dei bit vengono compressi mediante un
algoritmo di Huffman
- il decoder, dopo aver ricomposto il bitstream, usa il banco di filtri e per ogni blocco di campioni di
frequenza ricostruisce un blocco di campioni audio
- il modello psicoacustico calcola i rapporti SMR
Algoritmo di Huffman:
Si selezionano due caratteri, x e y, con le frequenze minime, si rimpiazzano
x e y con un singolo carattere (fittizio) z, la cui probabilit la somma delle
probabilit di x e y, si torna al passo 1 con unalfabeto ridotto, in cui z
sostituisce x e y, finch l'alfabeto conta un solo elemento di frequenza
100% .
Layer I : Lanalisi tempo-frequenza di questo layer usa il banco di filtri che alla base di tutti gli altri layer;
esso divide il segnale audio in 32 bande di frequenza della medesima larghezza (0-31), ciascuna con 12
campioni. Il modello psicoacustico determina le soglie di mascheramento per ciascun blocco di campioni
(block coding). I filtri sono semplici, producono una buona risoluzione temporale ed una ragionevole
risoluzione in frequenza.
Lalgoritmo di allocazione dei bit : NMRdB = SNRdB - SMRdB
Pagina 21 di 25
Si ricerca la sottobanda (ciascuna da 0 a 15 bit) con il pi
basso rapporto NMR e si allocano i bit in quella
sottobanda; il processo si ripete finch non si possono
allocare pi bit, raggiungendo la massima trasparenza.
Esempio di allocazione di bit rispetto ai livelli di intensit
sonora nelle sottobanco e alla soglia globale di mascheramento:
I tre diagrammi mostrano rispettivamente intensit sonora per sottobanda

(o spettro di intensit), la soglia di mascheramento per sottobanda e i bit
allocati per sottobanda.
Alle basse frequenze i suoni sono molto intensi e poco mascherati, quindi
occorre allocare alcuni bit per la quantizzazione.
Alle alte frequenze invece si ha una debole intensit e un forte
mascheramento, per cui occorre un minor numero di bit (per le ultime bande
addirittura 0).
I bit allocati sono la differenza tra bande, ossia tra ci che dava lo spettro
(qui diviso in bande) e ci che d il mascheramento.
Layer II: Apporta lievi miglioramenti al layer I, i blocchi di campioni sono pi grandi e permette di utilizzare
pi bit per campioni. La rappresentazione pi compatta.
Layer III (MP3): Molte caratteristiche nuove, tra cui un banco di filtri ibrido con un modulo addizionale
basato sulla Trasformata Discreta del Coseno Modificata (MDCT), che permette una partizione dello
spettro pi simile alle bande critiche nelle basse frequenze. Ciascuna delle 32 sottobande pu essere
suddivisa 18 volte. Altre caratteristiche nuove sono la quantizzazione non uniforme, le bande dei fattori di
scala (bande raggruppate per uno stesso fattore di scala), luso della codifica di Huffman (per ottenere una
maggiore compressione) e la creazione di un luogo in cui conservare i bit in eccesso.
8. Standar MIDI file e sequencer.
Il MIDI non uno standard ma lo diventato di fatto. Mette in comunicazione gli strumenti musicali
con un computer. La musica si pu rappresentare con la forma donda, dominio del tempo e della frequenza,
ecc.. ma si pu anche rappresentare in un altro modo: di volta in volta scelgo la forma di rappresentazione
che mi utile.
- livello fisico (forma donda con ampiezza, frequenza, fase, ecc..) ed quello usato da Audacity.
- livello percettivo: quello che percepiamo. Pi alta la frequenza pi sentiamo forte il suono. Il timbro
rispecchia invece la forma dellonda. un modo di rappresentazione pi astratto.
- (pi astratto) livello operativo: d per scontata la sorgente sonora e descrivo qual il gesto esecutivo e il
processo che determiner i livelli che stanno sotto. Ad esempio come mi muover sulla tastiera di un
pianoforte e che tipo di suoni verranno prodotti (percepiti come timbro e poi con una certa forma donda)
- livello simbolico ancora pi astratto, dice la successione di eventi, non come li devo suonare.
Di solito i musicisti lavorano a questo livello (producono la partitura) e si chiama Notazione di Pratica
Comune.
- livello strutturale dove io posso scoprire che nella partitura ci sono settori della partitura
(esempio differenza tra strofa e ritornello) e ha una propria grammatica, ad esempio come fatta una
sinfonia, una ballata, ecc.. sono eventi raggruppati in strutture.
Lesecutore pu essere ad esempio MuLab. Li passa a uno strumento (es. basic sync tac) e lo strumento li elabora a
pressione sonora (riesco a tirare fuori una forma donda). Questo il livello fisico. Lambiente un nuovo strumento che
permette di far arrivare allo spettatore un altro campo sonoro, una nuova forma donda e lascoltatore, con un altro
processo, elabora che gli arrivato secondo il suo livello culturale.
Pagina 22 di 25
Il MIDI si trova tra la rappresentazione simbolica e i controlli gestuali e fa sia la rappresentazione simbolica
che quella operativa. Il MIDI rappresenta la performance e gli eventi sonori, una forma di rappresentazione
sofisticata ed un protocollo per la comunicazione con un oggetto digitale. Esso rappresenta una
performance musicale come dati che possono essere letti e scritti.
I dati MIDI vengono registrati a partire dalla performance
musicale e si ricrea la performance re-inviando i dati lungo il
cavo MIDI alla tastiera o alla scheda audio. Una volta registrati i
dati (le informazioni gestuali, di controllo non le forme donda)
posso ricreare la performance. Il MIDI non audio! Rappresenta
un livello simbolico-operativo. E le performance sono diverse in
base allo strumento usato. Allinizio per creare pi timbri
bisognava emettere pi suoni. Per emettere pi suoni bisognava
connettere pi tastiere (ogni marca aveva il suo timbro). Nasce unintuizione: come faccio a far suonare due
note uguali contemporaneamente? Per collegarle con un cavo ho bisogno di una comunicazione: il MIDI
(che tasto schiaccio, per quanto, ecc..).
Il successo dovuto al basso costo, alle esigenza di avere uno standard, per comunicare tra pi marche
e per comunicazione tra strumenti e altre dispositivi elettronici (anche le luci). I collegamenti fisici sono
di varia natura.
Ci sono tre aspetti importanti del MIDI: 1. linterfaccia detta DIN, hardware per la comunicazione tra i
dispositivi: connettori, porte, dispositivi di I/O , 2. il protocollo di comunicazione con istruzioni per un
sintetizzatore ed un sintetizzatore che genera i suoni effettivi e 3. formato di file su cui archiviare i dati
(Standard MIDI File, SMF).
1. Ci sono delle porte: MIDI out (uscita) e MIDI in (entrata). I cavi MIDI vanno dallelaboratore ai vari
sintetizzatori (Synth, MIDI expander, Drum machine). La
velocit dellhardware MIDI di 31.250 bit/sec, 30kb. Non
possiamo comunicare oltre quei dati. Se le esecuzioni sono
troppo complesse non si possono eseguire con MIDI. (Pi
tracce = pi dati)
In generale ci sono 3 porte: in, out, thru (che fa passare i
messaggi). I pacchetti sono fatti da 10 bit (8+2). Il primo lo
start bit e lultimo stop bit.
Thru Box: io lancio il messaggio e questo lo distribuisce a tutti
e 3. PatchBay: ho tanti in e tanti out, trasmette e riceve. una
matrice (so chi comunica con chi).
Protocollo di comunicazione
Il protocollo MIDI stabilisce la struttura dei messaggi e quali informazioni i messaggi devono trasmettere (no
come memorizzare). Si comunica attraverso messaggi che non rappresentano una forma donda ma solo
informazioni di controllo (NoteOn) (schiaccio e produco una nota).
- Il canale una via di comunicazione per veicolare messaggi agli expander, un modo per arrivare al
dispositivo di sintesi; i canali sono 16 (massima ricchezza timbrica), i device possono rispondere a 1 o pi
canali. Ai canali sono collegati tutti i dispositivi di sintesi.
- Le chiavi del MIDI sono 128, sono le note possibili.
Sono tante chiavi (il pianoforte ne ha 88). Per ogni
chiave ci sono 7 bit.
- La song una sequenza di messaggi MIDI ed
registrata sulla memoria di un device MIDI o su un MIDI
file.
- La traccia un flusso strutturato e autonomo di
messaggi MIDI, distinto logicamente da altre tracce,
uno strumento di editing, non fa parte del MIDI ma
viene utilizzata nei programmi come MuLab. Si possono
lavorare sulle tracce e si possono avere pi parti degli
strumenti e si pu ri-orchestrare un brano. Concetto utile per lavorare sul suono (assegno alla stessa
parte uno strumento diverso). Pi tracce possono finire nello stesso canale. Le tracce possono essere
mappate sui canali, possono essere spedite
- La patch lidea di strumento. Ci sono al massimo 128 patch (timbri) che occupano 7 bit. Ogni marca ha
il suo banco (bank) di suoni. Ogni banco ha 128 patch con n banchi -> 128n patch
Nel mondo della partitura non c il tempo. Bisogna memorizzare una temporizzazione nel MIDI. infatti ogni
messaggio MIDI include linformazione temporale timestamp ed esiste un orologio chiamato clock con unit
Pagina 23 di 25
di misura (timebase) PPQ (parti per quarto) o tick (con valori tipici di 24, 96, 480), perch la nozione di
tempo in musica relativa, non si pu misurare i timestamp in secondi, ma con un sistema musicale. Il
quarto il nostro bit. Metronomo a 60 vuol dire che ci sono 60 bit al minuto. Si pu accedere a una parte pi
piccola del quarto.
Il tempo effettivo si ottiene convertendo la timebase, ovvero collegando il PPQ con il BPM (beat per minuto,
40-240). Ho un certo numero di bit al minuto, ogni bit si divide per una certa parte per quarto (Ex: 120 BPM,
T = 24 tick. 120 BPM = 2 beat/sec ovvero 0.5s per 1 beat - 24 tick in un beat. 0,5 / 24 = 21msec). Ogni
24esimo di bit parte il MIDI clock message, che indica quando devono essere eseguiti i vari comandi. Non
partono solo le note ma anche i messaggi di sincronizzazione; se voglio sincronizzare il MIDI con altre
risorse multimediali devo fare unaltra sincronizzazione. Il timecode un altro strumento standard ed fatto
dal formato ore : minuti : secondi : frame. Se vogliamo che il
MIDI si colleghi a un video bisogna convertire il file in quel formato.
(I fotogrammi sono diversi da Europa a America). Ogni quarto di
fotogramma viene mandato un messaggio SMPTE. Per
rappresentare i 4 pezzi di rappresentazione (ore minuti secondi
fotogrammi), il codice SMPTE viene tradotto in messaggi: quante
ore (8 bit - non sempre), quanti minuti, quanti secondi, quanti
frame. La struttura generale di un messaggio MIDI : status byte,
che identifica il messaggio, e 1 o 2 Data byte. Gli Status iniziano
con 0 e i Data con 1.
Ci sono tanti tipi di messaggi:
- messaggi di canale: destinati a un singolo canale
channel voice channel mode
- messaggi di sistema: riguardano lintero sistema
real time system exclusive (ogni casa di produzione pu modificare a suo piacimento)
Il Note On il messaggio pi importante, indica che sta iniziando una nota. Il Note Off disattiva una nota.
Ogni messaggio di tipo Note On e Note Off sono accompagnati da 2 byte: numero nota e velocity (forza
con cui si pigia un tasto, ampiezza ed eventualmente timbro; poco significativa per il NoteOff). Note On sono
quindi 3 byte: tipo di messaggio e 2 dati. Due note insieme non partono contemporaneamente, hanno due
Note On da eseguire con lo stesso timestamp. Il terzo messaggio di canale aftertouch, che rileva il
cambio di pressione, ha effetti diversi a seconda del device usato (ad esempio nello sassofono posso
cambiare la pressione della mia nota con determinati tasti sensibili). Produce 2 Data byte, quindi ho 2 byte
che mi danno un dato. Pressione del canale (non modifico una nota sola). Risparmia traffico, il channel
pressure.
Pitch Bend Change un messaggio che tratta le modulazioni del tono, cambia la frequenza del suono. 2
Data byte: velocity e variazione (fin dove arrivo, quanto mi distanzio dalla frequenza del suono attuale).
Il Program Change cambia lo strumento, per sintetizzatori con pi timbri. 1 solo Data byte: cambio del
timbro prodotto dal generatore (patch). Un nuovo standard, il General MIDI, che permette di avere lo stesso
strumento con lo stesso numero associato. Il General MIDI vuole che tutti i dispositivi aderiscano a certi
standard (es. polifonia).
I controller continui hanno la funzione di controllo, switch on/off riguarda il pedale di sostegno o spegne
tutti i Note On attivi. E una codifica di ottimizzazione di traffico sulla rete.
I Channel Mode, decidono come operano i generatori di suoni. [non sono fondamentali] Ci sono 4 modi
possibili: uno OMNI e pu essere on/off, gli altri sono poly/mono.
I messaggi di sistema si riferiscono a tutti i dispositivi e sono controlli generali come quello del tempo; si
definiscono master e slave device. Hanno 3 sottocategorie: common (2 Data byte che ci dicono a che
numero di bit della song siamo arrivati (abbiamo 214 possibilit) sarebbe ci che ci permette di posizionare
la barra in MuLab), real time (sincronismo (es. stop)), exclusive (per i costruttori). Active Sensing riguarda
il fatto che il dispositivo sia presente (per capire se il dispositivo in questione acceso o no).
Standard MIDI file
un formato per memorizzare sequenze MIDI, riconosciuto da tutti i programmi musicali. Contiene le
informazioni necessarie per lesecuzioni. Questo standard stato creato perch nel MIDI assente il
concetto di tempo, questo infatti affidato a un esecutore o a un sequencer che generano messaggi in
istanti be precisi. Esso permette di scambiare dati MIDI temporalmente (time-stamped) ed eseguire una
sequenza di messaggi su tutti i dispositivi MIDI, anche se basati su differenti architetture hardware.
Ogni evento MIDI preceduto da un numero (timestamp) che rappresenta lintervallo (delta-time) di tempo
che separa un evento dal precedente. Lintervallo pu essere calcolato in tick (di durata relativa), indicando
quanti impulsi di clock il dispositivo deve aspettare per attivare il prossimo messaggio. La soluzione,
allinterno del MIDI-file, prevede lindicazione sia del tempo (tempo) sia della divisone (division o
Pagina 24 di 25
timebase). Il tempo non viene indicato in BPM (battiti/quarti per minuto) ma in microsecondi. Un quarto
dura 0,5 secondi, ossia 500.000 microsecondi. La divisione invece indicata attraverso il numero di tick
che suddividono un quarto. Il secondo pu essere suddiviso anche in frame o subframe.
Eventi e meta-eventi
Sono eventi tutti i messaggi MIDI che gi conosciamo (Channel Message e System Message). I meta-
eventi sono informazioni aggiuntive che vengono memorizzate sul file e che non sono definite dal protocollo.
La ridefinizione del messaggio di System Reset permette la distinzione tra eventi e meta-eventi e di
riportare tutti i dispositivi del sistema alle condizioni di partenza.
Rappresentazione in quantit di lunghezza variabile.
Alcuni numeri sono rappresentati nel MIDI-file in una forma particolare, chiamata quantit di lunghezza
variabile. Con questo sistema si possono rappresentare valori molto grandi. La rappresentazione consiste
nel frazionare il numero in pi pacchetti da 7 bit (nel caso il numero sia pi grande dei 7 bit a disposizione),
preceduti da un MSB che fa da riferimento per la codifica. Esempio: la codifica di 127 1111111 e possiamo
rappresentarla senza problema perch sono 7 bit. La codifica di 128 10000000 e richiede 8 bit. Quindi,
usiamo due pacchetti di 7 bit (14) e aggiungiamo davanti a ogni pacchetto un MSB 1 o MSB 0 (a seconda se
si tratta dellultimo pacchetto o no).
Tracce, chunk e formati
I chunk sono dei blocchi di informazione separata, ognuno dei quali costituito da un numero variabile di
byte. Ci sono due tipi di chunk: header chunk 14 byte, allinizio del file, dichiara formato, tracce e
divisione e il track chunk sequenza di eventi e meta-eventi di ogni traccia, dimensioni variabili .
Il formato di un MIDI-file pu essere di tre tipi:
- 0: tutte le informazioni sono contenute in ununica traccia. il formato base con la maggiore compatibilit;
- 1 : definisce pi tracce autonome da eseguire in simultaneit, il pi usato;
- 2 : memorizza linformazione su pi tracce separate ma sequenziali;
Ogni chunk inizia con lindicazione del type (header o track) e con lindicazione della lunghezza della sezione
dati successiva Type e lenght occupano ognuna 4 byte.
Il sequencer
Il sequencer un sistema di registrazione ed esecuzione dotato di una memoria programmabile, dove
vengon memorizzati i dati di controllo operativi necessari alla rigenerazione di eventi musicali. Spesso il
software un pacchetto con sequencer pi altre cose.
Pagina 25 di 25

Audio

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Audio

Transféré par

Droits d'auteur :

Formats disponibles

Tecnologie Digitali del Suono e dellImmagine: SUONO

1 - ACUSTICA. La natura del suono

Questa curva rappresenta le caratteristiche pi importanti delloscillazione nel tempo:

Il meato collega il padiglione con il timpano. La sua frequenza

Il ruolo dellorecchio medio duplice: propaga

Le vibrazioni del segnale percorrono

La perilinfa un liquido spesso che circonda la coclea, quindi martello/

Il segnale si pu rappresentare nel dominio della frequenza

LITD la differenza di tempo (o di fase - se si tratta di sinusoidi)

LIID la differenza di ampiezza (o di spettro) tra le due orecchie.

Ruolo della testa: con le alte frequenze, la testa getta unombra

Questa tabella riassume i formati audio pi comuni

Il formato pi diffuso il WAVE di Microsoft che supporta pi livelli di quantizzazione, di tassi di

I tre diagrammi mostrano rispettivamente intensit sonora per sottobanda

Vous aimerez peut-être aussi