Vous êtes sur la page 1sur 0

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n.

2 - Dicembre 2005 9 7
Tecnologie di codifica audio e video
in ambiente fisso e mobile
GIOVANNI CORDARA
ROSARIO DROGO DE IACOVO
GUIDO FRANCESCHINI
MAURO QUAGLIA
L art ic o lo d e s c rive i p i im p o rt an t i s t an d ard e s is t e n t i n e l c am p o d e lle
c o d ific h e au d io / vid e o e d illu s t ra i p rin c ip i alla b as e d e l fu n zio n am e n t o
d e g li alg o rit m i d i c o m p re s s io n e , c o n u n ap p ro fo n d im e n t o s u lle t e c n ic h e
d i c o d ific a au d io / vid e o allo s t at o d e ll art e . Ve n g o n o in o lt re d e s c rit t e le
m o d alit d i ad o zio n e d e lle t e c n ic h e d i c o d ific a n e i d iffe re n t i c o n t e s t i
ap p lic at ivi e d in fin e vie n e rip o rt at a u n a b re ve p an o ram ic a s u lle t e c n o lo g ie
in fas e d i s vilu p p o c h e , in fu t u ro , p o t ran n o p e rm e t t e re la re alizzazio n e d i
s c e n ari ap p lic at ivi in n o vat ivi.
1. I nt r oduzi one
Attualmente, esistono numerosi servizi di nuova
generazione che s fruttano architetture dis tribuite
per erogare contenuti digitali compres s i s u reti e
te rmi nal i e te roge ne i . In tal e c onte s to ope rano
numeros i enti di s tandardizzazione, che regolano
gli aspetti tecnologici relativi agli algoritmi di codi-
fica e tras mis s ione dei s egnali audio e video, per
ciascuno degli scenari applicativi identificati.
Gli algoritmi di compressione definiti dagli stan-
dard s ono molteplici, volti al s oddis facimento di
differenti requisiti: tuttavia, essi si basano su prin-
cipi analoghi. Dopo una descrizione dei pi impor-
tanti standard esistenti, larticolo analizza i principi
alla base del funzionamento degli algoritmi di com-
pressione, con un approfondimento sulle tecniche
di codifica audio/video allo s tato dellarte. Nel
seguito si descrivono le modalit di adozione delle
tecniche di codifica nei differenti contesti di servi-
zio. Infine s i riporta una breve panoramica s ulle
tecnologie in fase di sviluppo, che potranno intro-
durre, in futuro, nuove funzionalit e permettere la
progettazione di scenari applicativi innovativi.
2. Gl i st andar d di codi fi ca audi o e vi deo
Il bisogno di uno standard risponde ad una esi-
genza es s enziale per tutte le applicazioni che s i
fondano sulla comunicazione tra pi peer: lintero-
perabilit. Li nte rop e rab i l i t i l re q ui s i to c he
esprime la necessit di scambiare qualunque tipo
di informazioni s enza barriere tecnologiche, inter-
facciando e rendendo interlavoranti sistemi prodotti
da differenti manifatturiere. Gli s tandard s pecifi-
cano i tool necessari a garantire interoperabilit e
ne governamo levoluzione funzionale e prestazio-
nale definendo roadmap di evoluzione che consen-
tano ladozione dei pi recenti progres s i tecnolo-
gici. Loggetto della standardizzazione rappresenta
il minimo indispensabile per assicurare interopera-
bilit, ma s alvaguarda la libert di azione delle
i ndus tri e , mante ne ndo ape rta l a pos s i bi l i t di
implementare aree non-normative e s timolando,
cos, la competizione e linnovazione.
As s econdando ques ti principi fondanti gli s tan-
d ard ne l c amp o d e l l a c od i fi c a aud i o e vi d e o
des crivono:
la sintassi di un bit stream codificato, cio la
T EC N O L O G I E
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
9 8 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
s e q ue nza d e i val ori b i nari c he re nd ono un
flusso di dati conforme);
la semantica degli elementi sintattici, cio il loro
significato;
il processo di decodifica.
Gli s tandard non s pecificano invece larchitet-
tura ed il funzionamento degli encoder, che costi-
tuiscono indubbiamente la parte pi critica del pro-
cesso di compressione. Questo approccio sprona
lindus tria a ricercare s oluzioni innovative che
incrementino le pres tazioni, cons entendo la crea-
zione di valore aggiunto sui prodotti e assicurando
allo standard una evoluzione genetica pur nellam-
bito della conformit alla norma.
Lesistenza di uno standard ha importanti impli-
cazioni economiche per le realt che vi parteci-
pano, in quanto permette la suddivisione dei costi
e inves timenti e laccelerazione del proces s o di
industrializzazione.
Es is tono due tipi di s tandard: gli s tandard de
facto e gli standard de jure. Uno standard de facto
tipicamente originato dalla s ua capillare diffu-
sione e popolarit: in alcuni casi, un certo prodotto
o modello pu es s ere tanto diffus o e imitato da
diventare uno standard. In altri casi, invece, sia in
campo manifatturiero che commerciale, es is tono
specifiche studiate a priori che regolano lutilizzo e
la produzione di s is temi. A volte ques ti s tandard
sono obbligatori per legge e imposti dagli stati, a
volte sono fissati da accordi fra imprese o da asso-
ciazioni di consumatori ma non vincolanti per i pro-
duttori, che pos s ono s cegliere s e conformare ad
essi i loro prodotti o meno. Questi si dicono stan-
dard de jure.
MPEG (Moving Picture Export Group) ed ITU
(International Telecommunication Union) s ono i
principali enti di normativa che standardizzano tec-
nologie di codifica audio e video: costituiscono un
riferimento per altri enti come DVB (Digital Video
Broadcasting), ISMA (Internet Streaming Media
Alliance) e 3GPP, che utilizzano queste tecnologie
e le integrano con altri elementi per definire profili
di servizio per specifici contesti applicativi.
Da un lato quindi sono definiti standard di riferi-
mento, spesso comprensivi di un ampio insieme di
tool ed opzioni, che coprono un ampio spettro di
esigenze; dallaltro vengono definiti scenari di ser-
vizio pi verticali, soddisfatti combinando e profi-
lando in modo opportuno le tecnologie disponibili,
ivi incluse gli standard di codifica.
Nel cors o dellarticolo s ar des critto lo s tato
dellarte degli s tandard MPEG, s toricamente il
punto di riferimento tecnologico per il mondo della
codifica. Ladozione delle tecnologie di codifica nei
divers i ambiti applicativi, oggetto di attivit degli
enti sopra citati, sar oggetto di un capitolo a s.
2. 1 Il pr i nci pal e st andar d di r i f er i ment o: MPEG
MPEG (Moving Picture Experts Group) un
g rup p o d i l av oro c he op e ra al l i nte r no
dellInternational Organisation for Standardization
(ISO) e d e l l International Electrotechnical
Commission (IEC). Formalmente, rappres enta il
g rup p o 11 d e l Sub c ommi tte e 29 d e l J oint
Technical Committee 1: il suo titolo ufficiale, per-
tanto ISO/IEC J TC1/SC29/WG11.
Nato nel 1988, MPEG ha prodotto molteplici
standard: MPEG-1 (1993) ed MPEG-2 (1995), costi-
tuiscono i primi standard di successo per la codi-
fica audio e video. Grazie alla loro diffusione ed al
vas to utilizzo in prodotti commerciali e s ervizi,
come Video-CD, DVD, televis ione digitale, DAB
(Digital Audio Broadcasting), player e regis tratori
MP3 questi standard hanno promosso e consentito
il pas s aggio dai s is temi analogici a quelli digitali.
Sul l a b as e d i tal i s uc c e s s i , s tato re al i zzato
MPEG-4 (1998), nato con lobiettivo di migliorare le
prestazioni dei codificatori audio e video per poter
soddisfare requisiti di servizio innovativi e pi sfi-
danti, come quelli di videocomunicazione e tra-
smissione su reti a banda limitata. MPEG-4 intro-
duce alcune novit, in grado di allargare il contesto
applicativo rispetto agli standard precedenti: per-
mette di inserire in flussi video contenuti sintetici e
sottotitoli, creare scene multimediali contenenti pi
di un video o pi di un audio, codificare video non
rettangolari, s egmentare oggetti allinterno di una
ripresa video.
Nel 2001 stato pubblicato un nuovo standard,
MPEG-7, che modifica lorientamento del lavoro
del gruppo. Lobiettivo primario, conseguenza del
proliferare di contenuti multimediali digitali, non
pi quello di s pecificare algoritmi di codifica, ma
permettere la ges tione efficace di tali contenuti:
MPEG-4 definis ce come rappres entare il conte-
nuto, MPEG-7 come des criverlo. MPEG-7 facilita
lutilizzo dei milioni di contenuti digitali esistenti (di
qualunque tipo: audio, video, immagini, naturali e
sintetici, contenuti misti), la loro catalogazione, che
pu disporre di un formato di descrizione comune,
e la ricerca degli argomenti di interesse. MPEG-7
uffi c i al me nte de nomi nato Multimedia Content
Description Interface. Questa attenzione ai contesti
di utilizzo ed alle problematiche di integrazione dei
media digitali stata riaffermata nel charter del pi
recente standard, MPEG-21, tuttora in fase di defi-
nizione. MPEG-21, Multimedia framework, non s i
focalizza esclusivamente sui contenuti, ma analizza
la catena di dis tribuzione nella s ua interezza, per
standardizzare lintero processo che regola il ciclo
d i vi ta e d i d i ffus i one d e l c onte nuto d i gi tal e .
MPEG-21 des crive gli elementi chiave di un fra-
mework in grado di permettere la descrizione e li-
dentificazione del contenuto, la sua protezione, la
sua distribuzione in reti eterogenee.
MPEG uno standard aperto ad esperti accre-
ditati da appositi National Standard Body. I docu-
menti sono disponibili per gli enti appartenenti alla
comunit.
Come standard di riferimento, MPEG guidato
da alcuni principi cardine:
Data la vastit degli argomenti trattati, gli stan-
dard MPEG generalmente operano producendo
toolbox, ins iemi di algoritmi s pecifici che per-
mettono di s oddis fare requis iti variegati. Tale
approccio permette alle industrie di utilizzare il
sottoinsieme dei tool di base che permettono di
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 9 9
ris pondere alle proprie es igenze. Per garantire
la variet, ed al tempo stesso linteroperabilit
tra tutti i sottoinsiemi utilizzati, MPEG utilizza il
meccanis mo dei profili, combinazioni di tool,
anches s e decis e dalla comunit e s pecificate
in fas e normativa, appos itamente s tudiate per
essere utilizzate in particolari contesti applica-
tivi.
Standardizzazione a priori: MPEG identifica le
tecnologie per la standardizzazione prima della
ri c hi e s ta d a p arte d e l l e i nd us tri e . Que s to
approccio permette ad MPEG di produrre stan-
dard prettamente tecnologici, es clus i da qua-
lunque interesse commerciale;
Specifica del minimo per garantire interoperabi-
lit, approccio generale per gli standard de jure;
Esecuzione, in fase normativa, di test di confor-
mit e verifica delle pres tazioni di ogni nuovo
standard.
Il proces s o di s tandardizzazione s eguito dal
Moving Picture Experts Group (MPEG) rappre-
sentato nel riquadro omonimo.
3. I pr i nci pi del l a codi fi ca audi ovi si va
La teoria dellinformazione distingue due tipolo-
gie di codifica, utilizzate in un sistema di telecomu-
nicazioni:
codifica di sorgente;
codifica di canale.
Con il termine "s orgente" s intende linforma-
zione nella s ua forma originale da tras mettere: la
sua codifica, pertanto, consiste in una conversione
e manipolazione dei dati in ingresso per esprimerli in
modo pi efficace, utilizzando un numero inferiore di
bit; quando linformazione viene trasferita tramite un
mezzo trasmissivo, la codifica di sorgente seguita
dalla codifica di canale, volta a garantire che i bit
giungano a destinazione proteggendoli da eventuali
errori di trasmissione. Nel seguito si tratter diffusa-
mente della codifica di sorgente [1] [2] rimandando
ad un'altra occasione lapprofondimento delle tecni-
che di codifica di canale.
I segnali audio e video presentano caratteristi-
che s ignificativamente differenti tra loro, a partire
dalle dimens ioni: alla natura monodimens ionale
dellaudio s i contrappone la bidimens ionalit del-
limmagine visiva. Di conseguenza, anche i codifi-
catori, studiati in modo specifico per comprimere
efficacemente i due tipi di segnali, eseguono ope-
razioni differenti. A livello algoritmico, tuttavia, s i
pu ris contrare un approccio analogo per il pro-
cesso di codifica, che in entrambi i casi esegue la
stessa sequenza di operazioni: le differenze si con-
cretizzano nei tool adottati per compiere i s ingoli
passi. Ogni codificatore, infatti, cerca di rappresen-
tare in modo efficiente linformazione contenuta nel
segnale audiovisivo: per raggiungere questo scopo
inizialmente calcola un modello del s egnale s or-
gente per identificare le componenti predominanti
ed eliminando le informazioni ridondanti o inin-
fluenti; successivamente cerca di rappresentare in
modo efficiente linformazione in us cita di tale
modello, e provvede alla creazione del bitstream, il
flusso di dati che costituisce il segnale codificato,
che pu essere memorizzato in un file o trasmesso.
Questi obiettivi si concretizzano in una precisa
sequenza di blocchi funzionali, che eseguono ope-
razioni dis tinte tra loro, utilizzando come input il
risultato ottenuto nel blocco precedente:
Analisi del segnale: questa prima fase consiste
nello s tudio di porzioni di s egnale limitate nel
tempo, con lobiettivo di analizzarne le caratte-
I l processo di
standardizzazione
MPEG
MPEG segue un processo di standar-
dizzazione formale, che origina una
serie di documenti ufficiali. Il percorso
si articola in alcune fasi:
Analisi dei requisiti: il lavoro di
definizione di un nuovo standard
nasce in seguito allidentificazione
di applicazioni che necessitano di
nuove tecnologie ed alla defini-
zione di requisiti;
Fase competitiva: successiva-
mente inizia la prima fase opera-
tiva del processo di standardzza-
zione, che prevede:
Call for Proposal: un bando che
richiede a tutte le parti interes-
sate di presentare proposte tec-
nologiche in grado di soddisfare
i requisiti identificati;
Evaluation: le proposte sono
valutate con un processo ade-
guato ed imparziale, che com-
prende test soggettivi, compa-
razioni numeriche e valutazioni
di esperti;
Fase cooperativa: una volta indivi-
duate una o pi tecnologie pro-
mettenti, inizia un lavoro coopera-
tivo per migliorarne gli aspetti
algoritmici e definire una prima
versione dello standard (Working
Draft). Si eseguono Core
Experiments mirati che permet-
tono di verificare, confrontare e
introdurre ulteriori miglioramenti
incrementando le prestazioni del
modello di riferimento. Ogni modi-
fica allo standard validata da
opportuni Verification Tests.
Al termine della fase cooperativa, si
giunge ad uno stadio di maturit tale
da permettere la pubblicazione dello
standard. Anche in questa circostanza
sono prodotti alcuni documenti uffi-
ciali:
Commitee Draft: la prima versione
dello standard, contenente le tec-
nologie consolidate oggetto della
standardizzazione;
International Standard (IS): docu-
mento che contiene le specifiche
tecniche dello standard;
Amendments: documenti che con-
tengono aggiunte o modifiche tec-
niche ad uno standard esistente,
prodotte successivamente alla
pubblicazione;
Corrigenda: documenti prodotti
per correggere errori presenti in
standard gi pubblicati.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
10 0 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
ris tiche. In bas e allap-
p roc c i o uti l i z z a to g l i
s c op i d e l l op e ra z i one
pos s ono e s s e re mol te -
plici: la costruzione di un
modello del segnale cor-
rente cos truito a partire
dalle s omiglianze e dalle
d i ffe re nz e ri s p e tto a
c a mp i oni p a s s a ti e
me mori zzati , l e l i mi na-
z i one d i p orz i oni non
percepibili, la definizione
di parametri in grado di
fornire una des crizione
s ommaria delle compo-
nenti principali.
Trasformazione-quantiz-
zazione: la s econda fas e
prevede la rappres enta-
zione dellinformazione in
un dominio tras formato,
in grado di fornire una descrizione compatta ed
efficiente della correlazione ins ita nel s egnale,
cos da consentire una riduzione drastica della
ridondanza presente. Essa seguita dalla quan-
tizzazione, ovvero loperazione di decimazione,
che elimina le componenti meno s ignificative
presenti nel dominio trasformato per massimiz-
zare il fattore di compressione.
Codifica entropica: lultima fase rappresenta in
modo efficace i s imboli in us cita dalla fas e di
quantizzazione, generando lo streamcodificato.
Lanalisi del segnale strettamente legata alle
caratteris tiche del s egnale in input; la codifica
entropica, al contrario, fornisce una compressione
s tatis tica bas ata s u concetti generici, validi per
ogni tipo di informazione.
La maggioranza degli standard esistenti esegue
la catena di operazioni sopra descritta. Il processo
di codifica, pertanto, compos to da un ins ieme
variegaro di algoritmi, utilizzati in modo s equen-
ziale per migliorare le prestazioni: a tecniche appo-
s itamente s tudiate per analizzare levolvere del
s egnale nel tempo (la predizione del moto per il
video, il modello psicoacustico per laudio) si uni-
s cono algoritmi importati dallanalis i dei s egnali
(tras formazioni) e operazioni proprie dalla teoria
dellinformazione (codifica entropica); per tale
motivo, tali catene di operazioni s ono identificate
c ol nome d i codificatori
ibridi.
Le figure 1 e 2 mostrano
lo schema di funzionamento
d e i c od i fi c atori aud i o e
video. A livello di architet-
tura s i pu notare come la
differenza principale, a parte
lidentit dei blocchi, cons i-
sta nellanello di retroazione
con decodifica applicato ai
codificatori video. Lutilit di
tale proces s o s ar illus trata
nel paragrafo successivo.
Il decodificatore es egue le operazioni invers e,
nellordine opposto, rispetto al codificatore.
3.1 L anal i si del segnal e
La fase di analisi (blocchi verdi nelle figure 1 e
2) del segnale rappresenta loperazione in cui codi-
fica video ed audio pres entano le differenze pi
s ignificative. I modelli analitici utilizzati, infatti,
sono studiati ed ottimizzati per sfruttare la natura
del segnale su cui sono applicati; per tale motivo
saranno analizzati separatamente.
3.1.1 Il vi deo: l a st i ma del mot o
I fotogrammi adiacenti di una ripresa video pre-
sentano notevoli somiglianze ed una forte correla-
zione.
La fase di analisi del segnale video sfrutta tale
caratteristica per diminuire la quantit di energia, e
quindi di informazione, necessaria ad una descri-
zione esauriente del contenuto. Lobiettivo di tale
operazione cons is te nella s tima del fotogramma
c orre nte , e ffe ttuata c al c ol and o l a d i ffe re nza
rispetto ai frame ad esso adiacenti (fotogrammi di
riferimento), precedenti e s ucces s ivi. La s tima
eseguita suddividendo limmagine in macroblocchi
(tipicamente di 16x16 pixel), che pos s ono es s ere
+
Frame
Buffer
Creazione del
bitstream
Forward Frame
Buffer
Backward Frame
Buffer
Moto-
compensazione
Stima
del moto
Codifica
entropica
Vettori di moto
Rate
Buffer
Quantizzatione +
--
Trasforma-
zione
Codifica
entropica
Quantizzazione
inversa
Retroazione
Trasformazione
inversa
FIGURA 1 La st rut t ura di base di un codi f i cat ore vi deo.
Frame
Buffer
Banco filtri
di analisi
Modello
percettivo
Quantizzatione Trasformazione
Codifica
entropica
FIGURA 2 La st rut t ura di base di un codi f i cat ore audi o.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 10 1
ulteriormente s compos ti in blocchetti di dimen-
sione minore. Per ogni blocco, lalgoritmo ricerca
allinterno di una porzione del fotogramma di riferi-
mento lins ieme di campioni di medes ime dimen-
s ioni che pi gli as s omiglia. Il blocco pi s omi-
gliante quello che minimizza la differenza, in ter-
mini di errore quadratico medio. Larea di ricerca
centrata intorno alla pos izione del blocco analiz-
zato, poi c h s ol i tame nte i l c onte nuto di foto-
grammi adiacenti pres enta una correlazione che
tende a diminuire in base alla distanza tra le aree
analizzate.
Tale tecnica conos ciuta col nome di Block
Matching [3]. Ad ogni blocco associato un valore
(vettore di moto) che rappres enta la differenza di
posizione, in pixel, tra il blocco analizzato ed il suo
accoppiamento s ul fotogramma di riferimento. La
fase di stima del moto seguita dalla moto-com-
pensazione, operazione nella quale lintero frame,
stimato tramite block matching, sottratto allorigi-
nale; si codifica esclusivamente la differenza (resi-
duo), per minimizzare lenergia dellinformazione,
ottimizzando il fattore di compressione. Durante il
proces s o di codifica, ogni fotogramma di riferi-
mento, oltre ad essere codificato ed inserito nel bit
stream anche decodificato: in ques to modo, la
s tima del moto calcolata utilizzando lo s tes s o
riferimento, s ia in fas e di codifica che in fas e di
decodifica. Utilizzando in codifica limmagine origi-
nale, infatti, si creerebbe una discordanza tra il rife-
rimento del codificatore e quello del decodificatore
c he p rod urre b b e un e rrore d i ri c os truzi one .
Iterando la fase di stima del moto a pi fotogrammi
(pras s i normalmente utilizzata nei codificatori) s i
originerebbe un fastidioso errore di deriva (drifting)
con conseguente limitazione delle prestazioni.
In base al tipo di stima del moto, i fotogrammi
sono classificati in tre categorie:
Frame I (Intra): su di essi non eseguita la stima
del moto. Sono codificati interamente, a meno di
predizioni spaziali che avvengono allinterno del
frame stesso tra blocchi adiacenti;
Frame P (Predicted): frame nei quali si effettua
stima del moto uni-direzionale;
Frame B (Bidirectional): frame nei quali si effet-
tua s tima del moto bidirezionale. Il res iduo
c al c ol ato s ottrae nd o al b l oc c o c orre nte l a
media del blocchi di riferimento individuati.
Per effettuare la s tima del moto neces s ario
memorizzare un gruppo di fotogrammi, con conse-
guente elevata occupazione di memoria ed intro-
duzione di ritardo di codifica, che pu divenire cri-
tico in caso di codifica real time. Generalmente, il
numero di fotogrammi coinvolti nel proces s o di
stima del moto rappresenta un compromesso tra il
tempo di ritardo e lefficienza di codifica, efficienza
che tende ad aumentare al crescere del numero di
fotogrammi s timati. La tipica s equenza allinterno
di un gruppo di immagini di tipo: IBBBBBBBP.
La stima del moto pu essere eseguita con pre-
cis ione s uperiore al pixel, interpolando il foto-
gramma di riferimento e utilizzando anche i cam-
pioni interpolati per la ricerca dellaccoppiamento
migliore.
3.1.2 L audi o: i l model l o psi coacust i co
Un metodo di compressione di dati audio non
ha come obiettivo la riproduzione s enza perdite
della forma donda sonora, ma la massimizzazione,
a parit di informazioni fornite, della qualit perce-
pita dallascoltatore; , pertanto, inutile riprodurre
ac c uratame nte ogni c aratte ri s ti c a de l l a forma
donda dei s uoni codificati. Pu es s ere, invece,
molto efficace es eguire lanalis i delle componenti
del s egnale acus tico per identificare quelle che
maggiormente influenzano la percezione dellascol-
tatore. Questa la teoria alla base del perceptual
coding (codifica percettiva) che, s fruttando le
conos cenze di acus tica relative alle modalit di
percezione dellorecchio umano, analizza le com-
ponenti in frequenza di ogni suono in input, misu-
randone il livello di udibilit. Per es eguire ques to
compito, si utilizza come riferimento un opportuno
modello: il "modello ps icoacus tico". Per capire
come lavora il modello psicoacustico, necessario
cons iderare due concetti importanti per laudio
digitale e la codifica percettiva: la ridondanza e lir-
rilevanza. La prima rappresenta linformazione inin-
fluente, che pu essere rappresentata pi efficace-
mente utilizzando un numero inferiore di bit senza
alterare la qualit del segnale; lirrilevanza, invece,
riguarda il meccanis mo di udibilit. La teoria ps i-
coacustica ammette che, date le particolarit della
percezione umana, certe propriet di una data
forma donda siano effettivamente insignificanti per
un ascoltatore (ad esempio le frequenze al di fuori
della s oglia di udibilit, 20 Hz 20 kHz [2]). La
c od i fi c a p e rc e tti va p re ve d e , i n ri fe ri me nto al
modello psicoacustico, di memorizzare esclusiva-
mente i dati percepibili dallorecchio umano. In
questo modo, possibile ottenere drastiche ridu-
zioni delle dimens ioni del codificato, s emplice-
mente scartando limpercepibile.
In particolare, la codifica percettiva opera ese-
guendo una serie di "mascheramenti", eliminando
alcune componenti. In particolare, tre sono i tipi di
mascheramento effettuati:
Frequency masking: se un suono forte ed uno
debole di frequenze analoghe competono, il
segnale pi debole non pu essere udito, per-
tanto non neces s ario codificarlo; inoltre
possibile eliminare le componenti appartenenti
a zone non udibili dello spettro di frequenza.
Temporal masking: d op o un s uono forte ,
occorre un certo las s o di tempo prima di riu-
scire a percepire un suono debole;
Ridondanza stereo: non pu es s ere dis tinta la
provenienza di un suono a bassa frequenza
1
.
Come mos trato in precedenza, lanalis i del
segnale acustico non pu prescindere dalla cono-
s cenza delle componenti in frequenza che com-
pongono il segnale stesso. Pertanto, il segnale in
ingres s o s ottopos to ad unanalis i tempo-fre-
quenza: linput s uddivis o in una s erie di frame
(1)
Questo fenomeno spiega il motivo della presenza di una sola cassa di riso-
nanza per basse frequenze (Subwoofer) in impianti 5 + 1 .
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
10 2 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
temporali disgiunti, e ad ognuno di essi applicata
una trasformata di Fourier, che li scompone in 32
sottobande, analizzate separatamente.
In alcuni s tandard, in particolar modo quelli
dedicati alla voce (G.729), il modello psicoacustico
s opra des critto s os tituito, o affiancato, da una
modellizzazione parametrica del segnale o da una
predizione lineare che s frutta le conos cenze rela-
tive alla natura dei suoni emessi dalla voce umana:
lalgoritmo pi conosciuto ed utilizzato denomi-
nato CELP (Codebook Excited Linear Prediction).
3.2 Tr asf or mazi one- quant i zzazi one
Lapplicazione di trasformate (blocchi blu nelle
figure 1 e 2) rappresenta una delle operazioni pi
efficaci effettuate dalla maggior parte dei codifica-
tori ad oggi standardizzati. I dati nel dominio origi-
nale (s paziale per il video, temporale per laudio)
s ono tras formati in una rappres entazione diffe-
rente, il cosiddetto dominio trasformato. Il motivo
alla bas e di tale operazione s i pu individuare in
una maggiore compres s ione: campioni adiacenti
pres entano alta correlazione e lenergia tende ad
essere uniformemente distribuita tra essi, renden-
done difficile leliminazione o la riduzione di alcuni,
senza compromettere la qualit del segnale deco-
dificato. Con una scelta adeguata delle operazioni
di trasformazione, possibile eliminare la correla-
zione es is tente tra campioni adiacenti raggrup-
pando la maggior parte dellenergia, e quindi del-
linformazione utile, in un numero limitato di cam-
pioni nel dominio trasformato: in questo modo, le-
liminazione degli elementi meno s ignificativi ha
impatto minimo s ulla qualit globale del s egnale
ricostruito.
La tecnica maggiormente utilizzata nellanalis i
dei s egnali la DCT (Discrete Cosine Transform)
[3], che opera s u ins iemi di campioni limitati: nel
caso del video, ad esempio, la DCT bidimensionale
applicata s u blocchi di 8x8 campioni. Ques ta
caratteris tica, unita alla bas s a potenza computa-
zionale richiesta, alla possibilit di parallelizzazione
delle operazioni, ed alle buone prestazioni fornite
alla bas e del s ucces s o che tale tras formata ha
avuto in molti standard di codifica.
Per la codifica audio, la DCT non applicata al
s egnale in ingres s o, ma alle s ingole s ottobande
calcolate dallanalizzatore tempo-frequenza, per
s fruttare lalta correlazione pres ente tra campioni
di ciascuna sottobanda; si utilizza una versione dif-
fe re nte d e l l a DCT, d e nomi nata Modified DCT
(MDCT) che lavora s u fines tre applicative parzial-
mente sovrapposte, in modo che la seconda met
di un blocco di campioni coincida con la prima
met del blocco successivo. Questa operazione
effettuata per eliminare gli artefatti originati dalle
discontinuit prodotte sui confini dei blocchi, non
mascherabili alla percezione uditiva.
La fase di trasformazione seguita dalla quan-
tizzazione (blocchi rosa nelle figure 1 e 2), ovvero la
riduzione del numero di bit impiegati per la descri-
zione dei campioni. Tale operazione quella che
introduce la perdita di qualit, eliminando i bit
me no s i g ni fi c ati v i d i c i as c un c amp i one .
Lapplicazione della quantizzazione al segnale tra-
sformato, tuttavia, limita la perdita di informazione
grazie allalto numero di campioni nulli o poco
s ignificativi pres enti nella rappres entazione nel
dominio DCT.
3.3 Codi f i ca ent r opi ca
Lultima fase della catena di codifica costituita
dalla codifica entropica (blocchi gialli nelle figure 1
e 2). In us cita dagli s tadi precedenti, prodotta
una variet di coefficienti appartenenti a differenti
categorie: campioni quantizzati nel dominio tra-
sformato, side information (header, informazioni di
s incronizzazzione) ed elementi per lanalis i del
s egnale (vettori di moto, parametri della codifica
ps icoacus tica). Cias cuno di es s i pu es s ere rap-
presentato efficacemente in formato binario, ridu-
cendo ulteriormente il numero di bit necessari per
la des crizione dellinterno flus s o. Un codificatore
entropico mappa i simboli in input in uno streamdi
dati, che rappres entano il formato di us cita. La
compres s ione pu es s ere ottenuta s fruttando la
ridondanza relativa al numero di occorrenze di
determinati simboli nello stream codificato: gene-
ralmente si esegue una codifica dei simboli su lun-
ghezza variabile VLC (Variable Length Coding) [3],
as s oc iando ai s imboli pi fre que nti lunghe zza
minore. I due algoritmi pi utilizzati sono:
Huffmann Coding: ogni simbolo rappresentato
con una sequenza di bit di dimensione variabile,
in base alla frequenza di occorrenza;
Codifica Aritmetica: mappa ogni s imbolo in
input in un numero frazionale di bit. Si ottiene
un migliore fattore di compres s ione ris petto
allalgoritmo di Huffmann.
4. Lo st at o del l ar t e del l a codi fi ca vi deo
H.264/AVC (Advanced Video Coding), sinonimo
della parte 10 dello standard MPEG-4 [4] con cui
viene abitualmente indicato, il pi recente stan-
dard internazionale di codifica video. s tato s vi-
luppato congiuntamente da ITU-T
2
e da MPEG.
Costituisce lo stato dellarte per la codifica video,
fornendo alta efficienza di codifica in vari contesti
applicativi: videotelefonia, videoconferenza, TV,
storage (DVD e hard disk), streaming video.
H.264/AVC stato sviluppato in un periodo di
quattro anni a seguito di una Call for Proposals cui
VCEG
3
ha contribuito in modo sostanziale.
(2)
ITU- T coordina il lavoro di standardizzazione per le telecomunicazioni nel-
l ambito dell International Telecommunication Union (ITU).
(3)
Il gruppo che si occupa di codifica video in ITU- T (sottogruppo 1 6 ) deno-
minato Video Coding Experts Group ed stato responsabile di standard nati
per supportare i servizi di videocomunicazione: il primo H. 2 6 1 stato segui-
to dal pi efficiente H. 2 6 3 , a sua volta aggiornato in H. 2 6 3 + e H. 2 6 3 + + .
L ultimo tentativo di standardizzazione stato H. 2 6 L, confluito in H. 2 6 4 .
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 10 3
I risultati della Call porta-
rono MPEG al l e s e gue nti
conclusioni:
l e s trutture tradi zi onal i
d e i c od i fi c atori non
necessitavano di stravol-
gimenti, ma di s emplici
ottimizzazioni dei tool di
base;
alcuni tool es clus i dagli
s tandard precedenti per
la loro complessit pote-
vano e s s e re ri amme s s i
nel nuovo standard, gra-
zie alle maggiori capacit
computazionali dei termi-
nal i d i nuov a g e ne ra-
zione;
per permettere la mas -
sima libert ed efficienza,
H.264/AVC non s arebbe
s tato re tro- c ompati bi l e
con gli standard precedenti;
la tecnologia proposta da VCEG era in assoluto
la pi premettente.
Come conseguenza, per facilitare il processo di
avanzamento, ITU-T ed MPEG decisero di unire le
loro forze, costituendo il J oint Video Team (J VT).
Lo s tandard H.264/AVC [4] s tato prodotto e
pubblicato nel 2003. A luglio 2004 stata pubbli-
cata la seconda versione dello standard, che pre-
s enta una s erie di profili aggiuntivi, denominati
FRExt (Fidelity Range EXTensions) [5].
La figura3 fornisce una visione complessiva dei
principali s tandard di codifica video" prodotti da
ITU-T ed MPEG e confluiti nel lavoro congiunto di
JVT.
4.1 Car at t er i st i che t ecni che
H.264/AVC mantiene la s truttura di bas e dei
codificatori video, ma presenta notevoli differenze
rispetto agli standard precedenti: grazie alle mag-
giori capacit di calcolo dei terminali di nuova
generazione e a miglioramenti algoritmici, alcuni
tool sono stati ottimizzati (tabella 1). AVC inoltre
in grado, dopo la pubblicazione di FRExt, di codifi-
care video ad alta qualit, per applicazioni HDTV o
cinematografiche a bit rate elevato.
Gli elementi innovativi introdotti dallo standard
coinvolgono tutti i blocchi basilari della catena di
codifica descritta precedentemente.
Lanalisi del segnale
Stima del moto: gli algoritmi di s tima del moto
pres enti in AVC pres entano alcune differenze
ris petto ai codificatori precedenti. Cos come
per H.263 e MPEG-4, limmagine originale
s uddivis a in macroblocchi di 16x16 campioni.
s tata, tuttavia, introdotta, grazie alle mag-
giori potenze dei proces s ori odierni, la pos s ibi-
lit di iterare la fas e di splitting s ino allotteni-
me nto d i b l oc c hi 4x 4. Ne l l a fi gura 4 s ono
mos trati i pos s ibili bloc c hi c onte mplati. La
s tima del moto ha precis ione maggiore: 1/4 o
1/8 d i p i x e l . Un a l tra i mp o rta nte no v i t
riguarda la s tima del moto per i blocchi di tipo
"P": H.264 s up p orta i Multiple Reference
Frames, ovvero la ricerca del matching ottimo
e s e gui ta s u p i fotogrammi d i ri fe ri me nto
ITU-T
ISO
H.261
H.263 H.263++
H.263+ H.263L
H.264/ AVC
MPEG4
MPEG2
1990 1992 1994 1996 1998 2000 2002 2003
MPEG1
FIGURA 3 La st ori a del l a codi f i ca vi deo.
Carat t eri st i che
MPEG-4
Vi sual H.263
Dati supportati
Numero di profili
Efficienza di codifica
Dimensione dei blocchi minima
per la motocompensazione
Supporto a blocchi rettangolari
Precisione della stima di moto
Dimensione blocchi DCT
Oggetti di qualsiasi
forma, texture
19
Media
8x8
No
1/ 2 o 1/ 4 pixel
8x8
H.264/ AVC
Video frame
rettangolari
7
Alta
4x4
S
1/ 4 o 1/ 8 pixel
4x4
DCT =Discrete Cosine Transform
TABELLA 1 Conf ront o t ra H.264/ AVC e gl i st andard precedent i .
16x16
M
types
8x8
types
0
16x8
0
0
0 1
2 3
1
1
0
0
0
0 1
2 3
1
1
8x16 8x8
8x8 8x4 4x8 4x4
FIGURA 4 Schema del l e possi bi l i modal i t di st i ma bl ock based.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
10 4 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
(figura 5). Sia lencoder che il decoder, per-
tanto, c ons e rvano i n me mori a una s e ri e di
frame di riferimento durante la fase di codifica
di unimmagine. Anche la stima del moto di tipo
"B", pu usufruire di tale caratteristica: la diffe-
renza tra le due modalit, consiste nella possi-
bilit, da parte dei blocchi "B", di adottare
medie pesate dei matching distribuiti su frame
differenti.
Es is tono, infine, nuove pos s ibili identificazioni
per i blocchi:
- Skip: il blocco pres enta caratteris tiche di
moto analoghe ai blocchi adiacenti. Nes s un
vettore di moto codificato, ad esso asse-
gnato quello calcolato dai blocchi aventi lo
stesso orientamento;
- Direct: utilizzato quando s i identifica un
movimento lineare di un blocco di tipo "B"
allinterno della scena codificata. assegnato
il medesimo vettore per la stima del moto in
entrambe le direzioni;
- Intra: eliminazione della s tima del moto, nei
casi in cui la stima non risulti affidabile o pos-
sibile.
Intra prediction: i blocchi clas s ificati "Intra"
possono usufruire di un tipo di predizione ana-
logo al block matching. Il blocco di riferimento
non ricercato tra i fotogrammi adiacenti, ma
tra i blocchi dello stesso fotogramma che si tro-
vano nellintorno di quello analizzato.
Trasformazione-quantizzazione
La trasformazione applicata, per la prima volta
in uno s tandard, una tras formata ad interi,
piuttos to che una rappres entazione bas ata s u
appros s imazioni di funzioni trigonometriche
(quale la DCT tradizionale). Un vantaggio signifi-
cativo di tale operazione consiste nellimpossi-
bilit di dis cordanze, dovute ad appros s ima-
zioni, tra i ris ultati ottenuti nellencoder e nel
decoder. La tras formata ad i nte ri s tata
comunque progettata per mantenere le caratte-
ris tiche della DCT, in termini di compattazione
dellenergia ed eliminazione della ridondanza.
La tras formata applicata s u blocchi 4x4; in
alcuni profili c la pos s ibilit di adattare la
dimens ione dei blocchi effettuando una s celta
tra 8x8 e 4x4.
Codifica Entropica
Sono s tati introdotti due algoritmi innovativi;
CAVLC (Context Adaptive Variable Length
Coding), e CABAC (Context Adaptive Binary
Arithmetic Coding). Il primo rappres enta un
tradizionale codificatore di tipo VLC (Variable
Length Coding), che pres enta la caratteris tica
di adattare le tabelle di quantizzazione al con-
te s to appl i c ati vo, mi gl i orandone l e pre s ta-
zioni. Lefficienza ulteriormente migliorata
dallutilizzo di CABAC, il s econdo metodo pre-
v i s to, un c od i fi c atore ari tme ti c o c he trae
anches s o notevoli vantaggi dallutilizzo della
conos cenza del contes to. CABAC in grado
di aumentare del 10-15% lefficienza di codi-
fica ris petto a CAVLC.
Al c une i nnov azi oni i ntrod otte ri guard ano,
invece, la s truttura generale del codificato ed i
meccanismi di error resilience, pensati per la tra-
smissione efficiente su reti a pacchetto:
Network Abstraction Layer (NAL): fornis ce le
informazioni per rappres entare unit indipen-
de nti al l i nte rno de l l o stream c he pos s ono
es s ere utilizzate efficacemente in fas e di tra-
smissione su reti a pacchetto;
Meccanismi di protezione: per fornire prote-
zione efficace in cas o di errori tras mis s ivi s i
adotta il Flexible Macroblock Ordering (FMO),
che suddivide i macroblocchi di un fotogramma
i n pac c he tti di ffe re nti , tras me s s i s e parata-
mente. In caso di perdita di un pacchetto, lim-
magine ricostruita utilizzando i macroblocchi
ricevuti correttamente come predittori dei bloc-
chi corrotti.
4.2 Pr of i l i e l i vel l i
La maggior parte delle applicazioni richiede
esclusivamente un sottoinsieme limitato dellampio
range di funzionalit e tool supportati da uno stan-
dard ampio come AVC; per favorire linteroperabi-
lit s u un ins ieme variegato di applicazioni (ad
esempio, video-conferencing o digital TV) gli stan-
dard MPEG identificano una serie di profili e livelli.
Essi rappresentano delle raccomandazioni relative
ai tool ed ai parametri di utilizzo necessari per sup-
portare determinate funzionalit. Gli enti di norma-
tiva come ISMA o 3GPP, che supportano il mondo
indus triale per la regolamentazione di opportuni
contes ti applicativi, generalmente utilizzano tali
profili e livelli per garantire interoperabilit allin-
terno del dato contesto.
Profili e livelli si differenziano in base al tipo di
specifica che forniscono:
un Profilo definisce le caratteristiche algoritmi-
che: specifica pertanto il subset di tool neces-
sari per fornire le funzionalit di interesse.
=4
=2
=1
Four prior-decoded pictures
as reference
Current
picture
FIGURA 5 St i ma del mot o per un bl occo di t i po P che ut i l i zza
mul t i pl e r ef er ence f r ames.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 10 5
I profili incidono s ulla s intas s i del bit stream
codificato;
un Livello s pecifica il s et di limiti es trins eci
allalgoritmo di codifica entro i quali opera il
codificatore. Cias cun profilo, per un determi-
nato livello, opera nelle medesime condizioni. I
livelli generalmente s pecificano le modalit di
carico e memoria del decoder, bit rate, frame
rate e risoluzione spaziale del bitrate codificato.
H.264/AVC identifica 7 profili
Baseline: progettato per minimizzare la com-
ples s it e privilegiare la robus tezza tras mis -
s iva in contes ti di dis tribuzione s u reti etero-
genee. Per tale motivo s upporta tutti i tool
des critti precedentemente ad eccezione dei
b l o c c h i d i ti p o "B" e l i mp i e g o d e l to o l
"CABAC";
Main: progettato per ottenere alti fattore di
compressione: supporta blocchi di tipo B e lu-
tilizzo della codifica aritmetica CABAC ma non
FMO;
X(eXtendend): cerca di unire la robus tezza del
Baseline con lefficienza del Main, aggiungendo,
inoltre, alcuni tool addizionali. Supporta tutti i
tool descritti precedentemente ad eccezione di
CABAC;
High Profiles: rappres entano quattro dis tinti
profili di servizio ad alta qualit, progettati per
applicazioni di tipo HDTV o editing profes s io-
nale di sequenze video, che prevedono un cam-
pionamento s u 8, 10 e 12 bit/campione, s up-
portano codifica los s les s e la convers ione al
formato RGB.
Per ciascun profilo sono stati identificati diffe-
renti livelli (17 in totale); si rimanda a [3] [4] per una
dettagliata descrizione.
4.3 Pr est azi oni
Le figure 6 e 7 mostrano alcuni esempi relativi
alle pres tazioni (in termini di rapporto s egnale-
rumore - PSNR) otte nute dai c odi fi c atori AVC
ris petto a s tandard precedenti: i profili analizzati
sono ASP (Advanced Simple Profile) per MPEG-4
(ricerca esaustiva, 1/4 di pixel di precisione per la
s tima del moto, filtro di deblocking), HLP (High
Latency Profile) per H.263 (analogo ad MPEG-4
ASP), e Main Profile (5 re fe re nc e frame ) p e r
H.264/AVC.
Per tutti i codificatori lo schema utilizzato del
tipo: IBBPBBP.
H.263 ed MPEG-4 forniscono prestazioni analo-
ghe; H.264, invece, in grado di raggiungere fat-
tori di compressione nettamente superiori. In parti-
colare, si pu notare come, a bassi bit rate, utiliz-
zando H.263 o MPEG-4 occorra allincirca raddop-
piare la banda per eguagliare le prestazioni fornite
da AVC. Ovviamente, laumento in termini di fattore
di compressione compensato da una richiesta di
maggiore s forzo computazionale, che tuttavia
supportato dai terminali di ultima generazione. La
tabella 2 riassume le prestazioni e la potenza com-
putazionale richiesta per i differenti profili, in rela-
zione ad MPEG-2.
Il s ignificativo divario, in termini di compres -
sione, tra AVC e gli altri standard non deriva dallu-
tilizzo di un tool particolare, ma piuttos to ad una
serie di ottimizzazioni degli algoritmi comuni a tutti
i codificatori ibridi, in particolare nella fase di stima
del moto e di codifica entropica.
Il mi gl i orame nto d i e ffi c i e nza raggi unto d a
H.264/AVC, unito alla definizione di profili per alta
qualit, ha reso praticabile la progettazione di nuovi
s cenari applicativi nel contes to wireless e wired.
Qual i t y
Y-PSNR (dB)
39
38
37
36
35
34
33
32
31
30
29
28
27
0 50 100 150 200 250
J VT/ H.264/ AVC
Foreman QCIF 10 Hz
Bi t rat e (kbi t / s)
MPEG-4
MPEG-2
H.263
AVC =Advanced Video Coding
FIGURA 6 Prest azi oni di H.264, H.263, MPEG- 4 e MPEG- 2 su una
sequenza QCIF (176x144 pi xel ) [ 7] .
Qual i t y
Y-PSNR (dB)
38
37
36
35
34
33
32
31
30
29
28
27
26
25
0 500 1000 1500 2000 2500 3000 3500
Tempet e CIF 30 Hz
Bi t rat e (kbi t / s)
J VT/ H.264/ AVC
MPEG-4
MPEG-2
H.263
AVC =Advanced Video Coding
FIGURA 7 Prest azi oni di H.264, H.263, MPEG- 4 e MPEG- 2 su una
sequenza CIF (352x288 pi xel ) [ 7] .
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
10 6 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
Utilizzando la modulazione 8-PSK (Phase-Shift-
Keying) e turbo codici, infatti possibile triplicare,
a parit di banda, i canali dis ponibili ris petto al
sistema DVB-S, ad oggi in uso, che si appoggia ad
MPEG-2 [6]. Grazie agli High Profiles, inoltre, un
s e gnal e HD p u e s s e re c omp re s s o a c i rc a 8
Mbit/s, bit rate che ne cosente lo storage su DVD
[6]. Di cons eguenza, H.264/AVC ampiamente
adottato da parte degli enti normativi di s ettore,
come si vedr nei capitoli seguenti.
In termini prestazionali AVC rappresenta lo stato
dellarte per la codifica video, parallelamente ad
esso tuttavia si stanno affermando alcune tecnolo-
gie di codifica proprietarie, in grado di affermarsi in
altri enti di s tandardizzazione. La pi nota di tali
tecnologie, Windows Media Video s viluppata da
Microsoft, descritta nel riquadro "La Tecnologia
Windows Media Video".
5. Lo st at o del l ar t e del l a codi fi ca audi o
Le tecnologie di codifica audio sono oggetto di
s tud i o MPEG (p a rte 3 d i MPEG- 4 - I SO/I EC
14496-3) [9] e gli algoritmi standardizzati costitui-
scono un toolbox, comprendente tecnologie varie-
gate, denominato Advanced Audio Coding (AAC).
Il proc e s s o di s tandardi zzazi one ha s ubi to un
andamento differente ris petto a quello compiuto
dalle tecnologie di codifica video: durante gli ultimi
anni, con il cons olidamento degli algoritmi e la
s pecializzazione dei tool in bas e al differente uti-
lizzo (codifica di voce, musica, lossless, ...), non si
assistito alla definizione di un nuovo standard di
codifica, ma allallargamento del tools et MPEG-4
AAC; i nuovi tool s i ins eris cono in unarchitettura
tradizionale, e introducono miglioramenti per parti-
colari applicazioni e bitrate. Come cons eguenza,
pertanto, s i as s is tito alla definizione di nuovi
profili: HE-AAC (High Efficiency Advanced Audio
Coding) focalizzato al raggiungimento di un ele-
vato fattore di compressione, in grado di permet-
tere la distribuzione di parlato e musica su mezzi
Profilo
Applicazioni
previste
Aumento della
complessit
stimata per il
decodificatore
Stima preliminare
del miglioramento
in efficienza
rispetto a MPEG-2
Baseline
Applicazioni a abasso
ritardo, videotelefono,
mobile, ...
Circa 2,5 volte
pi complesso
circa 1,5 volte
eXtended Mobile, streaming, ...
Circa 3,5 volte
pi complesso
circa 1,75 volte
Main
Distribuzione del
segnale
video interlacciato, ...
Circa 4 volte
pi complesso
circa 2 volte
TABELLA 2 Prest azi oni di H.264/ AVC e MPEG- 2 [ 8] .
La tecnologia
Windows Media Video
Windows Media Video [15] rappre-
senta la soluzione per la codifica
video inserita allinterno dellultima
generazione di tecnologie digitali
multimediali sviluppate da Microsoft.
Lo scenario applicativo nel quale
trova spazio questa tecnologia rap-
presentato dalla distribuzione in
streaming di flussi audio/video verso
device eterogenei, fissi o mobili.
Larchitettura stata studiata per
ottenere alta efficienza computazio-
nale e bassa complessit mante-
nendo un elevato fattore di compres-
sione. La tecnologia di base parte
integrante del codec Microsoft noto
come VC-1, di recente proposto per
la ratifica come standard presso
SMPTE (Society of Motion Picture
and Television Engineer), organismo
tecnico USA che opera a livello mon-
diale per l'industria dellimmagine in
movimento.
Aspetti algoritmici
VC-1 adotta unarchitettura molto
simile a quella attualmente utilizzata
da AVC. Rappresenta anchesso un
codificatore ibrido con stima del moto
di tipo block matching, in grado di uti-
lizzare frame I, P e B. La trasforma-
zione spaziale effettuata utilizzando
la DCT e la codifica entropica si basa
sugli stessi principi algoritmici di
quella VLC adottata in tutti gli stan-
dard MPEG.
Esistono, tuttavia, alcune differenze
che non rappresentano modifiche
sostanziali dellapproccio algoritmico,
ma semplici configurazioni dei singolo
tool:
la DCT utilizzata in VC-1 appli-
cata adattativamente su blocchi di
dimensione variabile: in base al
contesto pu essere applicata su
blocchi 4x4, 8x8 o rettangolari
4x8; la trasformata su blocchi di
dimensione maggiore pi adatta
alla compressione di texture ripe-
titive che coprono ampie zone. I
blocchi di dimensione minore,
invece, si applicano sulle zone di
dettaglio;
VC-1 include un tool per il ricono-
scimento del cambio di illumina-
zione prima di eseguire la stima
del moto, in modo da compensare
gli effetti negativi che esso causa
sulla stima del moto block mat-
ching;
I blocchi su cui VC-1 effettua la
stima del moto hanno dimensione
minima 8x8, al contrario dei 4x4
adottati in AVC e non sono utilz-
zati frame multipli di riferimento:
la scelta di escludere tali tool da
VC-1 stata dettata dal desiderio
di limitare la complessit compu-
tazionale dellencoder a scapito di
una sensibile perdita prestazio-
nale.
Profili e prestazioni
Sono stati predisposti tre profili per
VC-1: Simple, Main e Advanced, ana-
logi, come tool e target al Baseline,
Main e Extended di AVC. In base ad
alcuni test effettuati da Tandberg
Television [16], le prestazioni di VC-1
risultano paragonabili a quelle otteni-
bili da AVC bench non siano riportati
i dettagli del confronto.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 10 7
tras mis s ivi a banda limitata (Internet), LC-AAC
(Low Complexity Advanced Audio Coding), a
bas s a comples s it e AAC-SSR (Scalable Sample
Rate Advanced Audio Coding), in grado di fornire
scalabilit.
Lo stato dellarte rappresentato da HE-AAC,
che ingloba alcuni tool innovativi, che s i aggiun-
gono al tool set MPEG-4 AAC: SBR (Spectral Band
Replication) e PS (Parametric Stereo). Essi saranno
descritti di seguito.
5.1 Spect r al Band Repl i cat i on
Un tipico s vantaggio introdotto dalla codifica
audio che utilizza tras formate la riduzione della
banda riprodotta al diminuire del bit rate. SBR s i
propone di limitare tale effetto, riproducendo le alte
frequenze, grazie ad una loro parametrizzazione
calcolata sulla base delle componenti di bassa fre-
quenza: allencoder calcolata una des crizione
della forma dei toni alti emessi dalla voce umana,
inserita come side information nello stream codifi-
cato. Il decoder ricos truis ce la parte alta dello
spettro utilizzando queste informazioni, il modello
di parametrizzazione e la parte bassa dello spettro
c od i fi c ata i n mod o trad i zi onal e . Sol i tame nte ,
linformazione SBR occupa una porzione di banda
limitata, dellordine di 1,5 kbit/s s u un contenuto
codificato ad esempio a 24 kbit/s.
Linformazione relativa alla replica dello spettro
cos tituis ce uno stream aggiuntivo che s i s ovrap-
pone ad un c odi fi c ato tradi zi onal e : i n que s to
modo, s cartando i bit relativi ad SBR pos s ibile
decodificare un contenuto mantenendo la compati-
bilit con uno standard precedente ad HE-AAC.
Grazie alle s ue caratteris tiche, SBR raggiunge
la mas s ima efficienza per la codifica di s egnale
vocale a basso bitrate.
5.2 Par amet r i c St er eo
Analogamente alle alte frequenze, le compo-
ne nti s te re ofoni c he di un s e gnal e audi o s ono
s pes s o tras curate per codifiche a bas s o bit rate,
che trattano esclusivamente segnali monofonici.
Unalternativa a tale limite s tata definita in
MPEG-4, ed denominata Parametric Stereo (PS):
si propone di trasmettere una descrizione parame-
trica del s egnale s tereofonico, utilizzando come
supporto una sua versione mono. In questo modo
pos s ibile rappres entare una vers ione s tereofo-
nica del segnale originale con pochi kbit/s aggiun-
tivi rispetto al segnale di partenza. Grazie al PS
pos s ibile rappres entare s egnali s tereo a bit rate
inferiori a 16 kbit/s. Questa tecnologia consente la
codifica a basso bitrate di segnali musicali.
5.3 Pr of i l i e l i vel l i
Come descritto nel paragrafo 4.2, MPEG speci-
fica differenti modalit di funzionamento degli stan-
dard in base al contesto di utilizzo, differenziando
le funzionalit garantite e le condizioni di applica-
zione. Tale operazione s i concretizza nella defini-
zione di profili e livelli. In precedenza sono gi stati
nominati i profili innovativi: HE-AAC (in due ver-
sioni, dette AACPlus-v1 e AACplus-v2 o Enhanced
AACplus ), LC-AAC, AAC-SBR.
Essi si aggiungono allinsieme dei profili previ-
sto dalla prima versione di MPEG-4 audio:
1 Speech Audio Profile: s tudiato per la codifica
voce, include CELP;
2 Synthetic Audio Profile: per la generazione di
audio sintetico;
3 Scalable Audio Profile: allarga le funzionalit
dello Speech profile garantendo s calabilit e
permettendo la codifica di contenuti musicali;
4 Main Audio Profile: raggruppa i tool presenti nei
tre profili precedentemente descritti;
5 High Quality Audio Profile: per applicazioni di
tipo Hi-Fi: include tool di error resilience;
6 Low Delay Audio Profile: profilo s tudiato per
mi ni mi zzare c ompl e s s i t c omputazi onal e e
ritardo di codifica;
7 Natural Audio Profile: contiene tutti i tool pre-
s enti in MPEG-4 per la codifica di contenuti
naturali;
8 Mobile Audio Internetworking Profile: com-
prende i tool per low delay e s calabilit, ed
predis pos to per es s ere integrato con tool di
codifica non inclusi in MPEG;
9 AAC Profile: loriginale AAC.
La definizione e associazione dei livelli ai diversi
profili definita in [9].
5.4 Pr est azi oni
Nella figura 8 riportato un confronto fra le pre-
stazioni (dati forniti da Coding Technologies) otte-
nibili con i diversi codec della famiglia AAC. I test
sono stati effettuati utilizzando una modalit di test
denominata MUSHRA
4
(MUlti Stimulus test with
Hidden Reference and Anchors).
AACPlus v2
AACPlus v1
AAC-LC
40
30
20
10
0
-10
-20
-30
-40
18 24 32
MUSHRA scores rel at i ve t o 7 kHz anchor, st ereo
Bit rate (kbit/ s)
D
e
l
t
a

M
U
S
H
R
A

s
c
o
r
e
48
AAC =Advanced Audio Coding
FIGURA 8 Conf ront o t ra l a f ami gl i a AAC (f ont e: Codi ng Technol ogi es).
(4)
Il MUSHRA una modalit di test che, sulla base del gradimento di un cam-
pione variegato di utenti, stima la qualit di un file audio in confronto ad uno
stream di riferimento.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
10 8 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
Il codec AACPlus v2 rappresenta un superset di
AACPlus v1 come, a s ua volta, AACPlus v1 un
superset di AAC. AACPlus v1 la combinazione di
AAC e SBR (Spectral Band Replication) ed stan-
dardizzato come High-Efficiency profile in MPEG-4
p art 10 (HE AAC). AACPl us v2 c os trui to s u
AACPlus v1 con laggiunta di tool s pecifici come
"Parametric Stereo" che permette di raggiungere
unalta efficienza di codifica con segnali stereofo-
nici, come detto in precedenza. Si noti anche che,
nella terminologia 3GPP, il codec AACPlus v2 corri-
s ponde al codec Enhanced AACPlus , come s ar
descritto nel seguito.
In sintesi, i risultati riportati in figura 8 indicano
come il codec AACPlus v2 (Enhanced AACPlus )
fornis ca una qualit migliore ris petto ad AACPlus
v1. Tale guadagno s i riduce man mano che il bit
rate cresce, fino ad annullarsi per bit rate attorno a
48 kbit/s.
6. L adozi one del l e t ecnol ogi e di codi fi ca A/ V nei
di ver si cont est i
6.1 Le t ecnol ogi e di t r aspor t o dei medi a
La definizione di un s is tema completo per la
fornitura di uno specifico servizio richiede lintegra-
zione di numeros e tecnologie: enti quali DVB,
3GPP o ISMA si occupano di selezionare e profi-
lare opportunamente le tecnologie di bas e, inte-
grand ol e s e ne c e s s ari o c on tool ad hoc, p e r
costruire profili di servizio nei contesti applicativi di
loro pertinenza, garantendo cos linteroperabilit
tra sistemi.
Come gi illustrato, ITU ed MPEG forniscono i
bacini tecnologici cui attingere per gli standard di
codifica audio e video. A ques ti occorre aggiun-
gere diversi altri contributi, i pi evidenti dei quali
sono legati al trasporto ed allo storage dei dati. In
ques ti s ettori gli enti di normativa di riferimento
s ono IETF (Internet Engineering Task Force) ed
ancora MPEG.
Re l ati vame nte al l e te c nol ogi e di tras porto,
MPEG ha definito un tool es tremamente impor-
tante, lMPEG-2 Transport Stream, per il multi-
plexing dei flussi audio e video nonch di tutta una
s erie di informazioni aggiuntive es s enziali per il
s ervizio televis ivo, quali ad es empio le informa-
zioni s ui palins es ti e s oprattutto quelle relative ai
s i s te mi d i p rote z i one (c i fra tura ). L MPEG- 2
Transport Stream permette di multiplare alcune
migliaia di flus s i dis tinti, utilizzando pacchetti di
lunghezza fis s a che s ono as s egnati alluno o a
allaltro flusso. Oltre ai segnali audio e video ven-
gono multiplati flussi contenenti specifiche tabelle
(ad es empio per rappres entare lins ieme dei pro-
grammi disponibili nel multiplex) ed altri per il tra-
s p orto g e ne ri c o d i d a ti , ti p i c a me nte i nv i a ti
secondo un meccanismo di carousel (un p come
il televideo).
IETF costituisce invece il riferimento per tutte le
applicazioni relative al mondo IP. In questo caso il
protocol stack di riferimento per i flus s i audio e
video RTP/UDP/IP: lIP (Internet Protocol) il
substrato comune a qualunque tipologia di traffico
s u rete IP, lUDP (User Datagram Protocol) un
protocollo che permette la trasmissione (passibile
di fallimento in quanto privo di meccanis mo di
ritras mis s ione) di pacchetti di lunghezza s tabilita
dal livello s uperiore, lRTP (Real Time Protocol)
permette di as s ociare alcune metainformazioni al
payload del pacchetto (sequence number, time
stamp, ) in modo da rendere possibile al ricevi-
tore la corretta identificazione di dati mancanti e la
riproduzione sincronizzata. Associato ad RTP si ha
anche un canale di controllo bidirezionale RTCP
(Real Time Control Protocol) tramite cui trasmetti-
tore e ricevitore si scambiano informazioni statisti-
che che, ad es empio, in uno s cenario convers a-
zionale, possono essere sfruttate dal terminale tra-
s mettitore per modificare i propri parametri di
codifica adattandoli in tempo reale alle fluttuazioni
nella capacit del canale tras mis s ivo. Il payload
trasportato da RTP definito dallo specifico "RTP
Payload Format" as s ociato al particolare media
audio o video: le regole definite dai diversi payload
format indirizzano tipicamente il requisito di ridurre
leffetto degli errori di tras mis s ione. Per es empio
s tabilendo regole s u come s pezzare in pi pac-
chetti frame video particolarmente grandi, o s u
come effettuare interleaving tra frame audio.
IETF specifica anche alcuni protocolli di segna-
l azi one l argame nte adottati : RTSP (Real Time
Streaming Protocol) dedicato allo scenario retrie-
val, e rende disponibili le funzionalit di un normale
ri produttore (pause, resume, seeking, ); SIP
(Session Initiation Protocol) invece rivolto agli
scenari conversazionali. Entrambi i protocolli utiliz-
zano infine una sintassi comune per rappresentare
i media coinvolti nella negoziazione della sessione:
SDP (Session Description Protocol), sempre speci-
ficato da IETF.
MPEG ha coperto infine il s ettore del file for-
mat per i contenuti multimedia, s ia per le s pecifi-
che pi moderne (lISO File Format, derivato da
QuickTime, parte del progetto MPEG-4) s ia per
quelle precedenti, dallo s torage di MPEG-1 (che
ha ori gi nato i vi de o CD, grande s uc c e s s o ne i
Paes i as iatici, pres s och s conos ciuti da noi) al
Program Stream di MPEG-2 us ato nei ben pi
noti DVD.
6.2 Il mondo t el evi si vo: DVB
Il Digital Video Broadcasting (DVB) Project un
consorzio di broadcaster, manifatturiere, operatori
di telecomunicazione, enti regolatori, nato nei
primi anni Novanta per iniziativa dellEuropean
Launching Group (ELG), con lobiettivo iniziale di
i ntrod urre l a TV d i g i ta l e i n Europ a .
Succes s ivamente il progetto ha allargato i propri
orizzonti s ia geograficamente, s uperando il limite
dellambito europeo, che tecnologicamente, occu-
pandos i anche di TV interattiva e mobile. Oggi il
progetto DVB conta 270 membri provenenti da 35
Paes i le cui s pecifiche s ono adottate in tutto il
mondo.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 10 9
Una fondamentale decis ione del progetto DVB
fu l a s e l e zi one de l l o s tandard MPEG- 2 pe r l a
compres s ione ed il multiplexing dei s egnali audio
e video; ques ta s pecifica forma la bas e comune
s u cui s i bas ano le ulteriori normative definite da
DVB: da un lato le tecniche di modulazione del
s egnale s ui link dedicati del s atellite (DVB-S), del
c avo (DVB- C), e pi re c e nte me nte de l l e onde
radio terres tri (DVB-T), e dallaltro le informazioni
acces s orie che devono es s ere tras portate per
completare il s ervizio offerto (ad es empio i palin-
s es ti).
Il profilo MPEG-2 selezionato da DVB per la TV
digitale a definizione s tandard (DTV) il Main
Profile @ Main Level per il video, e il Layer I e Layer
II per laudio (non il Layer III, meglio noto come
MP3). Successivamente sono stati integrati in DVB
altri profili, che coprono esigenze diverse come la
contribuzione o la tras mis s ione in formati ad alta
definizione (HDTV).
Le re c e nti s pe c i fi c he DVB- H, de di c ate agl i
handheld devices (dis pos itivi mobili), definis cono
un s ettore completamente nuovo di dis pos itivi in
grado di ricevere s egnali audiovis ivi digitali tra-
s mes s i in modalit broadcast s u canale terres tre;
pertanto in ques to cas o s tato pos s ibile intro-
durre lutilizzo di codec pi
moderni ris petto allMPEG-
2, in particolare AVC/H.264
p e r i l v i d e o (c on VC- 1
op zi onal e ) e d HE- AAC v2
per laudio (con AMR WB+
opzionale).
La tab e l l a 3 ri p orta l e
principali caratteris tiche dei
codec considerati da DVB.
6.3 Il mondo del mobi l e: 3GPP
Dal 1998, gli enti di stan-
dardizzazione hanno decis o
di cooperare per la produ-
zione di un set completo di
s pecifiche tecniche relative
alle reti mobili di terza gene-
ra z i one . I n p a rti c ol a re ,
3GPP regola gli aspetti rela-
tivi alla distribuzione di con-
tenuti video su terminali 3G
p e r ap p l i c azi oni d i strea-
ming, videoconferencing,
VoD (Video on Demand).
Uno degli as petti cruciali per as s icurare unalta
QoS allutente di un s ervizio mobile lus o di
adeguati codec audio-video e meccanis mi di pro-
tezione dagli errori di canali. Se poi s i cons idera
che in ambito mobile, accanto ai s ervizi di tipo
punto-punto, s i potranno s viluppare anche s ervizi
di tipo punto- multipunto (broadcast/multicast)
dove non pos s ibile utilizzare tutte le us uali tec-
ni c he a l i ve l l o rad i o p e r mi ti gare gl i e rrori d i
canale, limportanza di codec di s orgente ade-
guati e relativi meccanis mi di protezione ris ulta
ancora pi evidente.
In ambito 3GPP ques ta problematica s tata
affrontata in due modalit differenti: facendo riferi-
mento a codec sviluppati da altri organismi interna-
zionali (come ITU-T o ISO) utilizzando opportuni
profili oppure sviluppando delle tecnologie di com-
pres s ione s pecifiche per le es igenze del mondo
wireless. Storicamente s tata s eguita maggior-
mente la prima strada per la codifica video mentre
s tata s eguita maggiormente la s econda per la
codifica audio.
Per questo motivo, mentre per i codec video ci
si potr imbattere, a seconda del particolare servi-
zio mobile, in H.264/AVC Baseline Profile, ISO
MPEG-4 Visual Simple Profile o ITU-T H.263 Profile
0, per i codec audio, accanto ad alcuni profili del
codec ISO/MPEG4 AAC, s ono s tati definiti due
codec di ultima generazione:
Enhanced aacPlus;
Extended AMR (Adaptive Multi-Rate) Wideband.
Enhanced aacPlus (paragrafo 5) un codec di
d e ri v azi one MPEG, me ntre Extended AMR
Wideband stato completamente sviluppato per il
3GPP e si basa sulla tecnologia AMR che ha fatto
la s ua prima apparizione nel mondo GSM come
codec AMR Narrowband, us ato s olamente per
segnale vocale. Scopo del sistema AMR quello di
variare dinamicamente lallocazione di bit rate tra
source codec e channel codec cercando di fornire
la migliore qualit pos s ibile in funzione di una
s tima della qualit del canale. Il s is tema AMR
quindi costituito da un set di "speech codec mode"
cio di bit rate con la possibilit di switching tra i
diversi modi in funzione delle condizioni di propa-
gazione.
Poich la tecnologia non ancora matura per un
codec audio "universale", cio in grado di essere
vantaggi os ame nte us ato pe r ogni ti pol ogi a di
banda e contenuto, il 3GPP ha standardizzato uno
o pi codec audio per ogni tipologia di servizio.
Scenari o
Standard Definition TV
High Definition TV
DVB-H
Audi o codec
ISO/ IEC 11172-3 (MPEG-1 Audi o):
- Layer I o II
- bitrate <=448 Kbit/ s
ISO/ IEC 13818-3 (MPEG-2 Audi o):
- Layer II
- bitrate <=682 Kbit/ s
ISO/ IEC 11172-3 (MPEG-1 Audi o):
- Layer I o II
- bitrate <=448 Kbit/ s
ISO/ IEC 13818-3 (MPEG-2 Audi o):
- Layer II
- bitrate <=682 Kbit/ s
ISO/ IEC 14446-3 (MPEG-4 Audi o):
- HE-AAC Profile @Level 2
AMR WB+ (opt i onal )
Vi deo codec
ISO/ IEC 13818-2 (MPEG-2 Vi deo):
- Main Profile @Main Level
ISO/ IEC 14446-10 (AVC/ H.264):
- Main Profile @Level 3
ISO/ IEC 13818-2 (MPEG-2 Vi deo):
- Main Profile @High Level
ISO/ IEC 14446-10 (AVC/ H.264):
- High Profile @Level 4
ISO/ IEC 14446-10 (AVC/ H.264)
VC-1 (opt i onal )
AAC
AMR
DVB-H
=
=
=
Advanced Audio Coding
Adaptive Multi Rate
Digital Video Broadcasting Hendheld
TABELLA 3 I codec adot t at i nel vi deo di gi t al e t errest re.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
110 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
La tabella 4 mostra tale allocazione per i
servizi wireless a pacchetto nella Release
6 del 3GPP.
Per aiutare loperatore mobile nel non
s empre facile compito di s cegliere un
codec ad atto al s e rvi zi o c he i nte nd e
offrire, le specifiche tecniche 3GPP met-
tono a disposizione delle linee guida per
s tabilire quale codec us are in funzione
delle caratteris tiche del s ervizio offerto
(tipologia di contenuti, banda disponibile,
modalit di delivery, ...). A titolo di esem-
pio, le linee guida fornite per servizi wire-
less 3G relativamente ai codificatori audio
Enhanced aacPlus e d Extended AMR
Wideband, pos s ono es s ere s intetizzate
come s egue: Extended AMR Wideband
offre p re s tazi oni mi g l i ori a v e l oc i t
medio-basse (inferiori a 24 kbit/s) e con
contenuti s olo vocali o intervallati con
musica; Enhanced aacPlus, invece, offre
prestazioni migliori a velocit tendenzial-
mente pi alte e con contenuti prevalen-
temente musicali.
6.4 Il mondo wi r el i ne: ISMA
LInternet Streaming Media Alliance (ISMA) un
ente no profit nato originariamente (fine del 2000)
allo scopo di fornire un riferimento per i servizi di
streaming su IP. Era il periodo in cui si stava affer-
mando la codifica MPEG-4 Video, e con es s a gli
oggi popolarissimi DIVX, e si riteneva incombente
una domanda del mercato per affiancare alla frui-
zione "locale" dei DIVX anche una fruizione in
s treaming. Le s oluzioni di s treaming pi popolari
allepoca (ma il quadro, bis ogna dire, non s i
granch modificato) erano
quelle proprietarie di Real
Networks e di Microsoft.
Lo s forzo d i I SMA e ra
d unq ue ri v ol to p ri nc i p al -
mente a contras tare ques to
s tatus quo, promuove ndo
luso di tecnologie standard,
aperte ed interoperabili.
Ne l l a p ri ma s p e c i fi c a
(ISMA1.0 di fine 2000) sono
s tati s e l e zi onati i l codec
v i d e o MPEG- 4 nonc h i l
codec audio AAC (che a sua
volta ha iniziato a diffondersi
nei DIVX come alternativa ad
MP3), s os tanzi al me nte
quello che rappres entava lo
s tato dellarte per gli s tan-
d ard d i c od i fi c a aud i o e
video: i due profili definiti
miravano luno ad una qua-
l i t "e ntry l e ve l ", a bas s o
bi trate , l al tro a s e rvi zi di
qualit s uperiore per bande
fino a 1,5 Mbit/s
A livello trasporto si sono
adottate le s pecifiche IETF del s ettore, ovvero
RTSP e d SDP p e r l a s e gnal azi one , RTP e d i
Payload format appropriati per il trasporto.
Nella specifica successiva (ISMA2.0, finalizzata
di recente) larchitettura non cambia, ma si defini-
s cono profili aggiuntivi e s i s elezionano i nuovi
codec video H.264 ed audio AAC-HE, puntando
s ui s ervizi audiovis ivi ad alta qualit, con bit rate
fino a 15 Mbit/s. La tabella 5 riassume le caratteri-
stiche essenziali dei diversi profili definiti da ISMA.
Ti pol ogi a di servi zi o Codec audi o (3GPP Rel ease 6)
Packet switched conversational
MMS
(Multimedia Messaging Service)
PSS
(Packet switched Streaming Service)
MBMS
(Multimedia Broadcast/ Multicast Service)
- AMR Narrowband (mandatory)
- AMR Wideband
- AMR Narrowband
- AMR Wideband
- Enhanced aacPlus
- Extended AMR Wideband
- MPEG-4 AAC Low Complexity
- MPEG-4 AAC Long Term Prediction
- AMR Narrowband
- AMR Wideband
- Enhanced aacPlus
- Extended AMR Wideband
- MPEG-4 AAC Low Complexity
- MPEG-4 AAC Long Term Prediction
- AMR Narrowband
- AMR Wideband
- Enhanced aacPlus
- Extended AMR Wideband
AAC
AMR
=
=
Advanced Audio Coding
Adaptive Multi Rate
TABELLA 4 I codec adot t at i i n 3GPP.
Profi l e
Profile 0 (ISMA1.0):
Profile 1 (ISMA1.0):
- bitrate <=1.5 Mbit/ s
Profile 2 (ISMA2.0):
- bitrate <=1,2 Mbit/ s
Profile 3 (ISMA2.0):
- bitrate <=3,7 Mbit/ s
Profile 4 (ISMA2.0):
- bitrate <=15 Mbit/ s
Audi o codec
ISO/ IEC 14446-3 (MPEG-4 Audi o):
- High Quality Profile @Level 2
- numero canali <=2
- sampling rate <=48000 Hz
ISO/ IEC 14446-3 (MPEG-4 Audi o):
- High Quality Profile @Level 2
- numero canali <=2
- sampling rate <=48000 Hz
ISO/ IEC 14446-3 (MPEG-4 Audi o):
- HE-AAC Profile @Level 2
- numero canali <=2
- sampling rate <=48000 Hz
ISO/ IEC 14446-3 (MPEG-4 Audi o):
- AAC Profile @Level 4
- numero canali <=5+1
- sampling rate <=48000 Hz
ISO/ IEC 14446-3 (MPEG-4 Audi o):
- AAC Profile @Level 4
- numero canali <=5+1
- sampling rate <=48000 Hz
Vi deo Codec
ISO/ IEC 14446-2 (MPEG-4 Vi deo):
- Simple Profile @Level 1
- bitrate <=1.5 Mbit/ s
ISO/ IEC 14446-2 (MPEG-4 Vi deo):
- Advanced Simple Profile @Level 3
- bitrate <=64 Kbit/ s
ISO/ IEC 14446-10 (AVC/ H.264):
- Baseline&Main* Profile @Level 2
- bitrate <=1 Mbit/ s
* sottoinsieme comune ai 2 profili
ISO/ IEC 14446-10 (AVC/ H.264):
- Main Profile @Level 3
- bitrate <=3 Mbit/ s
ISO/ IEC 14446-10 (AVC/ H.264):
- High Profile @Level 4
- bitrate <=15 Mbit/ s
AAC
AVC
ISMA
=
=
=
Advanced Audio Coding
Audio Video Coding
Internet Streaming Media Alliance
TABELLA 5 I prof i l i adot t at i i n ISMA.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 111
7. Tecnol ogi e emer gent i
Le tecnologie analizzate sino ad ora permettono
di migliorare il rapporto di compressione ottenibile,
ottimizzando la struttura tradizionale dei codifica-
tori. Attualmente, per, gli enti di standardizzazione
di riferimento hanno intrapreso alcuni studi prelimi-
nari, con lobiettivo di introdurre nuove funzionalit,
che estendono il contesto applicativo e permette-
ranno di realizzare s ervizi innovativi. Grazie alla
dis ponibilit cres cente di banda e di capacit di
memorizzazione e con lavvento di nuove tecnolo-
gie di trasporto (ad esempio le reti 4G) si delinea
uno s cenario in cui i codec audio e video s ono
chiamati a soddisfare nuovi e pi sfidanti requisiti
applicativi, tra questi citiamo:
Ap p l i c azi oni i n s c e nari d i c onv e rg e nza
fisso/mobile;
Adattamento alle caratteris tiche tras mis s ive di
reti a capacit variabile e mezzi s ens ibili a
mutazioni del contesto ambientale;
Supporto HD (High Definition) e SHD (Super
High Definition) , sino a giungere a qualit cine-
matografica;
Eliminazione di s torage multipli di contenuti
codificati a differenti qualit, privilegiando un
paradigma di distribuzione in grado di estrapo-
lare la qualit desiderata da un flusso codificato
unico.
In ques to paragrafo analizziamo alcune di tali
s perimentazioni, attualmente in fas e di s tudio in
MPEG: codifica lossless, codifica scalabile, 3DAV
(3D Audio Video), distributed coding, per quanto
riguarda la codifica video, MPEG Surround e audio
sintetico per la codifica audio.
7.1 La codi f i ca l ossl ess
Grazie al contesto evolutivo descritto preceden-
temente, la codifica s enza perdite s ta s us citando
interes s e in ambito MPEG; s ono infatti s tati pro-
dotti due standard (Amendment di MPEG-4 Audio
[8]) relativi allaudio: ALS (Audio Lossless Coding) e
SLS (Scalable Lossless Coding). Es s i utilizzano i
tool compres i in MPEG-4 audio, appos itamente
ottimizzati per la compres s ione s enza perdite; s i
differenziano in bas e alle loro pros pettive di uti-
lizzo: SLS fornisce scalabilit, e pu essere quindi
utilizzato per i servizi che erogano qualit differenti.
ALS, al contrario, s tato s tudiato appos itamente
per applicazioni mus icali ad altis s ima definizione.
Nel caso video la compressione lossless suppor-
tata dagli High Profiles di H.264/AVC. In bas e ai
test riportati in [10], grazie ad MPEG-4 ALS, pos-
s ibile codificare s enza perdite un s egnale audio
con un rapporto di compressione che varia in base
alla sequenza ed alla frequenza di campionamento:
il codificato pres enta dimens ioni che variano da
2/3 sino ad 1/5 delloriginale.
7.2 La codi f i ca scal abi l e
Nel corso degli ultimi anni, il contesto applica-
tivo relativo alla dis tribuzione di contenuti video
digitali si rapidamente evoluto e si assistito alla
prol i fe razi one di te rmi nal i e te roge ne i (te l e foni
mobili, PC, palmari, ), che sfruttano apparati di
re te c on d i ffe re nti c ap ac i t d i b and a e QoS
(Wireles s , LAN, ). Cias cun utente accede agli
stessi server di distribuzione per fruire dei mede-
simi contenuti, erogati a differenti qualit. Lo sce-
nario di riferimento pertanto tende alladozione di
tecniche di codifica in grado di fornire contenuti
intrinsecamente in grado di adattarsi alle caratteri-
s tiche dellapparato di fruizione, richiedendo la
memorizzazione sui server di una sola versione del
contenuto codificato (anzich di pi versioni a dif-
fe re nti bit rate, c ome ac c ad e c omune me nte ).
Queste soluzioni consentiranno ottimizzazioni sul-
lintera filiera di distribuzione riducendo le proble-
matiche di transcodifica e pi in generale di con-
tent repurposing, s ia in contes ti offline che real
time.
Questo il concetto di codifica video scalabile
(SVC), oggetto di s tudio in ambito MPEG [11].
Dopo alcuni tentativi, ins eriti in s tandard prece-
denti, in fas e di s viluppo il primo s tandard di
codifica video appos itamente s tudiato per fornire
scalabilit: diverr un Amendment di MPEG-4 parte
10, AVC, e sar pubblicato a luglio 2006. Lo stan-
dard SVC s i appoggia s ullo s tato dellarte per la
codifica non scalabile, ovvero il gi descritto AVC;
prevede la s uddivis ione dellinformazione in una
serie di livelli qualitativi: si parte da un livello base
(base layer), conforme ad AVC non s calabile (per
mantenere la compatibilit con terminali che utiliz-
zano decoder AVC non s calabili), e ad es s o s i
aggiungono una serie di enhancement layer (figura
9), che contengono le informazioni neces s arie ad
aumentare la qualit del video fruito. Un flus s o
video s calabile permette les trazione di un sub-
stream c onte ne nte i l base layer e q ual unq ue
numero di enhancement layer, s ino alla qualit
richiesta.
Un decoder pu ricevere e decodificare linfor-
mazione contenuta nel base layer, per ottenere
video a bassa risoluzione, oppure utilizzare alcuni
dei livelli aggiuntivi
5
, che permettono di fruire di
una migliore qualit. La qualit di decodifica pu
essere imposta da una serie di vincoli o dal conte-
s to applicativo: le capacit di banda e del termi-
nale, la QoS assegnata, la rumorosit del mezzo di
distribuzione.
Es is tono differenti tipologie di s calabilit s up-
portate:
Scalabilit spaziale: il codificatore deve essere
in grado di erogare contenuti video a divers e
risoluzioni;
Scalabilit temporale: i l c od i fi c atore d e ve
es s ere in grado di erogare contenuti video a
frame rate differenti;
Scalabilit qualitativa: il codificatore deve essere
(5)
I livelli sono normalmente indicati con numeri crescenti, dal base layer sino
al livello di qualit maggiore. Un livello definito " superiore" , pertanto, in
grado di fornire un video a qualit e bit rate superiori rispetto al livello a cui
esso comparato.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
112 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
in grado di erogare video a bit rate differenti;
Scalabilit di complessit: i di ffe re nti l aye r
aggiungono complessit, in fase di decodifica; il
decodificatore, pertanto, pu scegliere il livello
per fornire la mas s ima qualit in proporzione
alle proprie capacit.
Questi concetti di scalabilit non devono essere
interpretati in modo alternativo: un codificatore
deve essere in grado di scalare un contenuto video
in tutte le modalit previste contemporaneamente.
Lobiettivo dei codificatori descritti quello di for-
nire Fine Grained Scalability, ovvero di rendere il
flusso codificato scalabile con granularit fine.
I livelli di enhancement sono generati a partire
dal res iduo ottenuto s ottraendo il s egnale rico-
struito ai livelli inferiori a quello originale e riappli-
cando ad esso la sequenza di operazioni necessa-
ria per la codifica (tras formata, quantizzazione,
codifica entropica): la s tima del moto raffinata
per ogni livello di risoluzione spaziale considerato.
In aggiunta a ques to, applicata unoperazione,
denominata MCTF (Motion Compensated Temporal
Filtering), c he p re ve d e un fi l traggi o s p e c i fi c o
(wavelet) nella direzione temporale, per incremen-
tare le pres tazioni del codificatore in pres enza di
scalabilit temporale. Grazie ad MCTF si effettua,
infatti, una media su differenti fotogrammi che, in
cas o di s calamento temporale, permette ugual-
mente di conservare la componente predominante
del movimento avvenuto.
Attualmente s i s ta affermando un nuovo algo-
ritmo di codifica video s calabile, che affianca il
nas c e nte s tand ard ma s i d i ffe re nzi a i n mod o
sostanziale in quanto adotta nativamente le wave-
let [12].
Come s i vis to in precedenza la tras formata
DCT bidimens ionale utilizzata in codifica video
ope ra s u bl oc c hi di c am-
p i oni (s ol i tame nte 8x 8, o
4x 4) c he tras forma i n un
i ns i e me di c ompone nti di
frequenza. La tras formata
wavelet opera con lo stesso
fine, ma agis ce s ullintera
immagine, senza scomposi-
zioni in blocchetti. La tra-
s formazione wavelet cons i-
s te in un filtraggio s u due
dimensioni che isola le com-
ponenti di bas s a frequenza
(creando una rappres enta-
zione "grezza" dellimma-
gi ne c onte ne nte l a me di a
locale dei campioni originali,
in alto a s inis tra nel foto-
g ramma tras formato d i
figura 10) dalle componenti
di alta frequenza, che rap-
p re s e ntano i d e ttagl i d e i
c ontorni , ri s p e tti vame nte
per componenti orizzontali,
verticali e diagonali. pos -
sibile iterare il procedimento
d i s c omp os i zi one , c ome
mos trato in figura, creando una piramide multi-
ris oluzione che rappres enta componenti di fre-
quenze crescenti, spostandosi in basso a destra. A
livello prestazionale, la compressione wavelet in
grado di s uperare quella ottenuta dalla DCT. Per
tale motivo, s tata s celta come algoritmo alla
base di JPEG2000, il nuovo standard di compres-
sione di immagini fisse, successivo al noto JPEG.
Le tecniche di codifica video wavelet possono
essere applicate al campo della codifica scalabile:
lapplicabilit della trasformata alle immagini nella
loro interezza, si presta naturalmente a fornire sca-
labilit con granularit fine, in quanto pu es s ere
associata a particolari codifiche entropiche dette a
bit plane, in grado di creare uno stream di bit che
pu es s ere troncato in pos izione arbitraria, elimi-
nando i bit meno significativi di tutti i campioni pre-
senti nellimmagine. Questa caratteristica permette
di superare i limiti architetturali dello standard SVC,
che vincolato ad un numero limitato di livelli di
scalabilit; in futuro, pertanto, i codificatori wavelet
potranno essere utilizzati in contesti applicativi che
neces s itano di molteplici livelli di s calabilit: ad
es empio, streaming s u reti a pres tazioni/capacit
variabile (per esempio nelle WiFi).
Attualmente le pres tazioni dello s tandard SVC
risultano superiori a quelle dei codificatori wavelet,
grazie allutilizzo di algoritmi maturi e consolidati:
le wavelet, tuttavia, si propongono come una solu-
zione promettente per il futuro.
La problematica del video scalabile non si esau-
ris ce allinterno della codifica video s tes s a, ma
impatta anche sulle tecniche di trasporto e segna-
lazione/negoziazione delle capabilities. indubbio
c he p e r b e ne fi c i are ap p i e no d e l l a s c al ab i l i t
occorra garantire al meglio il tras porto del livello
bas e, con eventualmente tolleranze via via pi
Base Layer
Enh. Layer 1
Enh. Layer 2
Enhancement Layer 3
Enhancement Layer 4
E
n
c
o
d
e
r
Base Layer
Enh. Layer 1
Enh. Layer 2
Base Layer
Base Layer
Enh. Layer 1
Enh. Layer 2
Enhancement Layer 3
Enhancement Layer 4
FIGURA 9 Inseri ment o di un codi f i cat ore vi deo scal abi l e i n uno scenari o di di st ri buzi one su ret i e t ermi nal i
et erogenei .
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 113
ampie nei confronti dei livelli superiori, senza peral-
tro discriminare i diversi flussi in termini di ritardo.
Si tratta di una problematica similare a quella gi
attuale (in s cenari di comunicazione) riguardo la
discriminazione in termini di QoS tra trasmissione
audio e video, ove la QoS per laudio deve privile-
giare il bas s o ritardo mentre quella per il video il
basso tasso di errore.
Se dunque i divers i livelli del video devono
poter es s ere ges titi con QoS divers e, e quindi
essere trasportati separatamente, a livello dei pro-
tocolli di s egnalazione occorre rappres entare le
dipendenze e correlazioni tra i vari flus s i: non s i
tratta di problemi particolarmente comples s i, s e
non per la "verbosit" delle soluzioni.
Lutilizzo del video scalabile permette di sempli-
ficare significativamente le architetture di rete pre-
poste alla fornitura di servizi verso terminali etero-
genei, perlomeno in teoria, giacch nella pratica le
problematiche di legacy pos s ono vanificare in
parte i vantaggi dellintroduzione di questa tecnica.
La rete di contribuzione potrebbe infatti produrre il
video con la mas s ima qualit, ma s uddivis o nei
divers i layer, e tali layer potrebbero es s ere dis tri-
buiti (tutti o s olo alcuni) fino ai divers i terminali,
senza dover ricorrere a funzionalit di transcoding
o transrating in rete.
7.3 3DAV : Il vi deo i n t r e di mensi oni
Con laumento pres tazionale degli s tandard di
codifica e la maggiore disponibilit di banda sulle
reti di nuova generazione, diventa possibile utiliz-
zare molteplici sorgenti audio e video per realizzare
s ervizi innovativi. Unattivit MPEG denominata
3DAV (3D audio/video) s i s ta occupando di tali
argomenti, relativamente alla codifica video: lo-
biettivo quello di permettere la sintesi di punti di
vista arbitari (viste virtuali) in riprese ottenute con
pi te l e c ame re pos i zi onate i n punti di ffe re nti .
Applicazioni di ques to tipo permetteranno, ad
es empio, allutente di s cegliere il punto di vis ta
durante la visione di un filmato televisivo, consen-
tendo una nuova user experience denominata Free
Viewpoint Television.
Il lavoro del gruppo 3DAV giunto alla fase pre-
liminare, relativa alla standardizzazione di algoritmi
per la codifica di flussi multipli. Successivamente,
s ar indetta la Call for Proposals in merito agli
algoritmi di sintesi di punti di vista intermedi.
7.4 Di st r i but ed codi ng
Le architetture di codifica video digitale s ono
state storicamente guidate dal modello "downlink"
Dettagli orizzontali
Dettagli verticali Dettagli diagonali
FIGURA 10 Scomposi zi one su due l i vel l i .
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
114 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
che caratterizza i servizi broadcast: il tipico para-
digma architetturale prevede un encoder complesso
ed una moltitudine di decoder dalle capacit limi-
tate. Tuttavia la situazione sta mutando per il prolife-
rare di terminali video che dispongono di potenza di
calcolo ridotta, come le fotocamere digitali, le reti di
sensori video a bassa potenza, le webcam ed i cel-
lulari con equipaggiamenti multimediali: lo scenario
evolve vers o la tras mis s ione s u reti rumoros e a
banda limitata di molteplici flussi in ingresso, spediti
ve rs o c e ntri d i c al c ol o o ri c e vi tori d i anal oga
potenza. Questa nuova generazione di applicazioni
"uplink", presenta requisiti nuovi e sfidanti:
encoder a bassa potenza computazionale;
alto fattore di compressione;
robustezza trasmissiva.
La tecnologia DSC (Distributed Source Coding)
s tata ideata per ris pondere alle es igenze s opra
citate: in grado di facilitare, infatti, la codifica
congiunta di pi s orgenti video correlate
6
[13]: la
conoscenza della correlazione statistica tra i flussi
codificati (inviata come side infomation) pu essere
s fruttata in fas e di decodifica; in particolare, un
flusso video pu essere codificato in modo tradi-
zionale, con qualunque tecnica, mentre il secondo
pu avvalersi della "somiglianza" rispetto al primo
per raggiungere diversi obiettivi:
1 Light encoding: la complessit dellencoder pu
essere significativamente ridotta, eliminando la
fas e di s tima del moto, generalmente la pi
dispendiosa in termini computazionali. Inviando
la correlazione statistica di ogni singolo blocco
con il suo corrispondente relativo alla sorgente
video adiacente, il codificatore esegue esclusi-
vamente le operazioni di trasformazione, quan-
tizzazione (guidata dalla side information) e
codifica entropica, generalmente a bassa com-
plessit. Un overhead imposto al decodifica-
tore, che esegue una ricerca analoga alla stima
del moto per individuare il blocco appartenente
al video adiacente che pres enta correlazione
statistica uguale, o pi vicina possibile, a quella
inviata come side information; in questa acce-
zione, il Distributed Coding trova applicazione
in contesti di reti di sensori a bassa comples-
sit, o in scenari che presentano nodi intermedi
di alta capacit, e neces s itano di bas s a com-
plessit sia in codifica che in decodifica;
2 Robustezza trasmissiva: grazie ad una quantit
molto limitata di side information (i dettagli sulle
correlazioni statistiche) possibile fornire unal-
ternativa per la stima di moto nel caso di per-
dita di pacchetti: in tal modo possibile limitale
il fenomeno di drift che incorre quando s ono
persi i pacchetti contenenti i vettori di moto;
3 Compressione di flussi multicamera, con predi-
zione del comportamento di alcune camere a par-
tire dalla loro correlazione con sorgenti adiacenti.
Le prime promettenti applicazioni di tale tecno-
logia s i ris contrano nellambito della protezione
dagli errori trasmessivi, i primi risultati sperimentali
pres entati in figura 11 illus trano il miglioramento
pres tazionale (rapporto s egnale/rumore ris petto il
tasso di errore nel flusso di dati) in caso di utilizzo
di un canale di protezione in aggiunta al tradizio-
nale FEC (Forward Error Correction).
Bench si registrino i primi positivi risultati, va
notato che al momento le applicazioni di codifica
distribuita movono i primi passi, saranno necessari
s ignificativi miglioramenti tecnologici perch pos -
sano trovare applicazione in campo.
7.5 L evol uzi one del l audi o
La codifica audio a basso bit rate trova applica-
zione in molteplici scenari applicativi multimediali,
monofoni c i e s te re ofoni c i . Da mol to te mpo, i l
mondo della codifica ha riconosciuto limportanza
di una codifica efficiente di s egnali s tereo: s ono
pertanto note, ed inserite negli standard descritti in
precedenza, tecniche di joint stereo coding, che
sfruttano le caratteristiche del segnale stereofonico
p e r mas s i mi zzare i l fattore d i c omp re s s i one .
Recentemente, tuttavia, le nuove capacit dei
di s pos i ti vi pe rme ttono di uti l i zzare pi di due
segnali audio: , pertanto, possibile ricercare ser-
vizi innovativi che aumentino la qualit delles pe-
rienza dellutente, e sfruttino la disposizione spa-
ziale di molteplici sorgenti audio per fornire sensa-
zioni "immersive": il caso di applicazioni di audio
surround, come ad esempio lhome theatre.
nato, pertanto, un apposito gruppo di lavoro,
allintermo di MPEG, che s tudia rappres entazioni
efficienti di segnali audio provenienti da N sorgenti
distinte (tipicamente 5+1). Lo standard sar deno-
minato MPEG Surround [14].
Lalgoritmo in fase di studio prevede laggiunta
di un overhead, tipicamente molto ridotto (minore
d i 5 Kb i t/s ), c he c os ti tui s c e side information
rispetto al segnale stereo e riesce a descrivere effi-
cacemente le componenti aggiuntive in funzione
Foot bal l (352x240, 15 fps, 900 kbi t / s)
Errore (%)
P
S
N
R

(
d
B
)
FEC only
DSC data +FEC
H.263+
28
2 4 6 8 10
26
24
22
20
18
DSC
FEC
=
=
Distributed Source Coding
Forward Error Correction
FIGURA 11 Prestazioni del Distributed Coding, utilizzato come canale di
protezione in aggiunta al FEC su un flusso codificato H.263+ .
(6)
Con il termine Correlazione si intende la sua accezione statistica: due varia-
bili casuali (in questo caso due segnali) si dicono correlate se a ciascun
valore della prima variabile corrisponde con una certa regolarit un valore
della seconda.
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 115
della loro posizione. Questo strato indipendente
dal codificato stereo, per mantenere la compatibi-
lit con codec s tereofonici tradizionali, che pos -
sono ignorare le informazioni spaziali.
MPEG Surround pu es s ere vis to come una
generalizzazione del Parametric Stereo des critto
precedentemente. La tecnica costituisce unesten-
s i one de l l e tradi zi onal i te c ni c he e s i s te nti (pe r
esempio, Dolby Surround/Prologic, Logic 7, Circle
Surround) in quanto non richiede differenze di fase
tra canali per la codifica dellinformazione spaziale.
pertanto pos s ibile tras mettere un flus s o MPEG
surround su un unico canale.
Il mondo MPEG sta affrontando un altro aspetto
innovativo: laudio s intetico. Il toolset MEPG-4
audio comprende, infatti, alcuni tool ed interfacce
dedicati allaudio sintetico, in particolare:
Synthetic speech: MPEG-4 permette di generare
s uoni in bas e ad input s trutturati. Un input
testuale pu essere convertito in voce tramite la
TTSI (Text to Speech Interface), che rappresenta
uninterfaccia standard per le operazioni Text to
Speech. Oggetto della s tandardizzazione la
stessa interfaccia, piuttosto che un vero sintetiz-
zatore, dipendente dallhardware e dal software
del terminale che esegue la sintesi.
Synthetic Music: pu essere generata a partire
da un bit streama bassissimo bitrate una sintesi
del s uono prodotto da unorches tra o da un
generico gruppo di strumentisti: il tool Structured
Audio, anches s o parte del tools et MPEG-4,
decodifica dati in input per produrre suoni in out-
put. Uno speciale linguaggio, denominato SAOL
(Structured Audio Orchestra Language) definisce
il s uono di una "orches tra" creando e proces -
s ando dati contenenti le informazioni mus icali
collegate al timbro di ciascuno strumento, che
consiste in una primitiva di signal processing che
emula suoni specifici. Nuovamente, MPEG-4 non
standardizza un metodo di sintesi, ma piuttosto
un metodo di descrizione. Lo standard MPEG pi
recente s upera il concetto di s intes i mus icale
accoppiandolo a s is temi di rappres entazione
della notazione mus icale (in formato s tandard
MPEG- 4): i l s uo nome Symbolic Music
Representation (SMR) e permette la visualizza-
zione di spartiti, immagini o tablature sincroniz-
zati al rendering di file musicali sintetici, o natu-
rali. SMR pu es s ere adottato in applicazioni
didattiche o ricreative.
8. Concl usi oni
La pervasivit dei contenuti digitali nei servizi di
comunicazione e nella vita quotidiana un fenomeno
in continua cres cita. Le modalit di fruizione e di
reperimento di tali contenuti continuano ad evolvere
grazie allutilizzo di reti e terminali di nuova genera-
zione, con un impatto significativo sulla vita quoti-
diana. I servizi multimediali si stanno arricchendo di
funzionalit sempre nuove, contribuendo allaumento
della domanda e della produzione di contenuti digi-
tali, per uso personale, commerciale e professionale.
In questo contesto nascono nuove esigenze, come
la necessit di creare e/o modificare, catalogare e
ricercare volumi sempre crescenti di contenuti audio-
visivi in ambiti applicativi diversificati.
La soluzione di tali problemi, procede parallela-
mente allo sviluppo di nuove tecnologie di codifica
e rappresentazione dellaudiovisivo, che continuano
a rivestire un ruolo di importanza assoluta. Nuove
sfide si aprono allorizzonte, come quelle della codi-
fica multiris oluzione, una s oluzione "a prova di
futuro" perch sapr adattarsi alle diverse esigenze
applicative, e s i affiancano alla mai s opita ambi-
zione di superare le attuali prestazioni di compres-
s ione, per adeguars i allevolvere dei paradigmi di
distribuzione che prevedono lutilizzo di reti e termi-
nal i e te roge ne i , e p e rme tte re nuove user
experience, come quella del 3DAV. Il futuro della
codifica, pertanto, promette di essere ancora denso
di novit ed al centro dellinteresse delle comunit
di ricerca e degli enti di standardizzazione.
[1 ] E. G. Ric hard son: "Video Codec Design".
[2 ] C. Drioli, N. Orio: "Elementi di acustica e psicoacustica";
1 9 9 9 .
[3 ] E. G. Ric hardson: "H.264 and MPEG4 Video
Compression"; 2003.
[4 ] ISO/ IEC JTC1 / SC2 9 / WG1 1 / W6 5 4 0 : "Text of ISO/IEC
14496 10 Advanced Video Coding 3
rd
Edition"; 2 0 0 4 .
[5 ] ISO/ IEC JTC1 / SC2 9 / WG1 1 / W6 5 3 9 : "Text of ISO/IEC
14496 10/FDAM1 AVC Fidelity Range Extensions";
luglio 2 0 0 4 .
[6 ] R. Sc hfer, T. Wiegand , H. Sc hwarz: "The emerging
H.264/AVC Standard", EBU tec hnic al review; 1 / 2 0 0 3 .
[7 ] T. Wiegand : "H.264/AVC "H.264/AVC in Multimedia
Internet Streaming"; 2 0 0 3 .
[8 ] M. Barb ero e N. Shp uza: "Advanced Video Coding
(AVC - H.264): Il prossimo futuro", Elettronic a E
Telec omunic azioni; agosto 2 0 0 3 .
[9 ] ISO/ IEC JTC1 / SC2 9 / WG1 1 / W7 1 2 9 : "ISO/IEC-3 (Audio
3
rd
Edition)"; ap rile 2 0 0 5 .
[1 0 ] T. Lieb c hen: "An Introduction To Mpeg-4 Audio
Lossless Coding", ICASSP; 2 0 0 4 .
[1 1 ] ISO/ IEC JTC1 / SC2 9 / WG1 1 / W7 3 1 0 : "Working Draft 3
of ISO/IEC 14496-10:200x/AMD1 Scalable Video
Coding"; luglio 2 0 0 5 .
[1 2 ] G. Strang, T. Nguyen: "Wavelet and filter banks"; 1 9 9 6
[1 3 ] R. Puri, K. Ramc hand ran: "PRISM: A video coding
architecture based on distributed compression princi-
ples". Tec hnic al Rep ort No. UCB/ ERL M0 3 / 6 , ERL, UC
Berkeley; marzo. 2 0 0 3 .
[1 4 ] ISO/ IEC JTC1 / SC2 9 / WG1 1 / W7 3 8 7 : "WD 2 for MPEG
Surround"; luglio 2 0 0 5 .
[1 5 ] S. Srinivasan, P. Hsu, T. Holc omb , K. Mukerjee, S. L.
Regunathan, B. Lin, J. Liang, M. Lee, J. Rib as- Corb era,
"Wind ows Med ia Vid eo 9 : overview and ap p lic ations",
EURASIP Signal Proc essing Image Communic ation,
2 0 0 4 .
[1 6 ] M. Gold man: "A comparison of MPEG-2 video, MPEG-
4 AVC and SMPTE VC-1", Tand b erg rep ort.
BIBLIOGRAFIA
CORDARA DROGODE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codif ica audio e video in ambient e f isso e mobile
116 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
3GPP 3
rd
Generation Mobile System
AAC Advanced Audio Coding
AMR Adaptive Multi Rate
AVC: Advanced Video Coding
ASP Advanced Simple Profile
CABC Context Adaptive Binary Arithmetic Coding
CAVLC Context Adaptive Variable Length Coding
DCT Discrete Cosine Transform
DSC Distributed Source Coding
DVB Digital Video Broadcasting
FEC Forward Error Correction
FMO Flexible Macroblock Ordering
HD High Definition
HLP High Latency Profile
ISMA Internet Streaming Media Alliance
IETF Internet Engineering Task Force
IP Internet Protocol
ITU International Telecommunication Union
JVT Joint Video Team
MCTF Motion Compensated Temporal Filtering
MPEG Moving Picture Experts Group
MUSHRA MUlti Stimulus test with Hidden Reference
and Anchors
PS Parametric Stereo
PSK Phase-Shift-Keying
RTCP Real Time Control Protocol
RTSP Reat Time Stream Protocol
RTP Real Time Protocol
SBR Spectral Band Replication
SDP Session Description Protocol
SHD Super High Definition
SIP Session Initiation Protocol
SMPTE Society of Motion Picture and Television
Engineers
SMR Symbolic Music Representation
UDP User Datagram Protocol
VLC Variable Length Coding
VOD Video On Demand
ABBREVIAZIONI
Guido Franceschini s i l a u r e a t o i n
Ing eg neria Elet t ro nic a p res s o il Po lit ec nic o d i
To rino nell' Ot t o b re 1 9 8 9 . Nel 1 9 9 0 ent rat o
in C S ELT (o g g i TILAB ), d o ve s i o c c u p at o
p r e v a l e n t e m e n t e d i t e m a t i c h e l e g a t e a l
t r a s p o r t o d e i f l u s s i m e d i a . E a t t u a l m e n t e
p art e d i u n t e am c h e s vilu p p a s o f t w are p e r
d i v e r s e t i p o l o g i e d i t e r m i n a l i e a p p l i c a zi o n i
mult imed iali. Ha p art ec ip at o a d ivers i o rg ani d i
no rmat iva, c o nt rib uend o in p art ic o lare ai lavo ri
d i M P EG p e r l e p a r t i M P EG - 4 S y s t e m s e d M P EG - 4 D M IF.
U l t i m a m e n t e h a s e g u i t o i l a v o r i d i I S M A , p a r t e c i p a n d o
at t ivament e ai t es t d i int ero p erab ilit .
Rosari o Drogo De I acovo s i
l a u r e a t o i n In g e g n e r i a El e t t r o n i c a p r e s s o i l
Po lit ec nic o d i To rino nel 1 9 8 6 e nello s t es s o
a n n o e n t r a t o i n C S E LT ( o g g i T I L A B ) ,
d ip art im e n t o S e r vizi e Ap p lic azio n i d u t e n t e .
La s ua at t ivit s i inizialment e c o nc ent rat a nei
c a m p i d e l l a c o d i f i c a a u d i o v i s i v a , c o n
p a r t i c o l a r e r i f e r i m e n t o a l l a d e f i n i zi o n e d e l l a
c o d i f i c a a u d i o p e r i s i s t e m i m o b i l i e d e l l a
valut azio ne o g g et t iva e s o g g et t iva d ella q ualit
n e i s e r vizi d i t e le f o n ia. Dal 1 9 8 7 al 1 9 9 1 , h a p art e c ip at o alla
p ro g et t azio ne e d efinizio ne d ei s is t emi d i c o d ific a GSM Full- Rat e
e Half- Rat e. d et ent o re d i b revet t i int ernazio nali nel c amp o d ella
c o d ific a aud io e c o aut o re d el lib ro "Speech And Audio Coding
For Wireless And Network Applications", K l u w e r A c a d e m i c
Pub lis hers , USA, 1 9 9 3 . Suc c es s ivament e ha ric o p ert o la c aric a
d i Rap p o rt e u r in ITU- T S t u d y G ro u p 1 6 p e r la t e m at ic a "Au d io
and w id eb and c o d ing " ed at t ualment e d eleg at o Telec o m It alia
in 3 GPP SA4 (C o d ec ).
Gi ovanni Cordara s i l a u r e a t o i n
In g e g n e ria d e lle Te le c o m u n ic azio n i p re s s o il
Po lit e c n ic o d i To rin o n e l 2 0 0 0 . N e l 2 0 0 1
entrato in TILAB, area Multimed ia, nella q uale
t u t t o r a i m p e g n a t o . D a l 2 0 0 1 a l 2 0 0 2 s i
o c c u p a t o d e l l a p r o g e t t a z i o n e d i s i s t e m i
mult imed iali b as at i s ullo s t and ard M PEG- 4 : in
p art ic o lare, ha c o nt rib uit o alla realizzazio ne d i
una p iattaforma d i e- learning e d i un p rototip o d i
televisione interattiva. Nel 2 0 0 3 si oc c up ato d i
DRM (Digital Rights Management), o vve ro d i t e c n o lo g ie vo lt e a
reg o lament are la fruizio ne d i c o nt enut i d ig it ali t ramit e l ut ilizzo d i
algoritmi d i enc ryp tion e mec c anismi d i d istrib uzione d i lic enze: ha
c o nt rib uit o alla realizzazio ne d i un p ro t o t ip o d i p iat t afo rma p er la
d is t rib uzio ne d i c o nt enut i p ro t et t i s u t erminali fis s i e mo b ili. Dalla
s e c o n d a m e t d e l 2 0 0 3 s i o c c u p a d i r i c e r c a n e l l ' a m b i t o d i
t ec no lo g ie inno vat ive d i c o d ific a aud io e vid eo : c o d ific a w avelet ,
c od ific a vid eo sc alab ile, sintesi d i viste intermed ie in sistemi multi-
c a m e r a , d i s t r i b u t e d c o d i n g , a r c h i v i a zi o n e e c a t a l o g a zi o n e d i
c o n t e n u t i d ig it ali. Dal 2 0 0 3 p are t c ip a at t ivam e n t e all' at t ivit d i
s t a n d a r d i zza zi o n e d i M PEG , d o v e r i v e s t e i l r u o l o d i Head of
Delegationd ella d elegazione italiana.
Mauro Quaglia s i laureat o in Sc ienze
d e ll In f o rm azio n e all U n ive rs it d e g li s t u d i d i
To r i n o n e l 1 9 8 7 . D a l 1 9 8 7 i n C S ELT (o g g i
TIL AB ), s i o c c u p a t o d e l l o s v i l u p p o d e l l e
t e c n o l o g i e d i c o d i f i c a e r a p p r e s e n t a zi o n e
d e ll au d io vis ivo , c o n t rib u e n d o alle at t ivit d i
s t a n d a r d i zza zi o n e i n t e r n a zi o n a l e d i s e t t o r e
IS O / IEC M P EG . H a s e g u i t o e c o o r d i n a t o
p ro g et t i d i c o llab o razio ne int ernazio nale neg li
a m b i t i d e i s e r v i z i e d e l l e a p p l i c a z i o n i
M u lt im e d iali. At t u alm e n t e re s p o n s ab ile d e ll Are a d i Ric e rc a
M ult imed ia nell amb it o d ella Funzio ne C ro s s Pro g ram Tec hno lo g y.