Arapovic E

Kodiranje zvuka
Fizikalne osnove zvuka

Longitudinalni talas vibriranja estica vazduha
Izvor zvuka stvara vibracije estica (promene pritiska) Vibracije se ire brzinom v=f=340 m/s (zavisi od temperature) Lokalno vibriranje vazduha uzrokuje vibracije struktura uha Kohlearni ivac ima vie od 10000 detektora osetljivih na razne frekvencije; oni pretvaraju zvuk u iane signale
Fizikalna svojstva zvuka

Vremenski domen: talasni oblik
Amplituda Faza Frekvencija
Frekvencijski domen: frekvencijski spektar

Harmonici (multipli osnovne funkcije f, 2f, 3f, ...) Za govor, formanti (rezonantne frekvencije govornog trakta), npr:
a F1 660 F2 1700 F3 2400 Hz e F1 530 F2 1850 F3 2500 Hz u F1 300 F2 870 F3 2250 Hz
Percepcija zvuka
Frekvencija (f) [Hz] visina: 20 log (f/fr) [Mel]
Jednake rastue korake frekvencije primeujemo kao sve manje i manje korake rasta visine zvuka ujno podruje 20 Hz do 20 kHz
Amplituda (A) [Pa] intenzitet (I) [W/m] glasnoa: 20 log (I/Ir) [dB] (Ir je granica ujnosti)
Jednake rastue korake amplitude (intenziteta) primeujemo kao sve manje i manje korake rasta jaine odnosno glasnoe zvuka
Izvori zvuka
Prirodni analogni
Ljudski glas (govor, pevanje) Glasanje ivotinja Muziki instrumenti Prirodni zvuci, npr. um mora, vetar, grmljavina, ...
Sintetiki obino digitalni

Oponaanje nekog od prirodnih zvuka, elektronska muzika, ... Digitalni oblik je pogodan za arhiviranje, obradu i prenos u raunarskim sistemima Prirodni zvuci se zato digitalizuju Svrha kodiranja digitalnog zvuka: to manji zapis bez osetnog gubitka kvaliteta
Digitalni zvuk u umreenom raunarskom sistemu
Codec, coder + decoder = ureaj koji kodira i dekodira, odnosno komprimira i dekomprimira audio i video
Postupak digitalizacije zvuka

1. uzorkovanje 2. kvantizacija
Vie ulaznih vrednosti preslikava se na istu izlaznu vrednost ime se gubi mogunost tane rekonstrukcije Razlika stvarne i kvantizovane vrednosti je kvantizacijska greka Uz broj bita k dobija se 2k nivo kvantizacije Uopteno vredi da vei broj bita po uzorku daje manje izoblienje
3.Kodiranje
Vrste kodera s obzirom na namenu

Uskopojasni (telefonski kanal; B = 4 kHz)
Prikaz zvuka sa visokom tanou: fu = 8 kHz, 16 bita po uzorku (linearno) 128 kbit/s Analogna telefonija: 300 Hz 3400 Hz fu = 8 kHz, 8 bita po uzorku (nelinearno, A/) 64 kbit/s
irokopojasni (AM radio, ISDN; videokonferencija; B = 7 kHz) Zvuk visokog kvaliteta (FM radio, televizija; B = 15 kHz) Zvuk visoke tanosti (CD kvalitet; B = 20 kHz)
Svaki kanal 20 Hz 20 kHz fu = 44,1 kHz, 16 bita po uzorku Kanal 30 Hz 15 kHz fu = 32 kHz, 16 bita po uzorku
Kriterijumi za poreenje codec-a

Brzina, izlaz, bitrate (bit/s) Kvalitet
Objektivna merila (klasine metode, izoblienje signala i SNR nisu dobra merila za ljudsku percepciju rekonstruisanog signala) Subjektivna merila (esto vanija od objektivnih)
Kanjenje
Algoritamsko kanjenje u koderu na izvoru koliko traje kodiranje Kod dekodiranja koliko traje dekodiranje? Sinhronizacija sa ostalim medijima u multimedijalnoj aplikaciji
Otpornost na gubitke
Posebno vano za prenos preko mree
Primena na ostale zvukove koji nisu govor, npr. fax i modemske signale, muziku Sloenost (hw/sw) Cena izvoenja
Subjektivna merila kvaliteta

Opta ocena kvaliteta miljenje korisnika
Mean Opinion Score (MOS) Degradation MOS (DMOS)
Ocena razumljivosti govora

Dijagnostiki testovi s parovima rei koje slino zvue, 90% tanosti smatra se toll quality Dynamic Rhyme Test (DRT) 96 parova engleskih rei, npr. dune/tune, chair/care, moon/noon ,...sluaocima se nudi popis i pitaju se koju re su uli
Objektivne metode
Novije objektivne metode temelje se na poznavanju ljudskog sluha raunaju izoblienje zvunog signala sa percepcijskim teinskim faktorima
Ideja: izoblienja koje uho vie uje imaju vei teinski faktor od onih manje primetnih ili neprimetnih
Perpetual Evaluation of Speech Quality (PESQ)

ITU-T preporuka P.862 Metoda procene subjektivnog kvaliteta govornih kodeka Algoritam predvia subjektivnu ocenu kvaliteta degradiranog uzorka govora Izraz iz algoritma je procenjena vrednost MOS
Perceptual Evaluation of Audio Qualitz (PEAQ)

ITU-R preporuka BS.1387 Algoritam za procenu kvaliteta audia
Karakteristike govora vane za kodiranje

Izvor: ljudski govorni organi
Vazduh iz plua prolaskom kroz govorne organe (dunik, grkljan, glasne ice, upljine usta i nosa) stvara glas
Zvuni glasovi (vazduh izaziva vibracije glasnih ica) Bezvuni glasovi (nema vibracija glasnih ica)
Prijemnik: ljudski sluni organi

ujno podruje 20 Hz 20 kHz, dinamiki raspon 120 dB Za razumljivost najvanije 2-5 kHz (500-2000 Hz) Kvalitet se ocenjuje subjektivno Poznata anomalija: efekat maskiranja: jedan zvuni signal prekriva drugi (zavisno od relativnih glasnoa i frekvencija)
Maskiranje zvuka
Vremenska analiza govora
Frekvencijska analiza govora (1)

Odseak 30 ms bezvuni suglasnik s
Frekvencijska analiza govora (2)

Uzorak 30 ms zvuni suglasnik n Uoljive rezonantne frekvencije - formanti
Model govora u vremenu

Model govora u vremenu moe se opisati on-off modelom Intervali govora proseno traju 800 ms 1,2 s Intervali tiine (izmeu pojedinih glasova, rei i reenica) proseno traju 1 1,6 s
Ako se na izlaz kodera ne alje nita u intervalim tiine, moe se utedeti do 40%
Vremenska svojstva govornog signala

Govorni signal je nestacionaran (menja se u vremenu) ali u manjim vremenskim intervalima (okvirima od 20 30 ms) moe se posmatrati kao stacionaran
Ideje za konstrukciju codeca

Karakteristika govornog signala je da ima veu verovatnou primanja manjih vrednosti nego veih vrednosti
Uniformna kvantizacija nije optimalna Isplati se tanije kodirati manje vrednosti od veih-nelinearna kvantizacija daje bolji kvalitet uz jednak broj bita po uzorku
Postoji visoka korelacija izmeu uzastopnih uzoraka i uzastopnih frejmova

Uklanjanjem redundancije u signalu moe se smanjiti zapis
Na osnovu poznavanja karakteristika govora tj. fiziolokih karakteristika govornog trakta, moe se napraviti model.
Parametri modela se raunaju na osnovu stvarnih uzoraka Prenose se samo parametri a govor se rekonstruie (sintetizuje) na osnovu modela U najnovijim koderima (npr. MPEG-4 SA) ova ideja se proiruje i na druge zvukove
Koderi govora
Koderi talasnog oblika

Vee brzine, dobar kvalitet, razvijeni za fiksnu i kasnije doraeni za mobilnu telefoniju Pulsno-kodna modulacija (PCM)
Preporuka ITU-T G.711 Pulse Code Modulation for voice frequencies (PCM)
Adaptivni diferencijalni PCM (ADPCM)

Preporuka ITU-T G.72 Adaptive Differential Pulse Code Modulation (ADPCM); sadri zastarelu preporuku G.721 (originalni standard) Proirenje je ITU-T G.727 5-, 4-, 3- and 2 bits per sample embedded Adaptive Differential Pulse Code Modulation (ADPCM)
PCM
Uzorkovanje na 8 kHz, nelinearna kvantizacija po logaritamskoj karakteristici prema A-zakonu (Evropa) ili -zakonu (SAD, Japan) Prednosti:
Jednostavan Visok kvalitet (MOS 4.3) Malo kanjenje (1 uzorak)
Mane:
64 kbits/s nije malo Nema mehanizma za kontrolu i ispravljanje greaka (nije dobar kandidat za internet telefoniju)
Primena: ve decenijama u fiksnoj telefoniji
Princip diferencijalnog kodera (ADPCM)

U koderu je sadran dekoder pa se rauna razlika izmeu signala kojeg bi dekoder predvideo i stvarnog signala; ova razlika se kvantizuje i alje dekoderu
ADPCM - karakteristike
Osim tipine brzine od 32 kbit/s, zavisno od broja bita za kodiranje greke, standard specifikuje i brzine 40 kbit/s (5 bita), 24 kbit/s (3 bita) i 16 kbit/s (2 bita) Prednosti:
Nema algoritamskog kanjenja Prenosi i modemske i fax signale bez degradacije
Mane:
Velika brzina (postoje bolja resenja na manjim brzinama) Osetljiv na gubitke
Primena: kuni beini telefon DECT (Digital European Cordless Telephony) standard Primena u irokopojasnom koderu: preporuka ITU-T G.722 Wideband (7 kHz) audio codec by Subband ADPCM (SB-ADPCM)
64 (56, 48) kbits/s ISDN aplikacije, telekonferencija
Koderi zasnovani na modelu

Ideja: koder i dekoder imaju isti model govornog trakta
Parametri modela se raunaju za frejmove uzoraka govora Dekoderu se prenose parametri modela (a ne uzorci govora) pa se govor sintetizuje na odreditu Princip analize/sinteze
Postiu se vrlo male brzine Prvi koderi, npr. LPC-10 su bili loijeg kvaliteta, razvijeni za sisteme ograniene namene, npr. robotika, sigurna telefonija Noviji koderi, npr. CELP na malim brzinama postiu dobar kvalitet ali su raunski sloeniji
Ljudski govorni organi
Model proizvodnje govora

a) Blok dijagram ljudskih govornih organa
b) Blok dijagram dekodera zasnovanog na modelu (LPC Linear Predictive Coder)
Model govornog trakta

Govorni trakt se modelira linearnim filterom sa nizom koeficijenata Signal se moe prikazati kao izlaz linearnog filtera uz zadatu pobudu Koder izraunava parametre filtera i pobude i alje ih dekoderu
Linear Predictive Coding (LPC)
Pobuda: periodini impulsni signal Parametri modela: Frekvencija pobude Jaina pobude Zvuni/bezvuni glas Koeficijenti filtera Npr. LPC-10 na 2,4 kbit/s Frekvencija uzorkovanja: 8 kHz Daljina frejma: 180 uzoraka = 22,5 ms
LPC raunanje parametara modela

Frekvencija pobude
Average Magnitude Difference Function (AMDF) AMDF izraunava prosek razlika signala u zvunom okviru udaljenih na neki period P
Zvuni/bezvuni glas
AMDF nema jasnih minimuma za bezvune glasove Bezvuni glasovi: manja amplituda signala
Jaina pobude
Koren srednje vrednosti kvadrata signala
Koeficijenti filtera
Metoda najmanjeg kvadrata greke
Code Excited Linear Prediction (CELP)

Zajedniki renik kodera (code-book) u koderu i dekoderu Dekoderu se alje indeks pobude Analiza-sintezom slui za odreivanje pobude Pretrauje se skup moguih pobuda i za svaku sprovodi analiza Rauna se percepcijska greka Bira se pobuda sa minimalnom grekom
Primeri kodera zasnovanih na modelu (1)

Preporuka ITU-T G.728 Low Delay CELP (LD-CELP)
16 kbits/s, MOS 4, algoritamsko kanjenje samo 0,625 ms
Preporuka ITU-T G.729 Conjugate Structure Algebraic CELP (CS-CELP)

8 kbit/s, MOS 4, kanjenje 15 ms
Preporuk ITU-T G.723.1 Dual rate speech coder for multimedia communications trensmitting at 5.3 and 6.3 kbit/s
5,3 i 6,3 kbit/s, MOS 3,8 Pogodan za internet telefoniju
Primeri kodera zasnovanih na modelu (2)

ETSI GSM 06.10: Full Rate codec na 13 kbit/s
U upotrebi na veini GSM 900 i PCS 1800 mrea Regular Pulse Exitation LPC with Long Term Prediction (RPE-LTP) koder
ETSI GSM 06.60: GSM Enhanced Full Rate na 12,2 kbit/s

Algebraic Code-Excited Linear Prediction (ACELP) Osnova i za severnoameriki TDMA IS-136 kao i za ITU-T G.729
ETSI GSM 06.20: GSM Half Rate na 5,6 kbits/s

Vector-Sum Excited Linear Prediction (VSELP)
Koderi zvuka u frekvencijskom domenu

Koderi zvuka u frekvencijskom domenu nisu ogranieni na govor; imaju dobra svojstva za bilo kakve zvuke, npr. muziku
Koriste pod-pojasno kodiranje (podela na frekvencijske pod-pojase pre kodiranja)
Koriste efekat maskiranja

Uz jak signal na nekoj frekvenciji, uvo ne moe da uje slabiji signal na bliskoj frekvenciji Osim u zadatom trenutku, maskiranje ima uticaj i u vremenu (pre/posle)
Osnovni percepcijski koder
MPEG Audio
MPEG-1
Dva audio kanala Fu = 44,1 kHz (isto kao CD), 32 kHz, 48 kHz (isto kao DAT) Brzine od 8-16 kbit/s do 320 kbit/s MPEG Audio Layer I, II, III: nivoi kodiranja rastue sloenosti Koristi se percepcijsko kodiranje
MPEG-2
Isti osnovni koder kao MPEG-1 Pet audio kanala + niskofrekventni kanal Uz MPEG-1 jo i fu = 16 kHz, 22,05 kHz, 24 kHz AAC Advanced Audio Codec, dodat kasnije
MPEG-4
AAC, dva kodera za govor, strukturirani audio, ...
MPEG Audio Layer 3 MP3 koder
Pregled kodera govora i zvuka

Arapovic E

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Arapovic E

Transféré par

Droits d'auteur :

Formats disponibles

Kodiranje zvuka

Fizikalne osnove zvuka

Fizikalna svojstva zvuka

Frekvencijski domen: frekvencijski spektar

Sintetiki obino digitalni

Digitalni zvuk u umreenom raunarskom sistemu

Postupak digitalizacije zvuka

Vrste kodera s obzirom na namenu

Kriterijumi za poreenje codec-a

Subjektivna merila kvaliteta

Ocena razumljivosti govora

Perpetual Evaluation of Speech Quality (PESQ)

Perceptual Evaluation of Audio Qualitz (PEAQ)

Karakteristike govora vane za kodiranje

Prijemnik: ljudski sluni organi

Vremenska analiza govora

Frekvencijska analiza govora (1)

Frekvencijska analiza govora (2)

Model govora u vremenu

Vremenska svojstva govornog signala

Ideje za konstrukciju codeca

Postoji visoka korelacija izmeu uzastopnih uzoraka i uzastopnih frejmova

Koderi talasnog oblika

Adaptivni diferencijalni PCM (ADPCM)

Primena: ve decenijama u fiksnoj telefoniji

Princip diferencijalnog kodera (ADPCM)

Koderi zasnovani na modelu

Ljudski govorni organi

Model proizvodnje govora

b) Blok dijagram dekodera zasnovanog na modelu (LPC Linear Predictive Coder)

Model govornog trakta

Linear Predictive Coding (LPC)

LPC raunanje parametara modela

Code Excited Linear Prediction (CELP)

Primeri kodera zasnovanih na modelu (1)

Preporuka ITU-T G.729 Conjugate Structure Algebraic CELP (CS-CELP)

Primeri kodera zasnovanih na modelu (2)

ETSI GSM 06.60: GSM Enhanced Full Rate na 12,2 kbit/s

ETSI GSM 06.20: GSM Half Rate na 5,6 kbits/s

Koderi zvuka u frekvencijskom domenu

Koriste efekat maskiranja

Osnovni percepcijski koder

MPEG Audio Layer 3 MP3 koder

Pregled kodera govora i zvuka

Vous aimerez peut-être aussi