Vous êtes sur la page 1sur 38

Kodiranje zvuka

Fizikalne osnove zvuka


Longitudinalni talas vibriranja estica vazduha
Izvor zvuka stvara vibracije estica (promene pritiska) Vibracije se ire brzinom v=f=340 m/s (zavisi od temperature) Lokalno vibriranje vazduha uzrokuje vibracije struktura uha Kohlearni ivac ima vie od 10000 detektora osetljivih na razne frekvencije; oni pretvaraju zvuk u iane signale

Fizikalna svojstva zvuka


Vremenski domen: talasni oblik
Amplituda Faza Frekvencija

Frekvencijski domen: frekvencijski spektar


Harmonici (multipli osnovne funkcije f, 2f, 3f, ...) Za govor, formanti (rezonantne frekvencije govornog trakta), npr:
a F1 660 F2 1700 F3 2400 Hz e F1 530 F2 1850 F3 2500 Hz u F1 300 F2 870 F3 2250 Hz

Percepcija zvuka
Frekvencija (f) [Hz] visina: 20 log (f/fr) [Mel]
Jednake rastue korake frekvencije primeujemo kao sve manje i manje korake rasta visine zvuka ujno podruje 20 Hz do 20 kHz

Amplituda (A) [Pa] intenzitet (I) [W/m] glasnoa: 20 log (I/Ir) [dB] (Ir je granica ujnosti)
Jednake rastue korake amplitude (intenziteta) primeujemo kao sve manje i manje korake rasta jaine odnosno glasnoe zvuka

Izvori zvuka
Prirodni analogni
Ljudski glas (govor, pevanje) Glasanje ivotinja Muziki instrumenti Prirodni zvuci, npr. um mora, vetar, grmljavina, ...

Sintetiki obino digitalni


Oponaanje nekog od prirodnih zvuka, elektronska muzika, ... Digitalni oblik je pogodan za arhiviranje, obradu i prenos u raunarskim sistemima Prirodni zvuci se zato digitalizuju Svrha kodiranja digitalnog zvuka: to manji zapis bez osetnog gubitka kvaliteta

Digitalni zvuk u umreenom raunarskom sistemu

Codec, coder + decoder = ureaj koji kodira i dekodira, odnosno komprimira i dekomprimira audio i video

Postupak digitalizacije zvuka


1. uzorkovanje 2. kvantizacija
Vie ulaznih vrednosti preslikava se na istu izlaznu vrednost ime se gubi mogunost tane rekonstrukcije Razlika stvarne i kvantizovane vrednosti je kvantizacijska greka Uz broj bita k dobija se 2k nivo kvantizacije Uopteno vredi da vei broj bita po uzorku daje manje izoblienje

3.Kodiranje

Vrste kodera s obzirom na namenu


Uskopojasni (telefonski kanal; B = 4 kHz)
Prikaz zvuka sa visokom tanou: fu = 8 kHz, 16 bita po uzorku (linearno) 128 kbit/s Analogna telefonija: 300 Hz 3400 Hz fu = 8 kHz, 8 bita po uzorku (nelinearno, A/) 64 kbit/s

irokopojasni (AM radio, ISDN; videokonferencija; B = 7 kHz) Zvuk visokog kvaliteta (FM radio, televizija; B = 15 kHz) Zvuk visoke tanosti (CD kvalitet; B = 20 kHz)
Svaki kanal 20 Hz 20 kHz fu = 44,1 kHz, 16 bita po uzorku Kanal 30 Hz 15 kHz fu = 32 kHz, 16 bita po uzorku

Kriterijumi za poreenje codec-a


Brzina, izlaz, bitrate (bit/s) Kvalitet
Objektivna merila (klasine metode, izoblienje signala i SNR nisu dobra merila za ljudsku percepciju rekonstruisanog signala) Subjektivna merila (esto vanija od objektivnih)

Kanjenje
Algoritamsko kanjenje u koderu na izvoru koliko traje kodiranje Kod dekodiranja koliko traje dekodiranje? Sinhronizacija sa ostalim medijima u multimedijalnoj aplikaciji

Otpornost na gubitke
Posebno vano za prenos preko mree

Primena na ostale zvukove koji nisu govor, npr. fax i modemske signale, muziku Sloenost (hw/sw) Cena izvoenja

Subjektivna merila kvaliteta


Opta ocena kvaliteta miljenje korisnika
Mean Opinion Score (MOS) Degradation MOS (DMOS)

Ocena razumljivosti govora


Dijagnostiki testovi s parovima rei koje slino zvue, 90% tanosti smatra se toll quality Dynamic Rhyme Test (DRT) 96 parova engleskih rei, npr. dune/tune, chair/care, moon/noon ,...sluaocima se nudi popis i pitaju se koju re su uli

Objektivne metode
Novije objektivne metode temelje se na poznavanju ljudskog sluha raunaju izoblienje zvunog signala sa percepcijskim teinskim faktorima
Ideja: izoblienja koje uho vie uje imaju vei teinski faktor od onih manje primetnih ili neprimetnih

Perpetual Evaluation of Speech Quality (PESQ)


ITU-T preporuka P.862 Metoda procene subjektivnog kvaliteta govornih kodeka Algoritam predvia subjektivnu ocenu kvaliteta degradiranog uzorka govora Izraz iz algoritma je procenjena vrednost MOS

Perceptual Evaluation of Audio Qualitz (PEAQ)


ITU-R preporuka BS.1387 Algoritam za procenu kvaliteta audia

Karakteristike govora vane za kodiranje


Izvor: ljudski govorni organi
Vazduh iz plua prolaskom kroz govorne organe (dunik, grkljan, glasne ice, upljine usta i nosa) stvara glas
Zvuni glasovi (vazduh izaziva vibracije glasnih ica) Bezvuni glasovi (nema vibracija glasnih ica)

Prijemnik: ljudski sluni organi


ujno podruje 20 Hz 20 kHz, dinamiki raspon 120 dB Za razumljivost najvanije 2-5 kHz (500-2000 Hz) Kvalitet se ocenjuje subjektivno Poznata anomalija: efekat maskiranja: jedan zvuni signal prekriva drugi (zavisno od relativnih glasnoa i frekvencija)

Maskiranje zvuka

Vremenska analiza govora

Frekvencijska analiza govora (1)


Odseak 30 ms bezvuni suglasnik s

Frekvencijska analiza govora (2)


Uzorak 30 ms zvuni suglasnik n Uoljive rezonantne frekvencije - formanti

Model govora u vremenu


Model govora u vremenu moe se opisati on-off modelom Intervali govora proseno traju 800 ms 1,2 s Intervali tiine (izmeu pojedinih glasova, rei i reenica) proseno traju 1 1,6 s
Ako se na izlaz kodera ne alje nita u intervalim tiine, moe se utedeti do 40%

Vremenska svojstva govornog signala


Govorni signal je nestacionaran (menja se u vremenu) ali u manjim vremenskim intervalima (okvirima od 20 30 ms) moe se posmatrati kao stacionaran

Ideje za konstrukciju codeca


Karakteristika govornog signala je da ima veu verovatnou primanja manjih vrednosti nego veih vrednosti
Uniformna kvantizacija nije optimalna Isplati se tanije kodirati manje vrednosti od veih-nelinearna kvantizacija daje bolji kvalitet uz jednak broj bita po uzorku

Postoji visoka korelacija izmeu uzastopnih uzoraka i uzastopnih frejmova


Uklanjanjem redundancije u signalu moe se smanjiti zapis

Na osnovu poznavanja karakteristika govora tj. fiziolokih karakteristika govornog trakta, moe se napraviti model.
Parametri modela se raunaju na osnovu stvarnih uzoraka Prenose se samo parametri a govor se rekonstruie (sintetizuje) na osnovu modela U najnovijim koderima (npr. MPEG-4 SA) ova ideja se proiruje i na druge zvukove

Koderi govora

Koderi talasnog oblika


Vee brzine, dobar kvalitet, razvijeni za fiksnu i kasnije doraeni za mobilnu telefoniju Pulsno-kodna modulacija (PCM)
Preporuka ITU-T G.711 Pulse Code Modulation for voice frequencies (PCM)

Adaptivni diferencijalni PCM (ADPCM)


Preporuka ITU-T G.72 Adaptive Differential Pulse Code Modulation (ADPCM); sadri zastarelu preporuku G.721 (originalni standard) Proirenje je ITU-T G.727 5-, 4-, 3- and 2 bits per sample embedded Adaptive Differential Pulse Code Modulation (ADPCM)

PCM
Uzorkovanje na 8 kHz, nelinearna kvantizacija po logaritamskoj karakteristici prema A-zakonu (Evropa) ili -zakonu (SAD, Japan) Prednosti:
Jednostavan Visok kvalitet (MOS 4.3) Malo kanjenje (1 uzorak)

Mane:
64 kbits/s nije malo Nema mehanizma za kontrolu i ispravljanje greaka (nije dobar kandidat za internet telefoniju)

Primena: ve decenijama u fiksnoj telefoniji

Princip diferencijalnog kodera (ADPCM)


U koderu je sadran dekoder pa se rauna razlika izmeu signala kojeg bi dekoder predvideo i stvarnog signala; ova razlika se kvantizuje i alje dekoderu

ADPCM - karakteristike
Osim tipine brzine od 32 kbit/s, zavisno od broja bita za kodiranje greke, standard specifikuje i brzine 40 kbit/s (5 bita), 24 kbit/s (3 bita) i 16 kbit/s (2 bita) Prednosti:
Nema algoritamskog kanjenja Prenosi i modemske i fax signale bez degradacije

Mane:
Velika brzina (postoje bolja resenja na manjim brzinama) Osetljiv na gubitke

Primena: kuni beini telefon DECT (Digital European Cordless Telephony) standard Primena u irokopojasnom koderu: preporuka ITU-T G.722 Wideband (7 kHz) audio codec by Subband ADPCM (SB-ADPCM)
64 (56, 48) kbits/s ISDN aplikacije, telekonferencija

Koderi zasnovani na modelu


Ideja: koder i dekoder imaju isti model govornog trakta
Parametri modela se raunaju za frejmove uzoraka govora Dekoderu se prenose parametri modela (a ne uzorci govora) pa se govor sintetizuje na odreditu Princip analize/sinteze

Postiu se vrlo male brzine Prvi koderi, npr. LPC-10 su bili loijeg kvaliteta, razvijeni za sisteme ograniene namene, npr. robotika, sigurna telefonija Noviji koderi, npr. CELP na malim brzinama postiu dobar kvalitet ali su raunski sloeniji

Ljudski govorni organi

Model proizvodnje govora


a) Blok dijagram ljudskih govornih organa

b) Blok dijagram dekodera zasnovanog na modelu (LPC Linear Predictive Coder)

Model govornog trakta


Govorni trakt se modelira linearnim filterom sa nizom koeficijenata Signal se moe prikazati kao izlaz linearnog filtera uz zadatu pobudu Koder izraunava parametre filtera i pobude i alje ih dekoderu

Linear Predictive Coding (LPC)

Pobuda: periodini impulsni signal Parametri modela: Frekvencija pobude Jaina pobude Zvuni/bezvuni glas Koeficijenti filtera Npr. LPC-10 na 2,4 kbit/s Frekvencija uzorkovanja: 8 kHz Daljina frejma: 180 uzoraka = 22,5 ms

LPC raunanje parametara modela


Frekvencija pobude
Average Magnitude Difference Function (AMDF) AMDF izraunava prosek razlika signala u zvunom okviru udaljenih na neki period P

Zvuni/bezvuni glas
AMDF nema jasnih minimuma za bezvune glasove Bezvuni glasovi: manja amplituda signala

Jaina pobude
Koren srednje vrednosti kvadrata signala

Koeficijenti filtera
Metoda najmanjeg kvadrata greke

Code Excited Linear Prediction (CELP)


Zajedniki renik kodera (code-book) u koderu i dekoderu Dekoderu se alje indeks pobude Analiza-sintezom slui za odreivanje pobude Pretrauje se skup moguih pobuda i za svaku sprovodi analiza Rauna se percepcijska greka Bira se pobuda sa minimalnom grekom

Primeri kodera zasnovanih na modelu (1)


Preporuka ITU-T G.728 Low Delay CELP (LD-CELP)
16 kbits/s, MOS 4, algoritamsko kanjenje samo 0,625 ms

Preporuka ITU-T G.729 Conjugate Structure Algebraic CELP (CS-CELP)


8 kbit/s, MOS 4, kanjenje 15 ms

Preporuk ITU-T G.723.1 Dual rate speech coder for multimedia communications trensmitting at 5.3 and 6.3 kbit/s
5,3 i 6,3 kbit/s, MOS 3,8 Pogodan za internet telefoniju

Primeri kodera zasnovanih na modelu (2)


ETSI GSM 06.10: Full Rate codec na 13 kbit/s
U upotrebi na veini GSM 900 i PCS 1800 mrea Regular Pulse Exitation LPC with Long Term Prediction (RPE-LTP) koder

ETSI GSM 06.60: GSM Enhanced Full Rate na 12,2 kbit/s


Algebraic Code-Excited Linear Prediction (ACELP) Osnova i za severnoameriki TDMA IS-136 kao i za ITU-T G.729

ETSI GSM 06.20: GSM Half Rate na 5,6 kbits/s


Vector-Sum Excited Linear Prediction (VSELP)

Koderi zvuka u frekvencijskom domenu


Koderi zvuka u frekvencijskom domenu nisu ogranieni na govor; imaju dobra svojstva za bilo kakve zvuke, npr. muziku
Koriste pod-pojasno kodiranje (podela na frekvencijske pod-pojase pre kodiranja)

Koriste efekat maskiranja


Uz jak signal na nekoj frekvenciji, uvo ne moe da uje slabiji signal na bliskoj frekvenciji Osim u zadatom trenutku, maskiranje ima uticaj i u vremenu (pre/posle)

Osnovni percepcijski koder

MPEG Audio
MPEG-1
Dva audio kanala Fu = 44,1 kHz (isto kao CD), 32 kHz, 48 kHz (isto kao DAT) Brzine od 8-16 kbit/s do 320 kbit/s MPEG Audio Layer I, II, III: nivoi kodiranja rastue sloenosti Koristi se percepcijsko kodiranje

MPEG-2
Isti osnovni koder kao MPEG-1 Pet audio kanala + niskofrekventni kanal Uz MPEG-1 jo i fu = 16 kHz, 22,05 kHz, 24 kHz AAC Advanced Audio Codec, dodat kasnije

MPEG-4
AAC, dva kodera za govor, strukturirani audio, ...

MPEG Audio Layer 3 MP3 koder

Pregled kodera govora i zvuka

Vous aimerez peut-être aussi