UNIVERZA V LJUBLJANI Fakulteta za elektrotehniko Janez Zibert ČASOVNO-FREKVENČNE PREDSTAVITVE GOVORNIH SIGNALOV Magistrsko delo Mentor: prof. dr. France Mihelič Ljubljana, 2001 Ključne besede: časovno-frekvenčne predstavitve, časovno-frekvenčne porazdelitve, energijske porazdelitve, kvadratne časovno-frekvenčne predstavitve, linearne časovno-frekvenčne predstavitve, diskretne časovno-frekvenčne predstavitve, Cohenov razred, afine predstavitve, Wigener-Villejeva predstavitev, obdelava govornega signala, akustične značilke govora, koeficienti kepstra, modeliranje govora, razpoznavanje govora, razpoznavanje glasov, razpoznavanje glasovnih prehodov. i Zahvala Za nastanek magistrskega dela se moram najprej iskreno zahvaliti mentorju prof. dr. Francetu Miheliču. Pod njegovim vodstvom sem uspel pridobiti ustrezno znanje iz področja tehnologij govorjenega (slovenskega) jezika. Njegova pripravljenost za pomoč, izvrstno poznavanje področja in izkušenost so mi prihranile prenekatero uro, ki bi jo bil sicer prisiljen žrtvovati za iskanje odgovorov na vsa svoja vprašanja. Njegova raziskovalna pot pa pomeni zame tudi veliko vzpodbudo. Hvala tudi moji družini, ki mi je s svojo ljubeznijo, delom in prijaznim domom omogočila možnost brezskrbnega študija in hkrati pomenila veliko gonilo v življenju. Predvsem pa bi se rad zahvalil Mateji. Hvala za vso potrpežljivost, vsestransko pomoč in razumevanje. Hvala, ker si z mano, me vzpodbujaš in mi daješ energijo. Rad bi se zahvalil tudi vsem sodelavcem Laboratorija za umetno zaznavanje, sisteme in kibernetiko: vodji prof. dr. Nikoli Pavešiču za prijaznost in pripravljenost za pomoč, Simonu, Jerneji, Ankici, Mariu, Ivotu, Tonetu, Boštjanu in Amirju. Hvala, ker ste me tako prijazno sprejeli v laboratorij in bili vedno pripravljeni za pogovor in pomoč. Še posebej bi rad izpostavil Simona, ki me je s svojimi idejami in nespornim znanjem naučil veliko novega, predvsem pa mi je odprl veliko novih in zanimivih raziskovalnih izzivov. Hvala tudi za čas, ki si ga porabil zame, in številne programe, ki sem jih lahko uporabljal za izvedbo svojih idej. Nazadnje se zahvaljujem tudi vsem svojim profesorjem in učiteljem za pridobljeno znanje. iii Povzetek V magistrskem delu se ukvarjamo s časovno-frekvenčnimi predstavitvami govornih signalov. V prvem delu podajamo splošne principe in prijeme obravnave signalov z matematičnega stališča. V časovno-frekvenčni ravnini jih obravnavamo na dva načina: z linearnimi in kvadratnimi predstavitvami, kjer preučujemo porazdelitve energije signala v ravnini časa in frekvence. Zato takšnim predstavitvam pravimo tudi energijske porazdelitve. V tem delu vpeljemo nekaj osnovnih idej izvedbe in analiziramo lastnosti takšnih predstavitev. Posebna pozornost je namenjena predstavitvam Cohenovega razreda, manj pa drugi večji skupini - afinim predstavitvam. V nadaljevanju se posvečamo diskretizaciji časovno-frekvenčnih predstavitev in problemom, ki pri tem nastanejo. Podajamo dve metodi konstrukcije diskretnih predstavitev: neposredne prevedbe zveznih verzij in izpeljave diskretizacije direktno iz vzorčenega signala s pomočjo operatorske teorije. Drugi način je predvsem pomemben za ugotavljanje lastnosti diskretnih časovno-frekvenčnih predstavitev. Glavni poudarek magistrskega dela pa je namenjen časovno-frekvenčni obdelavi govornih signalov. Tu se posvečamo dvema konkretnima primeroma: prikazovanju slik časovno-frekvenčnih predstavitev in ustreznemu pridobivanju informacije iz teh slik za nadaljnje razpoznavanje govora. Predlagamo nekaj metod obdelave govornih signalov s temi predstavitvami, ki jih uspešno uporabimo za pridobivanje ustreznih značilk govornega signala za razpoznavanje govora. Tu kombiniramo različne izvedbe pridobivanja značilk iz govornega signala na podlagi različnih časovno-frekvenčnih predstavitev in primerjamo rezultate razpoznavanja na primeru govorne zbirke. V Abstract This master thesis focuses on time-frequency representations of speech signals. First part overviews some theoretical grounds and basic concepts of time-frequency analysis of signals in general. Joint time-frequency signal representations characterize signals over time-frequency plane. Therefore they combine time domain and frequency domain analyses to yield a potentially more revealing picture of the temporal localization of signal's spectral components. Time-frequency representations are divided into two main classes: linear (also known as atomic decompositions) and quadratic (energy distributions) representations. In this section we review some fundamental ideas and basic properties of each class of representations with emphasis to Cohen class of energy distributions. The next part of our work gives discrete versions of time-frequency representations. Here we are studying two basic concepts of discretization of continuous time-frequency representations: uniform sampling of continuous counterparts and direct derivation of discrete representations from sampled signals using the concepts of operator theory. The second approach is important for studying the properties of discrete time - discrete frequency representations. The main emphasis of this work has been to study and to find potentially good time-frequency representations for analysis and further processing of speech signals. Our main goal has been to find the best method and representation for deriving features from speech signals for automatic speech recognition. Here we present different methods and compare several time-frequency representations to achieve the best performance of speech recognition system based on hidden Markov models. vii Kazalo Zahvala iii Povzetek v Abstract vii 1 Uvod 1 1.1 Motivacije za delo.............................. 2 1.2 Pregled vsebine dela ............................ 3 2 Časovno—frekvenčne predstavitve signalov 4 2.1 Analiza signalov............................... 5 2.1.1 Časovna in frekvenčna predstavitev signala............ 5 2.1.2 Princip nedoločenosti........................ 6 2.1.3 Preproste časovno-frekvenčne predstavitve............ 7 2.2 Linearne časovno-frekvenčne predstavitve ................ 9 2.2.1 Kratkočasovna Fourierjeva transformacija ............ 10 2.2.2 Valčna transformacija ....................... 13 2.2.3 Diskretne linearne predstavitve .................. 15 2.3 Kvadratne časovno-frekvenčne predstavitve................ 18 2.3.1 Prehod iz linearnih h kvadratnim predstavitvam......... 19 2.3.2 Cohenov razred........................... 22 2.3.3 Afine predstavitve.......................... 37 3 Diskretne časovno-frekvenčne predstavitve 41 3.1 Vzorčenje zveznih predstavitev....................... 42 3.1.1 Diskretna Wigener-Villejeva porazdelitev............. 42 3.2 Vzorčenje s pomočjo operatorske teorije.................. 46 3.2.1 Karakteristične funkcije zveznih predstavitev........... 46 3.2.2 Prevedba v diskreten prostor.................... 48 3.2.3 Lastnosti operatorjev........................ 49 3.2.4 Izpeljava diskretnih časovno-frekvenčnih predstavitev...... 50 4 Analiza in razpoznavanje govornega signala 55 4.1 Časovno-frekvenčne slike govornega signala................ 56 4.1.1 Slike časovno-frekvenčnih predstavitev.............. 56 4.1.2 Primerjava predstavitev ...................... 58 4.1.3 Popravljene predstavitve...................... 64 4.2 Razpoznavanje govora ........................... 68 4.2.1 Razpoznavalnik govora....................... 68 4.2.2 Razpoznavanje govora z različnimi predstavitvami........ 72 5 Zaključek 93 5.1 Sklepne ugotovitve............................. 94 5.2 Nadaljnje delo................................ 95 5.2.1 Renyijeva entropija......................... 96 5.2.2 Houghova transformacija...................... 96 5.2.3 Učenje jedra predstavitve ..................... 97 Viri in literatura 99 A Pregled časovno-frekvenčnih predstavitev 104 A.l Linearne časovno-frekvenčne predstavitve ................ 104 A.2 Kvadratne časovno-frekvenčne predstavitve................ 104 A.3 Ostale časovno-frekvenčne predstavitve.................. 107 Slovar izrazov 108 Slike 2.1 Časovna predstavitev signala in njegov (amplitudni) spekter. Fourierjeva transformacija T predstavlja vez med časovno in frekvenčno predstavitvijo signala.................................... 5 2.2 Povprečna frekvenca fm in standardna deviacija B v primeru realnega signala (a) in dejanske iskane vrednosti (b)...................... 6 2.3 Prikaz trenutne frekvence in skupinske zakasnitve signala iz zgornje slike. Ode-beljena črta predstavlja oceno trenutne frekvence, tanjša pa skupinske zakasnitve cvrka. Tu gre za monokomponentni nestacionarni signal........ 8 2.4 Prikaz trenutne frekvence in skupinske zakasnitve signala x(t) = e-?271^1* + ej27r/2^ kjer je II _ q.i m h. = 0.3. Tu gre za dvokomponentni stacionarni signal. Iz slike je razvidno, da obravnavani količini v tem primeru nezadostno opišeta potek signala............................. 9 2.5 Delovanje okna na signal x(u) pri kratkočasovni Fourierjevi transformaciji. . 11 2.6 Različni elementarni funkciji (atoma) dobljeni iz osnovne funkcije (okna analize) s premiki po času in po frekvenci. Na sliki sta prikazani združeno. ... 12 2.7 Dobra frekvenčna in slaba časovna ločljivost nestacionarnega signala s STFT z uporabo daljšega Hammingovega okna................... 13 2.8 Dobra časovna in slabša frekvenčna ločljivost nestacionarnega signala s STFT z uporabo krajšega Hammingovega okna................... 14 2.9 Saklirni faktor a vpliva na dolžino in frekvenco valčkov, oblika pa se ohranja. Tu je primer dveh valčkov pridobljenih iz osnovnega Morletovega valčka ifi (t) = a i ej^o*e-V................................. 15 v2îr 2.10 Časovno-frekvenčna ločljivost CWT na primeru Diracovega impulza..... 16 2.11 Diskretizacije časovno-frekvenčne ravnine: vzorčenje po času (Shannon) vzorčenje po frekvenci (Fourier), ekvidistantna razdelitev časovno-frekvenčne ravnine (Gabor) in neenakomerna razdelitev (valčna transformacija)......... 18 2.12 Spektrograma signala sestavljenega iz linearno moduliranih signalov. Na levi strani (a) imamo izrazit pojav interference, desno (b) pa ne. Obakrat smo uporabili Gausovo okno, dolžine 23 točk................... 21 xi t2 2.13 Primer skalograma z Morletovimi valčki, ifi(t) = —^eja;o*e~~2~, na signalu sestavljenem iz dveh sinusnih valovanj.................... 22 2.14 Slika WVD cvrka............................... 23 2.15 Pojav interference med dvema točkama v časovno-frekvenčni ravnini. Pri WVD se interferenčni členi manifestirajo v geometričnem središču med dvema točkama, pasovi pa so vzporedni daljici, ki ju povezuje [Auger-97a]..... 26 2.16 Slika WVD in PWD štirih Gaussovih atomov lociranih na ogliščih pravokot-nika v časovno-frekvenčni ravnini, (a) WVD porazdelitev poleg slik posameznih atomov imamo še 6 področji interference (dva v sredini se prekrivata), (b) PWVD porazdelitev: zaradi glajenja interferenca ni tako izrazita (predvsem po frekvenčni smeri), frekvenčna ločljivost pa je slabša (atomi so v smeri frekvence bolj razmazani, tudi interferenčni členi so odebeljeni)....... 27 2.17 Primerjava slik sintetičnega signala z WVD, PWVD in SPWVD....... 30 2.18 Primerjava slik WVD in AF preprostih sintetiziranih signalov [Hlawatsch-92]. 31 2.19 Sliki signala sestavljenega iz dveh cvrkov: (a) WVD predstavitev (b) predstavitev z AF funkcijo............................ 32 2.20 Slika prikazuje pojav interference pri Margenau-Hillovi predstavitvi. Gre za drugačno geometrijo interference kot pri WVD. Signal je sestavljen iz dveh Gaussovih atomov.............................. 34 2.21 Pojav interference pri različnih položajih štirih Gaussovih atomov. Uporabili smo CW pri a = 1.............................. 36 2.22 Slike jeder v AF ravnini (tu gre za množenje jedra z osnovno predstavitvijo): (a) CW, manjša = fJ°°Jt-tmT\x(t)\>dt B" = t IZcif - fm)2\X(f)\2df frekvenčna širina. S tem pa smo že predstavili signal v časovno-frekvenčni ravnini in sicer s povprečjem {tmi fm) m standardnimi odklonoma T po času in B po frekvenci. Če malo bolje analiziramo količino |X(/)|2, ugotovimo, daje v primeru realnega signala gostota spektralne energije \X(f)\2 simetrična funkcija frekvence /, saj velja X(—f) = X*(f). To pa pomeni, da imamo v tem primeru povprečno frekvenco fm vedno O, pa tudi standardna deviacija nam ne pove dovolj. Razmere v primeru realnega signala so prikazane na sliki 2.2(a), mi pa bi radi dobili "prave" vrednosti prikazane na sliki 2.2(b). I*(/)I 2S (b) Slika 2.2: Povprečna frekvenca fm in standardna deviacija B v primeru realnega signala (a) in dejanske iskane vrednosti (b). To težavo lahko preprosto rešimo na dva načina. Najpreprosteje je, če v primeru realnih signalov računamo ti dve količini samo za pozitivni del. Tako dobimo B = "e~ fo°(f ~ fm)2\X(f)\2df. Druga možnost pa je uvedba analitičnega signala, ki ga bomo spoznali v nadaljevanju. Produkt T x B ima zanimivo lastnost. Iz definicije Fourierjeve transformacije ob upoštevanju Cauchy-Schwarzove neenakosti lahko pokažemo, da je T x B > 1. (2.1) 2. Časovno-frekvenčne predstavitve signalov 7 To lastnost poznamo kot Heisenberg-Gaborjevo neenakost [Papo-77] ali kot princip nedoločenosti. Spodnja meja produkta (2.1) predstavlja omejitev pri opazovanju časovno-frekvenčnih karakteristik signala. Pove namreč, da ne moremo sočasno doseči visoke časovne in frekvenčne ločljivosti. Spodnjo mejo produkta T x B = 1 dosežemo lahko le z Gaussovimi signali x(t) = Cexp[-a(t - tmf + ]2ttfm(t - tm)], (2.2) kjer sta(7elin«6l+. 2.1.3 Preproste časovno-frekvenčne predstavitve Drugi preprosti način predstavitve nestacionarnih signalov sočasno v časovnem in frekvenčnem prostoru je ocenjevanje trenutne frekvence signala. 2.1.3.1 Analitičen signal Ob tem moramo najprej definirati pojem analitičnega signala. Eden izmed razlogov uvedbe analitičnega signala je primer, ki smo ga omenili že v prejšnjem poglavju (slika 2.2). Druge pa bomo spoznali v tem delu. Analitični signal realnega signala x(t) je kompleksen signal xa(t) podan kot xa(t)=x(t)+jHT(x(t)), (2.3) kjer je HT(x(t)) = ^ f_™ j^dt' Hilbertova transformacija signala x. Signal xa[t) je analitičen, ker ustreza Cauchy-Riemannovim pogojem o diferenciabilnosti. Da se pokazati [Cohen-95, str. 31], da je Ex = 2^xa m Ex = Eht(x)- (2-4) To pa še ne pomeni, da je isto, če spremljamo porazdelitev energije realnega signala x(t) ali pa njegove analitične verzije xa(t). Bistvena lastnost analitičnega signala je, da se znebimo problema simetričnosti. To lahko najbolje vidimo, če zapišemo pridruženi analitični signal xa(t) v frekvenčnem prostoru z Xa(f), za katerega velja: Mf) = 0, če / < 0, Xa(f)=X(0), če/ = 0, Xa(f) = 2X(f), če/>0. Tu se lepo vidi, da smo se znebili porazdelitve pri negativnih vrednostih frekvence /, hkrati pa smo tudi za dvakrat povečali energijo signala. Zapis analitičnega signala v frekvenčnem prostoru predstavlja tudi način, kako iz danega signala tvorimo analitični. 2. Časovno-frekvenčne predstavitve signalov 2.1.3.2 Trenutna frekvenca in skupinska zakasnitev (2.5) Na analitičnih signalih lahko definiramo trenutno amplitudo in trenutno frekvenco signala kot ax{t) = |xa(t)I trenutna amplituda, fx{t) = 2tt ardt trenutna frekvenca. avgxa(t) pomeni fazo analitičnega signala xa(t), torej je trenutna frekvenca definirana kot odvod faze signala, kar si lahko razlagamo kot opisovanje spreminjanja frekvence po času. Na podoben način v dualnem frekvenčnem prostoru lahko definiramo tudi skupinsko zakasnitev analitičnega signala kot W) = 1 dwgXa(f) 2tt df s katero ocenjujemo čas pojava posamezne frekvence v signalu. (2.6) Casovni potek chirpa Trenutna frekvenca in skupinska zakasnitev signala Slika 2.3: Prikaz trenutne frekvence in skupinske zakasnitve signala iz zgornje slike. Odebel-jena črta predstavlja oceno trenutne frekvence, tanjša pa skupinske zakasnitve cvrka. Tu gre za monokomponentni nestacionarni signal. Načeloma sta ta dva pojma zelo sorodna, kar je lepo razvidno iz slike 2.3, kjer je z obema količinama prikazan Gaussovo amplitudno in linearno frekvenčno moduliran signal - cvrk (ang. chirp). Slabost te metode pa je naslednja. Pri trenutni frekvenci implicitno privzamemo, da je v vsakem trenutku v signalu prisotna samo ena frekvenčna komponenta, katere spremembe merimo. Podobno je tudi z dualno količino - skupinsko zakasnitvijo signala. Tudi tu namreč privzamemo, da se dana frekvenca pojavi samo ob določenem trenutku v signalu. Na žalost pa je signalov, ki bi zadoščali tem predpostavkam v realnem svetu malo. 2. Časovno-frekvenčne predstavitve signalov 9 0.5 0.45 0.4 â « 0.35 E 0.3 o 0.25 0.2 0.15 ( 0.5 0.4 g0.2 Slika 2.4: Prikaz trenutne frekvence in skupinske zakasnitve signala x(t) = e^2"^1* + e-7271^2*, kjer je 4 = 0.1 in 4L = 0.3. Tu gre za dvokomponentni stacionarni signal. Iz slike je razvidno, da obravnavani količini v tem primeru nezadostno opišeta potek signala.___________________ Za primer si lahko pogledamo signal x(t) = e-72"^1* + e7'2""^2*, kjer imamo v vsakem trenutku dve frekvenci. Tu s količinama trenutne frekvence in skupinske zakasnitve v signalu ne moremo več pravilno analizirati signala, kot je razvidno iz slike 2.4. Kot je razvidno iz primerov, nam ti dve količini ne dasta dovolj informacije v primeru večkomponentnih (frekvenčno) nestacionarnih signalov. To pa zato, ker je takšna predstavitev omejena samo na enodimenzionalne krivulje v časovno-frekvenčni ravnini (čas v odvisnosti od frekvence in obratno). Zato si bomo v nadaljevanju ogledali predstavitve, kjer predstavimo signal z dvodimenzionalnimi ploskvami v časovno-frekvenčni ravnini. 2.2 Linearne časovno-frekvenčne predstavitve Kot smo lahko videli iz prejšnjih primerov, nam osnovna analiza signalov ne pove dovolj v primeru nestacionarnih signalov, ki vsebujejo več kot eno samo frekvenčno komponento. Medtem ko sam časovni potek signala ne pove nič o frekvenčni sliki signala, nam spekter signala podaja samo informacijo o frekvenčni zastopanosti v signalu. Ravno tako nam ocene trenutne frekvence in skupinske zakasnitve v signalu nezadostno opišejo časovno zastopanost frekvenčnih komponent in spreminjanje le-teh v odvisnosti od časa. Problem, ki je skupen vsem takšnim predstavitvam je, da poskušamo opisovati signal samo v odvisnosti od enega samega parametra bodisi od frekvence ali časa. V nadaljevanju si bomo ogledali predstavitve, kjer analiziramo signal v odvisnosti od časa in frekvence skupaj. Se pravi, da bomo v časovno-frekvenčni ravnini opazovali dvodimenzionalne ploskve, ki ju definira par (t,f). Zato takšnim predstavitvam pravimo časovno-frekvenčne predstavitve signalov. Formalno jih lahko zapišemo kot Trenutna frekvenca ii ! - cas Skupinska zakasnitev signala 2. Časovno-frekvenčne predstavitve signalov___________________________________10 preslikave: T: x(t)^Tx(t,f). V tem razdelku se bomo ukvarjali t.i. linearnimi časovno-frekvenčnimi predstavitvami (ang. linear time-frequency representations) ali atomarnimi predstavitvami (ang. atomic decompositions), kjer gre v bistvu za razvoj signala po temeljnih funkcijah (atomih) časovno-frekvenčnega prostora. Takšne transformacije signalov v vrsto po elementarnih funkcijah prostora so linearne, tako da za takšne predstavitve velja: x(t) = dxi(t) +c2x2(t) =4> Tx(t,f) = CiTXl(tif) + c2TX2(tif). Najbolj znana in razširjena predstavnika atomarnih časovno-frekvenčnih predstavitev sta kratkočasovna Fourierjeva transformacija in valčna transformacija. V nadaljevanju se bomo omejili samo na nekaj osnovnih definicij in lastnosti kratkočasovne Fourierjeve in valčne transformacije. Obravnavali ju bomo predvsem v luči linearnih predstavitev, poudarili njune razlike in pomanjkljivosti, ki nas bodo pripeljale k novim razredom časovno-frekvenčnih predstavitev. 2.2.1 Kratkočasovna Fourierjeva transformacija 2.2.1.1 Definicija Kot smo že omenili Fourierjeva transformacija (FT) ne nosi informacije o času nastopa posameznih spektralnih komponent. Da bi dosegli časovno lokalizacijo FT, uporabimo okensko funkcijo h(u — t), s katero pomnožimo signal, nad tem signalom pa potem izvedemo običajno FT. Ce to počnemo v vsakem trenutku t, lahko definiramo kratkočasovna Fourierjeva transformacijo STFT (ang. short-time Fourier transform) kot />oo Fx{t,f;h)= x(u)h*{u-t)e-j27{fudu. (2.7) Tu predstavlja funkcija h (t) kratkočasovno okno s središčem v točki t = 0 in / = 0 (glej sliko 2.5). Z množenjem signala x{u) s konjungirano okensko funkcijo h*(u — t) dejansko izrežemo signal v okolici točke t, na katerem potem izračunamo spekter. Zato si lahko razlagamo STFT tudi kot izračun "lokalnega spektra" signala x(u) v okolici točke t. Ob predpostavki, da ima okenska funkcija končno energijo, lahko zapišemo signal x(t) kot -1 /*oo /»OO x(t) = — / Fx(u, L; h)h(t - u)ej2^dudC, t^h J — oo J —oo kjer je Eh = J °° \h(t)\2dt. To pa pomeni, da smo signal razstavili po elementarnih funkcijah - atomih, oblike htj = h(u - t) exp[j2nfu], ki jih dobimo iz osnovne okenske funkcije h(t) s translacijo po času in po frekvenci (modulacijo). Na sliki 2.6 lahko vidimo, dve takšni bazni funkciji dobljeni iz Hammin-govega okna. 2. Časovno-frekvenčne predstavitve signalov 11 kratkocasovno okno Slika 2.5: Delovanje okna na signal x(u) pri kratkočasovni Fourierjevi transformaciji. STFT pa lahko zapišemo tudi z dualnimi spektralnimi oblikami signala in okna: /oo -oo kjer sta X in H Fourierjevi transformaciji x in h. V tem primeru si lahko razlagamo STFT kot filtriranje signala x(u) z banko filtrov s prenosnimi funkcijami H*(L — f), [Rabiner-93, str. 84]. 2.2.1.2 Osnovne lastnosti • Poleg pogoja linearnosti ohranja STFT še pomike po frekvenci in času, velja namreč: x(t) = x{t)é>^ot =i Fx-(t,f;h) = Fx{t,f-f0;h), x(t)=x(t-to) =i Fi(t,f;h) = Fx(t-t0,f;h)e-j2*tof. • Signal x(t) lahko rekonstruiramo iz STFT tudi z uporabo drugih oken analize, saj velja: x{t) oo />+oo — oo J — oo Fx(u,Ç;h)g(t-u)e?2**dudÇ, pri čemer izberemo g(u) takšen, da ustreza pogoju ' + 00 g(t)h*(t)dt = 1. 2.2.1.3 Ločljivost v časovno—frekvenčni ravnini Časovno ločljivost STFT najbolje obravnavamo, če vzamemo za signal Diracov impulz: x(t) = 5(t - t0) => Fx(t, /; h) = e-j2ntofh{t - t0). 2. Časovno-frekvenčne predstavitve signalov 12 casovno-frekvencne bazne funk. 0 50 100 150 200 250 300 cas Slika 2.6: Različni elementarni funkciji (atoma) dobljeni iz osnovne funkcije (okna analize) s premiki po času in po frekvenci. Na sliki sta prikazani združeno. Tako lahko ugotovimo, da je časovna ločljivost odvisna od trajanja osnovne okenske funkcije h. Podobno lahko analizirmao frekvenčno ločljivost, če vzamemo za signal kompleksni sinusoid (ali Diracov impulz v spektru): x(t) = e^/ot ^ Fx(t, /; h) = e-^f°H(f - /0). Iz tega izračuna pa je razvidno, da je frekvenčna ločljivost STFT odvisna od pasovne (frekvenčne) širine okenske funkcije h. Tako smo dobili dva izključujoča si pogoja: za dobro časovno ločljivost bi namreč potrebovali kratko časovno okno h(t), po drugi strani pa zahtevamo za boljšo frekvenčno ločljivost ozkopasovni filter, kar pomeni dolgo časovno okno h(t). To pa nam onemogoča princip nedoločenosti. Najbolj očiten primer najboljše časovne ločljivosti je, če si za okensko funkcijo izberemo Diracov impulz: h(t) = 6(t) => Fx(t,f;h)=x(t)e-^t. S tako STFT dosežemo najboljšo časovno ločljivost, ne dobimo pa nobene informacije o spektru. Podobno velja tudi v primeru, ko si za okensko funkcijo izberemo konstanto: h(t) = 1 (H(f) = 5(f)) =* Fx(t, /; h) = X(f), kjer spremenimo STFT v Fourierjevo transformacijo in tako ne dobimo nobene informacije o časovnem poteku signala. Seveda je smiselno vzeti okna "nekje vmes" med obema skrajnostima. Izbira oken je odvisna od signalov, ki jih obdelujemo in analize same, [Harris-78]. Kot primer kako oblika in dolžina okna vplivata na časovno-frekvenčno ločljivost, si poglejmo kombinacijo dveh Gaussovo amplitudno moduliranih signalov (Gaussovi atomi) skupne dolžine 128 odtipkov in enotne konstantne frekvence. V prvem primeru vzamemo za STFT Hammingovo okno dolžine 65 točk. Kot lahko vidimo iz slike 2.7 2. Časovno-frekvenčne predstavitve signalov 13 linearna skala 1 0.5 0 -0.5 0.4 | 0.35 I 0.3 ) / + 00 -oo x(s)tâa{s)ds, (2- 2. Časovno-frekvenčne predstavitve signalov 14 časovni potek signala linearna skala 1 0.5 0 -0.5 0.45 - 0.4 - | 0.35 - i ¦ 0.3 -i '- 0.25 -i j 0.2 - i 0.15 - 0.1 0.05 - 0 ; STFTI2, Hamming, 17 točk ¦¦¦- Slika 2.8: Dobra časovna in slabša frekvenčna ločljivost nestacionarnega signala s STFT z uporabo krajšega Hammingovega okna. kJer Je Vv(s) -1/2 iß (—-). Parameter a predstavlja skalirni faktor, če je \a\ > 1 valček if) raztegnemo, če je \a\ < 1 valček ift skrčimo. Tako v primeru CWT zamenjamo translacije po frekvenci osnovnih elementarnih funkcij (STFT) s skaliranjem (krčenjem ali raztezanjem) po času. Formalno lahko interpretiramo CWT tudi kot časovno-frekvenčno predstavitev, če zapišemo a = fo/f, kjer je /o središčna frekvenca valčka, [Rioul-92]. Osnovna lastnost skalirnega faktorja a je, da se z njegovim spreminjanjem spreminja tako dolžina kot tudi frekvenčna širina valčka, oblika pa ostaja enaka (slika 2.9). Če to primerjamo s STFT, lahko ugotovimo, da se okenska funkcija pri STFT ohranja, samo premikamo jo po časovno-frekvenčni ravnini, medtem ko pri CWT uporabljamo kratko časovno okno pri visokih frekvencah in daljše pri nizkih, slika 2.10. Frekvenčna širina je proporcionalna frekvenci, velja namreč j = Q = const. S tem tako delno izboljšamo ločljivost (ni več enakomerna) navkljub principu nedoločenosti. 2.2.2.2 Lastnosti • Poleg linearnosti ohranja valčna transformacija premike in raztege po času: y (t) = ¦\/\ä^\x(a0{t - h)) => Ty(t, a;V>) = Tx(a*Q(t - tQ),a/a0;ij>). Ne ohranja pa premike po frekvenci. Takšnim preslikavam pravimo afine preslikave. • Signal x lahko, podobno kot pri STFT, zapišemo z valčno transformacijo: / + 00 f + OO / Tx(s,a;*)iJ>Sta(t)ds-oo J — oo ' da 2~' 2. Časovno-frekvenčne predstavitve signalov 15 Morletovi valčki 150 cas Slika 2.9: Saklirni faktor a vpliva na dolžino in frekvenco valčkov, oblika pa se ohranja. Tu je t2 primer dveh valčkov pridobljenih iz osnovnega Morletovega valčka ij>(t) = -7=e-?w°*e-^". kjer valček <& ustreza pogoju L *(/)^ = i- • Tudi tu velja princip nedoločenosti, le da je tu ločljivost odvisna od frekvence: frekvenčna ločljivost (časovna ločljivost) se z višanjem frekvence slabša (boljša). 2.2.3 Diskretne linearne predstavitve Pri analizi in obdelavi signalov si v večini primerov ne moremo privoščiti zvezno podanih signalov, ampak zgolj njihove vzorčene približke (diskretne verzije signalov). Zato je potrebno vso teorijo zveznih predstavitev tudi ustrezno prenesti v diskreten prostor, kar je v primeru nelinearnih predstavitev lahko zahtevna naloga. 2.2.3.1 Diskretna kratkočasovna Fourierjeva transformacija Pri zvezni STFT vsaka elementarna funkcija (atom) opisuje del časovno-frekvenčne ravnine s površino T x B (dokaz v [Qian-96]). To pa pomeni, da se v zveznem primeru lahko deli, ki jih opisujejo posamezne bazne funkcije, med seboj prekrivajo. Takšna predstavitev pa je redundantna. Zato lahko STFT diskretiziramo, in sicer tako da izberemo ekvidistantno (pravokotno) mrežo ravnine (to je najbolj naravna izbira, saj pri STFT pokrivamo prostor z atomi, kijih dobimo s translacijami po času in frekvenci): Fx[n, m; h] = Fx(ntQ, mf0; h) x (u)h*{u - nt0)e-j27Tmht(>du, 2. Časovno-frekvenčne predstavitve signalov 16 Diracov impulz Slika 2.10: Casovno-frekvenčna ločljivost CWT na primeru Diracovega impulza. m, n G Z, kjer je (nt0,m/0) središče premaknjene bazne funkcije hnt0!mf0. Da bi mini-mizirali redundantnost diskretne predstavitve, morata to in /0 zadoščati pogoju to x /o < 1. V primeru, ko je to x /0 > 1 pokrijemo z atomi hnt0jmf0 premalo prostora (dobimo "luknje" v časovno-frekvenčnem prostoru), v primeru, ko je to x /o < 1, atomi hnto,mf0 tvorijo ogrodje prostora (ne baze), v primeru t0 x /0 = 1, pa dobimo ortonormirano bazo prostora časovno-frekvenčnih funkcij [Daubechies-92]. V primeru diskretne STFT rekonstruiramo signal po naslednji zvezi: x(t) = ^2^2 F^ni m; h]9n,m{t), n m kjer je gn,m{t) = g {t — nt0) exp[j27rm/o«t0]. Podobno kot v zveznem primeru je tu zveza med različnima okenskima funkcijama izražena s pogojem 1 \-^ k -T}Zg(t + 1r-nt0)h*(t-nt0) = 5k, Vt, Jo Jo kjer je 50 := 1 in 5fc := 0, za k ^ 0. Če obdelujemo vzorčeni signal x[n], dolžine N, s frekvenco vzorčenja ^, potem izberemo t0 = kT, k G N. Tako dobimo znani zvezi EN N x[k]h*[k — n] exp[—j2irmk], —— < m < —- k Fx[n,m;h] = x[k] = yj y^ Fx[n, m; h]g[k — n] exp[j27rmfc], n m ki ju učinkovito rešujemo z uporabo hitre Fourierjeve transformacije (2.9) (2.10) 2. Časovno-frekvenčne predstavitve signalov_________________________________________17 2.2.3.2 Gaborjeva transformacija V splošnem pravimo izražavi signala x(t) = ^2^2 ^[^ m; h]9n,m{t), n m kjer je gntm{t) = g {t — nt0) exp[j2nmJont0], Gaborjeva transformacija [Gabor-46]. Prvotno se je pri Gaborjevi transformaciji za elementarne funkcije g (t) izbiralo Gaussova okna (2.2), s katerimi lahko najboljše opišemo (v smislu ločljivosti) časovno-frekvenčni prostor. Gaborjevo transformacijo lahko posplošimo, če dovolimo uporabo poljubnih normiranih funkcij g (t). Funkcijam gntm pravimo Gaborjevi nastavki (ang. logons), koeficientom Fx[n,m;h] pa Gaborjevi koeficienti. Gaborjevi koeficienti tako merijo podobnost med signalom in Gaborjevimi funkcijami gn gn,m(t)hniimi{t)dt = 0n_n'0m_m', / J — c lahko uporabimo zvezi za izračun Gaborjevih koeficientov (2.9) in rekonstrukcijo signala iz Gaborjeve transformacije (2.10). Natančnejši pregled teorije in uporabe Gaborjeve transformacije lahko najdemo v [Qian-96], [Qian-99], [Hlawatsch-92]. 2.2.3.3 Diskretna valčna transformacija Tu bomo podali samo idejo diskretizacije časovno-frekvenčne ravnine pri valčni transformaciji. Več o teoriji diskretizacije valčne transformacije si lahko preberete v [Daubechies-92], [Rioul-91], [Marušič-98]. Ker imamo pri valčni transformaciji neenakomerno časovno-frekvenčno ločljivost, tudi prostor diskretiziramo tako, in sicer (t, a) = (nt0aö"m, «ö"m), to > 0, a0 > 0, m, n e 1>. V tem primeru lahko definiramo diskretno valčno transformacijo (DWT) (ang. discrete wavelet transform): I- + 00 Tx[n, m; iß] = üq / x(u)ip^m(u)du, m,n^7L, J — oo kjer je iftnm{u) = ^(a^u — nt0). Ob izbiri parametrov a0 = 2, t0 = 1 dobimo diskretizacijo časovno-frekvenčne ravnine v diadični skali, kot je prikazano na sliki 2.11. 2. Časovno-frekvenčne predstavitve signalov 18 V tem primeru dejansko računamo koeficiente po oktavah frekvenčnega prostora. Taka izbira diskretizacije pa tudi definira ortonormalno bazo {ißnm(u); m,n e Z} prostora časovno-frekvenčnih funkcij [Daubechies-92]. Shannon Fourier frekvenca i Gab or cas valčki Slika 2.11: Diskretizacije časovno-frekvenčne ravnine: vzorčenje po času (Shannon) vzorčenje po frekvenci (Fourier), ekvidistantna razdelitev časovno-frekvenčne ravnine (Gabor) in neenakomerna razdelitev (valčna transformacija). Glavna slabost takšne diskretizacije je v tem, da DWT ni več neodvisna od premika po času. 2.3 Kvadratne časovno-frekvenčne predstavitve V prejšnjem razdelku smo si ogledali linearne predstavitve signalov v časovno-frekvenčnem prostoru. Tem predstavitvam pravimo tudi atomarne, ker v osnovi razstavljamo signal po elementarnih funkcijah (atomih), ki pokrivajo dele časovno-frekvenčnega prostora. Elementarne funkcije izbiramo tako, da te čimbolje pokrivajo ves prostor. Drugi način opisa signala v časovno-frekvenčni ravnini je z opazovanjem porazdelitve energij signalov. Energija signala x(t) je definirana kot \x(t)\2dt -oo Err \X(f)\2df. (2.11) Funkciji \x(t)\2 in |X(/)|2 lahko obravnavamo kot porazdelitve energije po času ali (v drugem primeru) po frekvenci. Na podoben način pa lahko definiramo porazdelitve 2. Casovno-frekvenčne predstavitve signalov_________________________________________19 energije p(t, /) kot funkcije časa in frekvence: / + 00 /- + 00 / p(tj)dtdf. (2.12) -oo J — oo Ker je energija signala v splošnem kvadratna funkcija signala, takšne predstavitve imenujemo kvadratne predstavitve. Nekako bolj naravno (v smislu izpeljave) pa take predstavitve imenujemo tudi energijske porazdelitvene predstavitve ali krajše energijske porazdelitve. Iz zgornjih dveh definicij (2.11) in (2.12) je smiselno za porzdelitev p(t, f) zahtevati, da ustreza t.i. robnima pogojema: / + 00 p(t,f)dt = \X(f)\2, (2.13) -oo / + 00 p(t,f)df = \x(t)\2. (2.14) -oo To pomeni, da z integriranjem p(t, f) po eni spremenljivki dobimo porazdelitev po drugi spremenljivki. Več o energijskih porazdelitvah lahko najdemo v [Cohen-95], [Qian-96], [Hlawatsch-92]. 2.3.1 Prehod iz linearnih h kvadratnim predstavitvam V nadaljevanju bom predstavil dve zelo znani in razširjeni predstavitvi signalov, ki spadata k energijskim porazdelitvam in predstavljata osnovo za nastanek in razvoj energijskih predstavitev signalov v časovno-frekvenčni ravnini. To sta spektrogram in skalogram. Spektrogram je predstavnik večje skupine predstavitev, ki sodijo v Cohenov razred energijskih porazdelitev, skalogram pa je predstavnik t.i. afinih predstavitev, ki jih bomo natančneje opisali v naslednjih poglavjih. 2.3.1.1 Spektrogram Spektrogram opisuje spektralno energijo signala x(u)h*(u — t), ki smo ga predhodno omejili na območje okna, torej sx(tJ) /oo x{u)h*(u-t)e-j27Tfudu -oo (2.15) Ob predpostavki, ki smo jo upoštevali že pri STFT, da je energija okna 1, velja pogoj 2.12, torej: /+00 r+oc / Sx(t,f)dtdf = Ex. oo J —oo Spektrogram tako predstavlja realno nenegativno energijsko porazdelitev. S Sx(t, f) opazujemo energijo signala na območju časovno-frekvenčne ravnine s središčem v točki 2. Časovno-frekvenčne predstavitve signalov_________________________________________20 Lastnosti • ohranitev premikov Neposredno iz definicije spektrograma velja, da se vrednosti spektrograma za translacije po času in frekvenci ohranjajo: y{t) = x{t-t0) => Sy{t,f) = Sx(t-toJ), y(t)=x(t)exV[j27rf0t] => Sy(t, f) = Sx(t, f - /0). Predstavitve, ki zadoščajo temu pogoju, uvrščamo v Cohenov razred, ki si ga bomo podrobneje ogledali v nadaljevanju. • časovno-frekvenčna ločljivost Casovno-frekvenčna ločljivost je enaka kot pri STFT. Ravno tako tudi za to predstavitev velja princip nedoločenosti, kar predstavlja glavno slabost te predstavitve. • pojav interference Spektrogram je kvadratna (bilinearna) predstavitev, torej tu ne velja lastnost linearnosti, daje vsota dveh signalov vsota dveh spektrogramov, ampak lastnost kvadratne superpozicije, in sicer: y(t) = x1(t) + x2(t) => Sy(t, f) = SXl (t, f) + SX2(t, f) + 2X{SXliX2(t, /)}, kjer predstavlja SXltX2(t, f) = FXl (t, f)F* (t, f) križni spektrogram signalov xi(t) in X2(t). Križni členi predstavljajo pojav interference na slikah kvadratnih predstavitev. Hlawatsch [Hlawatsch-91] je pokazal, da so interferenčni členi izraziti, če se spektrograma SX1 (t, f) in SX2 (t, f) prekrivata. To pa pomeni, da je prispevek križnih členov spektrograma SXliX2(t, f) manjši, če so komponente xi(t) in x2(t) signala čimbolj narazen, kar je posledica slabe ločljivosti spektrograma. V tem primeru predstavlja torej slabša ločljivost prednost predvsem v primerjavi z ostalimi kvadratnimi predstavitvami, ki jih bomo še spoznali. Primer V naslednjem primeru si bomo ogledali pojav interference. Vzemimo signal sestavljen iz dveh linearno moduliranih signalov (cvrkov), ki sta sorazmerno relativno skupaj v časovno-frekvenčni ravnini. Torej x(t) = X\(t) + x2(t), kjer je Xi{t) = exp[j27rt(/i!j + V1'' l)/fA in /s je frekvenca vzorčenja, /^ spodnja meja modulacije, f2,i pa zgornja meja modulacije. Vzemimo torej signal x na 128 točkah s podatki fltl = 0, /2,1 = 0.4 in /1)2 = 0.1, f'2,2 = 0.5. V drugem primeru pa malce razmaknimo FM komponente: signal x s podatki A,! = 0, /2)1 = 0.3 in /li2 = 0.2, /2)2 = 0.5. Na sliki 2.12 lahko vidimo, da imamo v prvem primeru zelo izrazit pojav interference, ker so komponente signala blizu skupaj, v drugem primeru pa interferenčnih členov ni (razen na robovih). 2. Casovno-frekvenčne predstavitve signalov 21 spektrogram, 2 lin. chirpa, Gaussovo okno spektrogram, 2 lin. chirpa, Gaussovo okno II«1 0Lz_ ......i...............i--- 20 40 0 H» fl 80 100 20 40 80 100 Slika 2.12: Spektrograma signala sestavljenega iz linearno moduliranih signalov. Na levi strani (a) imamo izrazit pojav interference, desno (b) pa ne. Obakrat smo uporabili Gausovo okno, dolžine 23 točk.___________________________________________________________________ 2.3.1.2 Skalogram Podobno kot spektrogram definiramo tudi skalogram kot kvadrat absolutne vrednosti valčne transformacije: SWx(t,f) f x{sWtAs)ds (2.16) Podobno kot pri spektrogramu, lahko pokažemo, da je / / SWx(tJ)dt-= Ex: J—oo J— oo le da imamo tu opravka s skalo a, ki pa je, kot smo že pri CWT transformaciji pokazali, direktno povezana s pojmom frekvence. Takšnim predstavitvam pravimo afine predstavitve, ki jih bomo kasneje natančneje obravnavali. Analogno kot pri CWT imamo tudi tu opravka s Heisenberg-Gaborjevo neenakostjo (princip nedoločenosti), za razliko s spektrogramom pa je tu ločljivost po frekvenci in času odvisna od frekvence. Za primer si poglejmo sliko 2.13 skalograma signala sestavljenega iz dveh sinusnih valovanj1. Tu lepo vidimo, da je frekvenčna ločljivost odvisna od frekvence: ločljivost je večja pri višjih frekvencah /. Podobno kot pri spektrogramu je tudi s pojavom interference. Križni členi so večji, bližje kot so posamezne komponente signala (bolj se prekrivajo skalogrami posameznih komponent). To pa pomeni, daje tudi tu interferenca vezana na ločljivost predstavitve. XS pojmom sinusno valovanje ali tudi kompleksni sinusoid označujemo signale oblike x(t) = e — p27r/ot 2. Casovno-frekvenčne predstavitve signalov 22 linearna skala časovni potek signala skalogram, Morletov valček, Nh0=6, N=128, lin. skala Slika 2.13: Primer skalograma z Morletovimi valčki, ifi(t) = -^=e^wote 2 ) na signalu sestavljenem iz dveh sinusnih valovanj. 2.3.2 Cohenov razred Kvadratnih predstavitev, ki zadoščajo pogojem (2.12), (2.13) ali (2.14) je več. Zato za predstavitve px ponavadi zahtevamo še kakšne dodatne omejitve glede na namen in nadaljnjo analizo ter obdelavo signala. Ena izmed pomembnih lastnosti, ki jih lahko pripišemo energijski predstavitvi signala, je, da ohranja premike po času in frekvenci [Cohen-66]. Takšne predstavitve tvorijo Cohenov razred porazdelitev. Spektrogram, ki smo ga predstavili v prejšnjem poglavju, spada med takšne predstavitve, saj zadošča pogoju (2.12), ohranja translacije po času in frekvenci, ne zadošča pa robnima pogojema (2.13) in (2.14). V nadaljevanju si bomo ogledali nekaj Cohenovih predstavitev, med njimi najpomembnejšo Wigener-Villejevo porazdelitev, ki je osnova za vse ostale predstavitve. 2.3.2.1 Wigener-Villejeva porazdelitev Definicija Wigener-Villejeva porazdelitev2(WVD) je definirana kot "+00 Wa /+00 x(t + rj2)x*(t - r/2)e"^/Trfr, (2.17) -00 2. Casovno-frekvenčne predstavitve signalov 23 oziroma Wx(t,f) X(/ + e/2)X*(/-e/2)e^*< Porazdelitev WVD ima veliko matematičnih lastnosti, ki jih bom opisal v naslednjem podpoglavju. Če poudarimo le najpomembnejše: WVD je realna funkcija časa in frekvence, velja namreč wx{tj) = w;{tj), iz česar neposredno sledi realnost predstavitve. Ostale pomembne lastnosti so še ohranjanje premikov po času in frekvenci ter robni pogoji. Kot primer si poglejmo že omenjen amplitudno Gaussovo in linearno frekvenčno moduliran signal t.i. cvrk (ang. chirp): / \ V4 x(t) = f^j exp[-|t2+j/?i2], s trenutno frekvenco fx(t) = Ißt. WV porazdelitev, chirp, 3D norm. frekvenca Slika 2.14: Slika WVD cvrka. Izračunaj mo WVD - J exp[--r2] exp[-j(f-2ßt)r]dT = 2exp[-(at2+-(f-2ßt)% 2Pri časovno-frekvenčni analizi signalov se v primeru kvadratnih predstavitev mešata pojma predstavitev (ang. representation) in porazdelitev (ang. distribution). V prvem primeru mislimo sliko porazdelitve, v drugem pa zgolj porazdelitev energije. Ker je pri verjetnosti funkcija porazdelitve verjetnosti nenegativna, realna s ploščino 1, v primeru porazdelitev energije pa to ni vedno res, je bolj smiselno, če govorimo o predstavitvah. Vsekakor sta pri takšni analizi signalov v primeru kvadratnih predstavitev pojma ekvivalentna. 2. Časovno-frekvenčne predstavitve signalov_________________________________________24 Predstavitev cvrka Wx(t, f) je prikazana na sliki 2.14. Iz slike 2.14 je razvidna tudi skoraj popolna časovno-frekvenčna ločljivost. Lastnosti Podali bomo nekaj lastnosti WVD, kijih lahko najdemo v [Hlawatsch-92], večino izpeljav in dokazov pa v [Qian-96] in [Cohen-95]. 1. energijska porazdelitev: z integriranjem po času in frekvenci Wx(t, f) dobimo energijo signala x: /+oo r+oo / Wx{t,f)dtdf. -oo J — oo 2. robna pogoja: z integriranjem Wx(t, /) po posameznih spremenljivkah dobimo energijo spektra in trenutno moč signala x(t): /i-oo Wx(t,f)dt = \X(f)\2, -oo / + 00 Wx(tJ)df = \x(t)\2. -oo 3. realna funkcija: Wx(t,f)eR, Vi,/. 4. ohranitev premikov: WVD ohranja premike po času in frekvenci: y(t)=x(t-t0) => Wy{t,f) = Wx{t-t0,f), y(t)=x(t)exV[j2irf0t] => Wy(t, /) = Wx(tJ - /0). 5. ohranitev raztegov: WVD ohranja tudi raztege: y(t) = Vkx(kt); k>0 => Wy{tJ) = Wx{ktJ-). Ta lastnost skupaj s premiki po času definira afine predstavitve, tako da WVD spada tudi v ta razred predstavitev. 6. ohranitev konvolucije: konvolucija signalov h in x pomeni konvolucijo ustreznih WVD predstavitev: /+0O p+oo h(t - s)x(s)ds => Wy{t, /) = / Wh(t- s, f)Wx{s, f)ds.. oo J —oo 7. produkt v konvolucijo: to je dualna lastnost prejšnje. Če moduliramo signal x (množimo) s funkcijo m, to pomeni konvolucijo po frekvenci ustreznih WVD: / + 0O Wm{t,f-Ç)Wx{s,OdÇ. -oo 2. Casovno-frekvenčne predstavitve signalov_________________________________________25 8. ohranitev nosilcev: če ima signal kompakten nosilec v času (v frekvenci), potem ima ustrezni WVD tudi isti kompaktni nosilec v času (v frekvenci): x(t) = 0, \t\ > T => Wx{t, /) = 0, |t| > T, X{f) = Q, \f\>B =* Wx(t,f) = Q, \f\>B. 9. unitarnost: transformacija WVD ohranja skalami produkt po času: /+00 2 r+oo /-+0O x(t)y*{t)dt = / / Wx(t,f)W;(t,f)dtdf. -oo J — oo J— oo To enačbo poznamo tudi pod imenom Moyalova formula [Moyal-49]. Pomembna pa je predvsem za teoretične izpeljave, saj je nesmiselno, da bi računali produkte WV preslikav namesto skalarnega produkta signalov. 10. trenutna frekvenca: trenutno frekvenco signala lahko izračunamo kot prvi moment po frekvenci WVD: , m _ J-™ fWXa(tJ)df Loo W*a{tJ)df kjer je xa pridruženi analitični signal danega signala x. 11. skupinska zakasnitev: dualno lastnost skupinsko zakasnitev signala tako izračunamo kot prvi moment po času WVD: t(f] = I-:twXa(tj)dt J-™wXa(tj)dt • 12. popolna ločljivost linearno moduliranih signalov (lokalizacija cvrkov): x(t) = e^^\ kjer je vx(t) = v, + Ißt ^ Wx(t, f) = 5(f - (u0 + ßt)). To smo si že ogledali v primeru na sliki 2.14. Interferenca Ker spada WVD med kvadratne predstavitve, velja tudi tu, podobno kot pri spektro-gramu, načelo kvadratne superpozicije: Wx+y{t, f) = Wx(t, f) + Wy(t, f) + 2ft{Wx>y(t, f)}, kjer predstavlja / + 0O x(t + T/2)y*(t-T/2)e-^fTdT -oo križno WV predstavitev signalov x in y. Posplošitev tega načela na N komponent signala je preprosta: v poštev pridejo vse možne kombinacije, (^), križnih WVD. 2. Casovno-frekvenčne predstavitve signalov 26 Za razliko od spektrograma, pa tu velikost interferenčnih členov ni odvisna od raz-maknjenosti posameznih komponent v časovno-frekvenčni ravnini. Členi se pojavljajo v vsakem primeru. Ravno to pa je največji problem WVD, saj na sliki takšne predstavitve tako ne moremo ločiti interferenčnih pojavov od tistih delov, ki dejansko opisujejo potek signala. Izkaže se, da je pojav interference posledica lastnosti WVD (zlasti robnih pogojev, trenutne frekvence, skupinske zakasnitve, lokalizacije cvrkov, unitarnosti, ...) [Loughlin-93]. Tako da moramo pri kvadratnih predstavitvah vedno tehtati med upoštevanjem lastnosti in pojavom interference. Kljub temu pa lahko nekaj povemo o geometriji interference med posameznimi komponentami v signalu [Auger-97a]. Pri transformaciji WVD se v splošnem interferenca pojavi v okolici geometrične sredine med dvema točkama v časovno-frekvenčni ravnini. Sami interferenčni pasovi pa so vzporedni daljici, ki veže ti dve točki. WVD porazdelitev WVD porazdelitev 0.4 g 0.3 E 0.2 o C 0.1 0.4 | 0.3 | 0.2 o C 0.1 20 40 60 80 100 120 cas WVD porazdelitev 20 40 60 80 100 120 cas 0.4 g 0.3 E 0.2 o C 0.1 0.4 J 0.3 g 0.2 o 0.1 20 40 60 80 100 120 cas WVD porazdelitev 20 40 60 80 100 120 cas Slika 2.15: Pojav interference med dvema točkama v časovno-frekvenčni ravnini. Pri WVD se interferenčni členi manifestirajo v geometričnem središču med dvema točkama, pasovi pa so vzporedni daljici, ki ju povezuje [Auger-97a]. To lahko vidimo na sliki 2.15, kjer smo obravnavali dva t.i. Gaussova atoma3, ki smo ju medsebojno razmikali. Tu lahko opazujemo geometrijske lastnosti interferenčnih pasov. Prav tako pa se z oddaljenostjo frekvenčnih komponent spreminja tudi število pasov na sliki. 3Gaussovo amplitudno modelirani signali x(t) = e *"( t ) s središčem v točki to in sorazmerno kratkim trajanjem T. 2. Casovno-frekvenčne predstavitve signalov 27 Psevdo Wigener-Villejeva porazdelitev Pri WVD predstavitvi (2.17) gre dejansko za integriranje količine qx(t,T)=x(t + T/2)x*(t-T/2) za t = —oo do t = +00. Pri praktični obdelavi in analizi signalov pa to ne moremo zagotoviti, zato po zgledu kratkočasovne Fourierjeve analize količino qx množimo z ustreznim oknom ter tako interval integriranja ustrezno zmanjšamo. Tako dobimo novo porazdelitev PWx(t,f) L h{r)x{t + r/2)x*{t - r/2)e-^/Tdr, (2.18) kjer je h(t) ustrezno regularno okno. Tako dobimo novo predstavitev psevdo Wigener-Villejevo porazdelitev (PWVD). Definicijo (2.18) si lahko razlagamo tudi kot glajenje (konvolucija) po frekvenci WVD predstavitve, velja namreč: H(f-Ç)Wx(t,Ç)dÇ, -oo kjer je H(f) Fourierjeva transformacija okna h(t). Z glajenjem WVD dosežemo dvoje: zmanjšamo vpliv interference in izgubimo nekaj pomembnih lastnosti WVD-ja (slika 2.16). 4 Gaussovi atom PVVV, 4 Gaussovi atomi,Lh=16, 20 40 Slika 2.16: Slika WVD in PWD štirih Gaussovih atomov lociranih na ogliščih pravokotnika v časovno-frekvenčni ravnini, (a) WVD porazdelitev poleg slik posameznih atomov imamo še 6 področji interference (dva v sredini se prekrivata), (b) PWVD porazdelitev: zaradi glajenja interferenca ni tako izrazita (predvsem po frekvenčni smeri), frekvenčna ločljivost pa je slabša (atomi so v smeri frekvence bolj razmazani, tudi interferenčni členi so odebeljeni). Na sliki 2.16 lahko vidimo, da PWD zmanjša interferenčne pasove pravokotne na smer frekvence (zaradi glajenja po frekvenci), medtem ko pasovi pravokotni glede na časovno os ostanejo takšni kot pri WVD. Po drugi strani pa PWD ne ustreza robnim pogojem, unitarnosti, ne ohranja nosilca po frekvenci; zato se zmanjša tudi frekvenčna ločljivost. 2. Casovno-frekvenčne predstavitve signalov_________________________________________28 2.3.2.2 Cohenov razred Definicija Kot smo že omenili, zajema Cohenov razred predstavitve, ki ohranjajo premike po času in frekvenci. Ta lastnost je zelo pomembna pri analizi signalov, saj sama translacija tako ne vpliva na vrednost predstavitve, temveč samo na ustrezen premik funkcije predstavitve. Za takšne energijske predstavitve, pa se da pokazati[Cohen-95], da jih lahko zapišemo kot /+00 f+oo f+oo / / ei27rÇ(s-*)/fc(Ç, t)x(s + t/2)x*(s - r/2)e-j27rfTd^dsdr, -oo J — oo J — oo kjer je jedro &(L, t) dvodimenzionalna funkcija, ki jo imenujemo parametrizacijska funkcija. Torej predstavitve, kijih lahko zapišemo na gornji način z ustreznimi parametrizaci-jskimi funkcijami, tvorijo Cohenov razred porazdelitev. Gornji pogoj lahko prevedemo tudi na /+00 f+oo / n(s-t,Ç-f)Wx(s,Ç)dsdÇ, (2.19) oo J — oo kjer je / + 00 f + OO / k(Ç,T)e-i2^Ht)dtdf -oo J —oo dvodimenzionalna Fourierjeva transformacija parametrizacijske funkcije k. Primer take predstavitve je WVD, kjer je H(t, f) = S(t)5(f) dvodimenzionalni Diracov impulz, ozirma fc(L, t) = 1. Zvezo (2.19) lahko interpretiramo tudi kot glajenje (po času in frekvenci) WVD porazdelitve: to pa pomeni, da takšne predstavitve v bistvu izvirajo iz WVD, le da jo ustrezno gladijo in s tem ustrezno manjšajo vpliv interferenčnih členov. Posplošitev znanih energijskih predstavitev na Cohenov razred pomeni orodje za načrtovanje novih predstavitev. Tako lahko dobimo nove predstavitve, s tem da preprosto podamo parametrizacijsko funkcijo k. Pokaže se, da z ustrezno izbiro jeder k lahko opišemo vse predstavitve iz Cohenovega razreda [Cohen-95], hkrati pa lahko modeliramo tudi nove predstavitve glede na namen uporabe in tip signalov, ki jih obdelujemo. Glajenje v obeh smereh Tu bomo pokazali, da tudi spektrogram spada v Cohenov razred. Z upoštevanjem Moy-alove formule (lastnost 9 na str. 24) in lastnosti 7 (str. 24) lahko zapišemo spektrogram kot / + 00 f + OO / Wh{s-t,Ç-f)Wx{s,Ç)dsdÇ (2.20) -oo J —oo To pa pomeni, daje spektrogram tudi predstavitev Cohenovega razreda, kjer je n(s, L) = Wh{s,L) WVD okenske funkcije h. Tu gre v bistvu za glajenje WVD predstavitve 2. Casovno-frekvenčne predstavitve signalov_________________________________________29 sočasno v obeh smereh (po času in frekvenci). Funkcija glajenja je odvisna od okna: kratkočasovno okno pomeni manjše glajenje po času in večje po frekvenci, kar pri spek-trogramu povzroči že znano boljšo časovno in slabšo frekvenčno ločljivost in obratno. Ločeno glajenje V prejšnjem primeru smo nadzirali glajenje z okensko funkcijo h. S tem pa nekako izgubljamo nadzor glajenja po posameznih smereh v časovno-frekvenčni ravnini. Da bi povečali kontrolo nad glajenjem po posameznih smereh, lahko zapišemo funkcijo glajenja kot produkt funkcij po posameznih smereh: Tl(tJ)=g(t)H(-f), kjer je H(f) Fourierjeva transformacija okna h(t). Tako dobimo novo predstavitev: h(r) / g (s - t)x{s + r/2)x*{s - r/2)ds e~j27rfTdr, -oo J — oo ki jo poznamo pod imenom zglajena psevdo Wigener-Villejeva porazdelitev (SPWD). Za razliko od spektrograma imamo tu kontrolo nad glajenjem in s tem ločljivostjo po času in frekvenci: bolj kot gladimo po času in/ali frekvenci, slabšo ločljivost dobimo po času in/ali frekvenci, medtem ko pri spektrogramu z boljšanjem ene ločljivosti slabšamo drugo. Kako pa je z interference? Ze prej smo nakazali namen glajenja v zmanjšanju interference posameznih predstavitev. To je seveda odvisno od namena uporabe časovno-frekvenčnih slik signalov. Če zahtevamo ločljivost, se moramo sprijazniti (vsaj v primeru Cohenovih predstavitev) z bolj izrazito interferenco, sicer pa žrtvujemo nekaj natančnosti na račun "lepše" slike. Tu lahko gladimo v obeh smereh, po času in frekvenci, kar se pokaže tudi pri odstranjevanju interference. Za razliko od PWVD tu lahko uspešno odstranimo interferenčne pasove tako vzdolž frekvenčne osi kot tudi vzdolž časovne, hkrati pa izgubljamo ločljivost v obeh smereh. Na sliki 2.17 lahko primerjamo interferenco in ločljivost WVD, PWVD in SPWVD. V primeru signala na sliki 2.17 sestavljenega iz vsote Gaussovega amplitudno medeli-ranega signala in kompleksnega sinusoida (konstantna frekvenca 0.15 normalizirane) se pojavljajo interferenčne "lise" vzdolž časovne osi, zato si s PWVD ne moremo pomagati. V tem primeru sintetičnega signala lahko žrtvujemo nekaj ločljivosti na račun bolj jasne slike. 2.3.2.3 Večlična funkcija Definicija in lastnosti Podobno kot smo definirali pri trenutni frekvenci signala njeno dualno količino, skupinsko zakasnitev, lahko to storimo tudi tu. Definirajmo nov način predstavitev kot / + 0O x(s + t/2)x*(s - r/2)e-j2^sds. (2.21) -oo 2. Casovno-frekvenčne predstavitve signalov 30 0.4 J 0.3 Ë 0.2 0.1 Slika 2.17: Primerjava slik sintetičnega signala z WVD, PWVD in SPWVD. Funkciji Ax(^,t) pravimo simetrična večlična funkcija (ang. ambiguity function, AF). Z njo merimo korelacije signala v časovno-frekvenčni ravnini, se pravi podobnost med signalom x in premaknjenimi verzijami signala v časovno-frekvenčni prostoru. V primeru prejšnjih predstavitev so nam spremenljivke t in / predstavljale dejanske (absolutne) vrednosti po času in frekvenci, tu pa nam r in L predstavljajo zamike (med signali) po času in frekvenci (ang. zamik po času - delay, zamik po frekvenci - doppler), torej relativne vrednosti. Večlična funkcija je v splošnem kompleksna funkcija in zadošča pogoju simetrije (liha kompleksna funkcija) MM = ax-ç,-t). Tako definirano večlično funkcijo (obstajajo tudi nesimetrične oblike AF) lahko dobimo neposredno iz WVD predstavitve, če izvedemo dvodimenzionalno Fourierjevo transformacijo (2D-FT): /+00 r+oo / Wx(t, fietW-® -oo J — oo dtdf. (2.22) Zveza (2.22) predstavlja alternativno definicijo večlične funkcije, pomeni pa tudi, daje AF dualna količina WVD v smislu dvodimenzionalne Fourierjeve transformacije. 2. Casovno-frekvenčne predstavitve signalov 31 1. Diracov imuplz x(t) =S(t-t0) t/ u to Wx(t, /) = S(t - t0) Ax(Ç,t) = e-^*oîtf(T) 2. Sinusno valovanje x(t) = eJ^/o* t/ "f /o 3. Cvrk x(t)=eJ'2'rft2 Waft/) = *(/ - /o) ^(f.r) = e>2"f°r6(t) 4. Gaussov atom Wx(t, f) = S(f - et) Ax(Ç,t) = S(Ç - ct) f Wx(t,f) = ^2e-^UY+(TfY] Ax{^t) = _^e-WY)z+(Tiy] Slika 2.18: Primerjava slik WVD in AF preprostih sintetiziranih signalov [Hlawatsch-92]. Na sliki 2.18 lahko primerjamo obnašanje večlične funkcije z Wigener-Villejevo porazdelitvijo na primeru preprostih sintetiziranih signalov. Dualnost AF lahko s pridom izkoristimo tudi pri dokazovanju lastnosti te predstavitve. Poglejmo nekaj najpomembnejših [Hlawatsch-92]: • robna pogoja: Časovno avtokorelacijo lahko izračunamo kot spektralno pa kot rx{r) = Ax{0,t), • energija: Energija signala je vrednost Ax(Ç,t) v koordinatnem izhodišču ravnine (L, r) in velja: \Ax{L,t)\ Ay(Ç, t) = Ax{i, r)^(/or-toO. 2. Casovno-frekvenčne predstavitve signalov 32 • interference/,: V primeru signala sestavljenega iz več različnih komponent, se komponente z AF funkcijo izražajo v glavnem okoli koordinatnega izhodišča, interferenčni členi pa stran od izhodišča. Razdalja področij interference od izhodišča v AF ravnini je proporcionalna razdalji med komponentami signalov v običajni časovno-frekvenčni ravnini (i, /). WVD, 2 chirpa, lin skala, AF predstavitev, 2 chirpa, amplituda .....(R\\......... ^ w Ä roi [iLj Slika 2.19: Sliki signala sestavljenega iz dveh cvrkov: (a) WVD predstavitev (b) predstavitev z AF funkcijo. Kot primer si lahko ogledamo primerjavo izražave signala sestavljenega iz dveh komponent linearnih cvrkov. Na sliki 2.19(a) pri WVD so interferenčni pasovi locirani v geometrijskem središču med obema signaloma, pri AF (slika 2.19(b)) pa se signal izrazi v okolici središča ravnine (L, t), interferenčni členi pa stran od središča. Alternativna definicija Cohenovega razreda Pri geometriji interference AF funkcije smo lahko ugotovili, da se signal dejansko izraža samo v okolici, interferenčni členi pa stran od koordinatnega središča. Zato interfer-enco lahko odpravimo, če na dani AF predstavitvi upoštevamo samo okolico središča (izvajamo v bistvu dvodimezionalno filtriranje z nizkim filtrom) in potem z inverzno 2 D-Fourier j evo transformacijo izračunamo nazaj prvotno WVD predstavitev. To pa ni nič drugega kot to, da AF funkcijo množimo z ustreznim jedrom in izvedemo inverzno 2D-FT. Tako lahko zapišemo definicijo (2.19) kot: / + 00 /- + 00 / Ht, t)Ax(Ç, T)e-j2*VT+&dÇdT. (2.23) -oo J — oo Parametrizacijsko funkcijo k (jedro) si lahko razlagamo kot neko utežno funkcijo dane AF predstavitve, ki jo lahko prilagajamo različnim potrebam in namenom obdelave signalov. Najpogosteje seveda z njo odpravljamo interferenčne člene. Jedro k(L, r) v tem primeru določimo tako (nekakšno masko), da odpravimo področja interference za določen tip signalov, to pa pomeni dejansko glajenje (s konvolucijo) prvotne predstavitve s funkcijo U(t, /), ki je 2D-FT funkcije jedra. Poleg tega lahko izberemo tudi 2. Casovno-frekvenčne predstavitve signalov 33 takšno jedro, da bo dobljena predstavitev ustrezala določenim matematičnim lastnostim. Povezavo med izbiro jedra in lastnostmi ponazarja tabela 2.1. Tabela 2.1: Povezava med lastnostmi jedra večlične funkcije in lastnostmi (str. 24) tako dobljenih predstavitev. lastnosti predstavitve jedro fc(L,r) ohranjanje premikov po času jedro neodvisno od časa t ohranjanje premikov po frekvenci jedro neodvisno od frekvence / realna funkcija k(Ç,T) = k(-Ç,-T) robni pogoj po času fc(L,0) = l robni pogoj po frekvenci fc(0,r) = 1 trenutna frekvenca k(Ç,0) = lmLk(^T)T=0 = 0 skupinska zakasnitev fc(0,r) = lin L*;(L, r)f=0 = 0 pozitivna funkcija k{Ç,,T~) je večlična funkcija okna h(t) Poglejmo si še nekaj že prej opisanih predstavitev prevedenih v AF ravnino. WVD je 2D-FT AF, torej je jedro fc(L, t) = 1, VL, t. Pri spektrogramu je k(L, r) = A*h(Ç,r), kar pomeni, da je glajenje odvisno od okenske funkcije h (v to smo se lahko prepričali že v prejšnjih poglavjih). Pri SPWD pa je jedro &(L,r) = G(L)/i(t) funkcija dveh ločenih funkcij, s katerima lahko ločeno po času in frekvenci nastavljamo ločljivost in občutljivost na interferenco. 2.3.2.4 Ostale znane predstavitve Tu si bomo ogledali še nekaj znanih energijskih predstavitev, ki spadajo v Cohenov razred porazdelitev. Richaczkova in Margenau-Hillova predstavitev Idejo v izvedbi Richaczkove porazdelitve [Richaczek-68] lahko najdemo na povsem drugem področju fizike. Denimo, da preučujemo spreminjanje napetosti po času. S Fourierjevo transformacijo to lahko zapišemo kot Vwe^ si lahko predstavljamo kot napetost pri določeni frekvenci. Če predpostavimo, daje upornost 1, potem po Ohmovem zakonu izračunamo tok iw = V^e^1. Skupni tok v frekvenčnem razponu Au je tako i(t) f j+Ac iw (t) du f V,„eiu3tdi io. Moč je definirana kot produkt napetosti in toka, torej V(t)i*(t). Energijo v časovnem intervalu At in frekvenčnem Au pa izračunamo kot rt+At i rt+At ru>+Au> E(t7u)= V(t)i*(t)dt=-= / V*V(t)e-jwtdwdt. J t V 27T J t Jw 2. Casovno-frekvenčne predstavitve signalov 34 Porazdelitev energije v točki (t, u) potem izračunamo kot e(t,u>) E(t,u) AL,Au>-s-0 At Au lim V:V(t)e -jut Če zadnji izračun prevedemo v našo notacijo, definiramo Richaczkovo energijsko porazdelitev Rx(tJ) = x(t)X*(f)e-^t. (2.24) Predstavitev spada v Cohenov razred. V to se lahko prepričamo, ko pokažemo, da je to v bistvu glajena AF funkcija z jedrom /c(L, r) = e_J7r^T. To je kompleksna predstavitev, ki ustreza lastnostim (1-2) in (4-11) (lastnosti na str. 24). Lahko pa uporabimo samo realni del te predstavitve, ki prav tako spada v Cohenov razred (jedro je k(Ç,r) = cos(7tLt)), in jo poznamo pod imenom Margenau-Hillova porazdelitev. Lastnosti te predstavitve so (1-5), (8) in (10-11), glej lastnosti na str. 24. Na podoben način kot pri WVD lahko definiramo tudi glajene verzije obeh predstavitev, znani pod imeni psevdo-Richaczkova porazdelitev in p s ev do-Margenau-Hillova porazdelitev. Geometrija interference je tu drugačna kot pri Wigener-Villejevi predstavitvi: inter-ferenčni členi, ki pripadajo točkama (ti, fi) in (L2,/2) v časovno-frekvenčni ravnini se pokažejo v točkah (ti, /2) in (h, /i)- To si lahko ogledamo na sliki 2.20. ¦7S 0.5- casovni potek signala inearna skala <, Margenau-Hillova porazdelitev, 2 Gaussova atoma, lin. skala 400 200 0.45 0.4 0.35 i 0.3 > | 0.25 I 0.2 0.15 0.1 0.05 0 O ^^^^ O " -,°«Ä«o,- 20 40 60 80 100 120 Slika 2.20: Slika prikazuje pojav interference pri Margenau-Hillovi predstavitvi. Gre za drugačno geometrijo interference kot pri WVD. Signal je sestavljen iz dveh Gaussovih atomov. Zato moramo biti previdni pri uporabi Richaczkove (ali Margenau-Hillove) predstavitve pri večkomponentnih signalih, kjer nastopajo posamezne komponente na istem mestu bodisi po času ali/in frekvenci. 2. Casovno-frekvenčne predstavitve signalov_________________________________________35 Pageova predstavitev Motivacija za to energijsko porazdelitev predstavlja konstrukcija t.i. kavzalne gostote energije, kjer v bistvu merimo spektralno energijo signala pred časom t, ali 2 E-{tJ) = x(u )e~j27rfudu Pageova porazdelitev je tako definirana podobno kot prej z odvodom te energije Px(t,f) = ftE-(t,f) = 2x{x(t)(L x(H)e-^a) e-^*|. (2.25) Spada med predstavitve Cohenovega razreda z jedrom &(L, t) = e~^^T\ ustreza lastnostim (1-5) in (7-10) na str. 24. Prav tako obstaja njena zglajena verzija t.i. psevdo-Pageova predstavitev. Vezano glajenje WVD predstavitve Tu bomo obravnavali še nekaj Cohenovih predstavitev, kjer je jedro funkcija produkta časovnega in frekvenčnega zamika, torej L(L, t) = $(<)• (2.26) Za funkcijo $ predpostavimo, da je padajoča (v vseh smereh stran od 0) in $(0) = 1. Poleg robnih pogojev s tem dosežemo še nekaj: ker je funkcija padajoča, to pomeni da imamo opravka z nizkoprepustnim filtrom, kar po (2.23) ni nič drugega kot glajenje z odpravljanjem interference. Zato takšnim predstavitvam pravimo porazdelitve reducirane interference (ang. reduced interference distributions). Poleg že omenjenih Richaczkove in Margenau-Hillove spadajo sem še: • Choi-Williamsova porazdelitev (CW) Dobimo je, če za $ izberemo funkcijo Gaussove porazdelitve: /c(L,r) = exp-----^- Tako dobimo Choi-Williamsovo [Choi-89] predstavitev CWx(t,f) = J- I I °° ^-e-2(j2(-s-^^2x{s + T/2)x^s-T/2)e-j^fTdsdr. V 7T J J_O0 \T\ (2.27) Zanjo velja, če a —> +oo, dobimo WVD, če pa gre a proti 0 manjšamo interferenco in slabšamo ločljivost. Ta predstavitev zadošča lastnostim (1-5) in (10-11). Ta predstavitev ima to lastnost, da se interferenčni členi, ki nastanejo med posameznimi komponentami, razpršijo po celotni časovno-frekvenčni ravnini. Geometrija interference pa je precej odvisna od tipa signalov. Pri signalih, kjer nastopajo posamezne komponente sočasno bodisi po frekvenci ali po času, se interferenca ojača, sicer pa je odvisna od položaja posameznih komponent v časovno-frekvenčni ravnini (slika 2.21). 2. Časovno-frekvenčne predstavitve signalov 36 Slika 2.21: Pojav interference pri različnih položajih štirih Gaussovih atomov. Uporabili smo CW pri g = 1.____________________________________________________________________ • Born-Jordanova in Zhao-Atlas-Marksova porazdelitev Tu izberemo jedro 7TÇT To porodi Born-Jordanovo porazdelitev [Cohen-66] definirano kot "t+\r\/2 BJx{t,f) -OO 1 v, {Ti x(s + r/2)x*(s-r/2)ds e-j2*fTdr. (2.28) Ut-\r\/2 Ta predstavitev zadošča lastnostim (1-5), (8) in (10-11). Če gladimo Born-Jordanovo porazdelitev po frekvenci, dobimo Zhao-Atlas-Marksovo porazdelitev [Zhao-90]: /+00 r />t+|r|/2 h(r) / x{s + T/2)x*{s-T/2)ds e-^fTdr. (2.29) Bistvena lastnost jedra k(Ç, t) = sm^lz je ta, da interferenčne člene, ki nastopajo med frekvencami sinusnih valovanj (vodoravne črte v časovno-frekvenčni ravnini) potiska k dejanskim slikam valovanj. Torej tu ne razpršimo interference, ampak jo skrijemo k dejanskim spektralnim komponentam. Takšne predstavitve so dobre, ko imamo opravka s signali, ki so v časovno-frekvenčni ravnini vzporedni vzdolž frekvenčne osi (npr. govorni signali). V primeru ZAM porazdelitve si najpogosteje izbiramo h[r) = — exp(—ar2). T (2.30) Razlika med delovanji jeder v AF ravnini v primeru CW in ZAM porazdelitev je prikazana na sliki 2.22. Primerjavo med naštetimi predstavitvami bomo preučevali na primeru govornih signalov v poglavju 4. 2. Časovno-frekvenčne predstavitve signalov 37 (c) (d) Slika 2.22: Slike jeder v AF ravnini (tu gre za množenje jedra z osnovno predstavitvijo): (a) CW, manjša a, (b) CW, večja er, (c) ZAM, manjša a, (d) ZAM, večja a. 2.3.3 Afine predstavitve Kot smo lahko videli v primeru zvezne valčne transformacije imamo lahko predstavitve, ki ne ohranjajo premikov po času in frekvenci, ampak ohranjajo premike in raztege po času. V primeru zvezne valčne transformacije smo tako dobili ločljivost po frekvenci odvisno od opazovane frekvence. Energijske predstavitve, ki ohranjajo premike in raztege po času, tvorijo nov razred predstavitev - afine predstavitve (porazdelitve). V nadaljevanju si bomo ogledali osnovne značilnosti in lastnosti takšnih preslikav. Ker takšnih predstavitev v svojem magistrskem delu nisem uporabljal za obdelavo govornih signalov, jih ne bom tako podrobno predstavil kot Cohenov razred porazdelitev. Podrobnejšo razlago lahko najdemo v [Bertrand-91], [Hlawatsch-92], [Shenoy-95]. 2.3.3.1 Definicija Najprej si oglejmo t.i. afine transformacije na signalu x(t) (tu predpostavljamo daje signal analitičen, glej (2.3)). To so preslikave oblike: x(t) ->¦ Xaip{t) = ,-----X y\a'\ ali v frekvenčnem prostoru: X{f) -> XalJI,(f) = y/\rt\e-Wx(a'f). t-V 2. Časovno-frekvenčne predstavitve signalov___________________________________38 Preslikavam, ki ohranjajo afine transformacije, pravimo afine preslikave, v našem primeru energijskih porazdelitev jim bomo rekli afine predstavitve. Torej Q,x(t, a) je afina predstavitev, če velja: ^ / \ ^ ft — b' a QXa,b,{t,a) = nx^-^,- Izkaže se [Rioul-92], da takšno predstavitev lahko vedno zapišemo kot / + 00 /» + 00 _ . / n(------,at)Wx(s,Ç)dsdÇ, (2.31) -00 +oo / $«, r/a)Ax(Ç, ^e-^dÇdT, (2.32) -00 J — 00 kjer lahko razumemo $(L, t) kot utežno funkcijo, za katero velja /+00 r+00 / n(t, f)e^Ht)dtdf_ -00 J —oc Obstaja pa še ena alternativa definiciji (2.31) z uporabo t.i. bifrekvenčnega jedra \&(/, v) nx{t,a;^) = Y1 f f ™V{f,v)e-j2*&x(^^\x*(?^ie-j^Wadfdv, (2.33) kjer je /+00 U(t, v)e~j2nftdt. -00 Uporabo vseh treh ekvivalentnih opisov afinih predstavitev lahko s pridom uporabljamo pri dokazovanju lastnosti takšnih predstavitev. 2. Časovno-frekvenčne predstavitve signalov 39 2.3.3.2 Lastnosti Tudi pri afinih porazdelitvah (tako kot pri Cohenovem razredu) načrtujemo predstavitve tako, da zadoščajo še dodatnim pogojem. Ogledali si bomo nekaj željenih lastnosti takšnih predstavitev: 1. ohranitev energije: tu želimo, da lahko energijo signala x dobimo z integriranjem predstavitve po času in skali: r+°° r+°° da Ex= / nx{t,a;U)dt—, J— oo J— oo 2. robna pogoja: gostoto spektralne energije in trenutno moč signala, lahko izračunamo z integriranjem predstavitve po posameznih spremenljivkah: / + 0O Qx(t,a;U)dt = -oo 2 r+0° da X{*±) , / nx(t,o;n)^ = |a:(t)| J—ca d 'k a 3. realna funkcija: nx(t7a;U) eR, Vi, a, 4. lokalizacija po času: 1 X{f) = -jje-^toUif) kjer je U(f) Heavisideova stopnica. Qx(t,^;U) = f6(t-to)U(f), 5. unitarnost: tu mislimo predvsem na ohranjanje skalarnega produkta v prostoru časa in skale: x(t)y*(t)dt oo />+oo Qx(t,a;U)Q*y(t,a-U)dt da OO J —oo 6. skupinska zakasnitev: tu želimo skupinsko zakasnitev signala izračunati kot prvi moment po času: t /0/_+^ *»,(*, a; n)dt x[*} J^nx(t,a)dt • Vsekakor prilagajamo afine predstavitve namenu obdelave in tipom signalov, zato smo tu podali le nekaj željenih lastnosti takšnih predstavitev. 2. Časovno-frekvenčne predstavitve signalov 40 2.3.3.3 Afine predstavitve V nadaljevanju bom samo naštel nekaj porazdelitev iz tega razreda skupaj z referencami, ki podrobnejše opisujejo vsako predstavitev. Najbolj znana predstavitev te skupine je skalogram, ki smo si ga že ogledali, na podoben način kot pri Cohenovem razredu lahko tvorimo tudi zglajene afine predstavitve: psevdo afino Wigenerjevo [Rioul-91] in zglajeno psevdo afino Wigenerjevo porazdelitev [Rioul-92]. Veliko podskupino tvorijo predstavitve, ki jih načrtujemo z bifrekvenčnim jedrom (2.33), med katere spadajo: Bertrandova porazdelitev [Bertrand-91], D-Flandrinova porazdelitev [Flandrin-89], aktivna in pasivna Unterbergerjeva porazdelitev [Bertrand-ter njihove glajene verzije. Vse predstavitve si lahko ogledamo v dodatku A magistrskega dela. Zaključek__________________________________________ V tem poglavju smo si ogledali časovno-frekvenčne predstavitve. Najprej smo predstavili nekaj osnovnih motivacij za uporabo časovno-frekvenčnih predstavitev predvsem pri obdelavi in analizi nestacionarnih večkomponentnih signalov. V prvem delu smo si ogledali predstavitve, ki temeljijo na razstavljanju signala po osnovnih elementarnih funkcijah - atomih. Take predstavitve smo poimenovali atomarne predstavitve, najbolj znani med njimi sta kratkočasovna Fourierjeva in valčna transformacija. Tu smo se predvsem ukvarjali z ločljivostjo in lokalizacijo v časovno-frekvenčni ravnini. Prehod med atomarnimi in energijskimi predstavitvami predstavljata spektrogram in skalogram, ki ju dobimo iz kratkočasovne Fourierjeve transformacije oz. valčne transformacije. Prvi spada v razred Cohenovih energijskih predstavitev oz. porazdelitev, drugi pa ima lastnosti afinih predstavitev. V nadaljevanju smo si tako ogledali Cohenov razred porazdelitev, ki zajema vse tiste energijske predstavitve, ki ohranjajo premike po času in frekvenci. Najpomembnejša med vsemi predstavitvami je Wigener-Villejeva porazdelitev, ki ima veliko matematičnih lastnosti. Ker energijske porazdelitve spadajo med kvadratne porazdelitve, velja tu pravilo kvadratne superpozicije, ki povzroči pojav interference med posameznimi komponentami v signalu. Interferenco poskušamo zmanjšati z glajenjem predstavitev v obeh smereh, po času in frekvenci. Tako dobimo t.i. glajene verzije osnovnih predstavitev, ki pa ne zadoščajo vsem željenim matematičnim lastnostim, kar ima za posledico slabšo ločljivost posameznih komponent v signalu. Cohen [Cohen-66] je posplošil opis takšnih predstavitev, kar nam olajša načrtovanje novih predstavitev z željenimi lastnostmi oz. lastnostmi pogojenimi z različnimi tipi signalov. Podali smo tudi povezavo z večlično funkcijo v prostoru zamikov po času in frekvenci. Na koncu pa smo si na kratko še ogledali glavne značilnosti afinih predstavitev, ki tvorijo drugi večji razred kvadratnih (energijskih) predstavitev. Zanje je značilno, da ohranjajo premike in raztege po času, ne pa premikov po frekvenci. Tako v bistvu gledamo na te predstavitve kot funkcije časa in skale. Definicije večine predstavitev so zbrane v dodatku A magistrskega dela. Diskretne časovno-frekvenčne predstavitve 3.1 Vzorčenje zveznih predstavitev 3.2 Vzorčenje s pomočjo operatorske teorije V poglavju 2 smo si ogledali in opisali lastnosti časovno-frekvenčnih predstavitev v primeru zveznih signalov. Seveda pa imamo pri obdelavi in analizi signalov opraviti v glavnem z njihovimi vzorčenimi verzijami. Zato je seveda to teorijo potrebno udejaniti predvsem na vzorčenih verzijah signalov. Pri tem naletimo na vsaj dva večja problema. V poglavju 2 smo vedno predpostavili, da imamo na voljo signal v času od —oo do +oo, kar pa je v realnih aplikacijah nemogoče doseči. Ta predpostavka nam je olajšala izračun posameznih transformacij, hkrati pa smo lahko zaradi tega pokazali kar nekaj lastnosti takšnih predstavitev. Seveda pri diskretizaciji signalov iz realnega sveta ne moremo pričakovati takšnih predpostavk. Zato se v glavnem omejimo na oknjene verzije posameznih predstavitev, kar ima za posledico izgubo nekaterih pomembnih matematičnih lastnosti zveznih verzij takšnih predstavitev in s tem povezano slabšo ločljivost in lokalizacijo v časovno-frekvenčnem prostoru, kot smo si lahko ogledali že v prejšnjem poglavju. V tem primeru v bistvu z vzorčenimi verzijami lahko samo ocenjujemo zvezne časovno-frekvenčne predstavitve. Drugi problem pri vzorčenju je vzorčenje samo. Kot bomo lahko videli, bomo postavili tu dodatne pogoje za vzorčenje, če hočemo dobiti verodostojne ocene zveznih predstavitev. Vse to je neposredno povezano z diskretizacijo časovno-frekvenčnih predstavitev, obstajajo pa še druge možnosti, kjer se ne ukvarjamo z direktno diskretizacijo predstavitev in njenimi problemi, ampak že vnaprej predpostavimo vzorčen signal in iščemo diskretne časovno-frekvenčne predstavitve na takšnem signalu. Pri tem iskanju se omejimo na takšne, ki so sorodne diskretiziranim verzijam zveznih predstavitev. Tu si pomagamo z operatorsko teorijo. V nadaljevanju se bomo najprej osredotočili na diskretizacijo zveznih predstavitev, kjer bomo na primeru Wigener-Villejeve predstavitve nakazali probleme takšnega pristopa, kasneje pa si bomo ogledali operatorsko teorijo in njeno zvezo z diskretnimi časovno-frekvenčnimi predstavitvami. 41 3. Diskretne časovno-frekvenčne predstavitve__________________________________42 3.1 Vzorčenje zveznih predstavitev________________ Pod pojmom vzorčenje zveznih časovno-frekvenčnih predstavitev mislimo predvsem neposredno prevedbo zveznih predstavitev k diskretnim različicam v primeru vzorčenih signalov. Diskretizacijo atomarnih (linearnih) predstavitev, ki so zelo razširjene pri analizi in obdelavi signalov, smo si že ogledali v prejšnjem poglavju, kjer smo predstavili diskretizacijo valčne in krakočasovne Fourierjeve transformacije ter z njo v zvezi tudi Gaborjeve transformacije. Iz teh diskretizacij tudi neposredno sledijo vzorčenja dveh energijskih predstavitev: spektrograma in skalograma. V tem delu si bomo tako pogledali vzorčenje preostalih predstavitev na primeru Wigener-Villejeve porazdelitve, kjer se bomo ukvarjali tudi s problemi, ki so posledica diskretizacij e. 3.1.1 Diskretna Wigener-Villejeva porazdelitev Tu bomo izpeljali diskretno verzijo Wigener-Villejeve porazdelitve, ki predstavlja predvsem oceno zvezne porazdelitve. Če v definiciji WVD (2.17) zamenjamo u = t/2 in zapišemo u = 2%f, dobimo: / + 00 x(t + u)x*(t-u)e-j2wudu. (3.1) ¦oo Zapišimo še vzorčeni signal x(t) kot x[n] = x(nT). Z uporabo trapeznega pravila lahko integral iz (3.1) zapišemo kot Wx[n,u) = 2T^x[n + k]x*[n - k\e~j2ujkT. (3.2) k Tako smo dobili Wigener-Villejevo porazdelitev diskretno po času in zvezno po frekvenci (DTWVD). Zanjo velja: Wx[n,u + ^) = Wx[n,u), (3.3) kar pomeni, da je DTWVD periodična s periodo ^ (npr. pri spektrogramu imamo periodo v takem primeru ^). Po Shannonovi teoriji vzorčenja lahko DTWVD opisuje frekvenc večjih od ^. V primeru v signalu frekvence večje od tt/2T pride do pojava prekrivanja (ang. aliasing) [Gyergyek-91, str. 563], slika 3.1. Prvi način, da bi odpravili ta problem, je, da podvojimo vzorčenje signala. Najbolj enostavno je, če izvedemo interpolacijo predhodnega vzorčenja, slika 3.2. To dosežemo tako, da podvojimo število odtipkov in sicer tako, da dodamo med vsak odtipek novo točko z vrednostjo 0. Potem pa izvedemo nizkoprepustno filtriranje na takšnem signalu, da odpravimo napake interpolacije. Postopek, prikazan na sliki 3.2, lahko zapišemo kot: N y[m] = y^x[n\^f[m — 2n], (3.4) n=0 3. Diskretne časovno-frekvenčne predstavitve 43 TT IT a K/1 ir/2T ~ss- 1T/2T ir/T -ea~- tt/t l 7T/2T l ^ ^ -7T/2T -tt/T ^ ĆŽ? Slika 3.1: Slika prikazuje pojav prekrivanja pri DTWVD. Levo je DTWVD s prekrivanjem, desno pa slika brez prekrivanja.________________________________________________ kjer 7[m] opisuje nizkoprepustni filter in je y[m] dvojno prevzorčeni signal. V tem primeru se tako čas vzorčenja T zmanjša za polovico, torej na T/2. Tako iz (3.2) dobimo Wx[m,u) = 2-^2y[m + k]y*[m-k]e-j2ojk^, (3.5) k s periodo ^, kar je bil naš namen. Nadalje zapišimo 9 = u>T/2, brez škode za splošnost lahko predpostavimo T = 2 in tako (3.5) poenostavimo v Wx[m, 0) = 2 Y^ yim + k]y*[m - k]e-j20k. (3.6) fe=—oo S tem smo se tako znebili problema vzorčenja danega signala v primeru Wigener-Villejeve predstavitve, še vedno pa zahtevamo v enačbi (3.6) neskončen (po času) signal. Rešitev za to je že v prejšnjem poglavju opisana psevdo Wigener-Villejeva porazdelitev, ki uvede dodatno okno Wigenerjevi predstavitvi (z namenom glajenja po frekvenci v prejšnjem poglavju). To lahko v tem primeru zapišemo kot Wx[m, 0) = 2 Y^ w[k]y[m + k]y*[m - k]e-j20k. (3.7) fe=—oo V nadaljevanju bomo izbrali pravokotno okno, da bomo poenostavili izpeljavo, in sicer 1, |fc|<2L, w[k] = 0, sicer. 3. Diskretne časovno-frekvenčne predstavitve 44 x\n\ prvotno vzorčenje ! _•_______I_______•_ . nizki filter \ / \ ' dodajanje ničel V [n. 2tt 0 2tt podvojeno vzorčenje ___________Slika 3.2: Podvojevanje frekvence vzorčenja signala z interpolacijo. Če to upoštevamo v (3.7), izpeljemo: 2L-1 Wx[m,9) = 2 Y^ y[m + k]y*[m-k]e-j29k k=-(2L-l) 0 = 2 Yl y[m + k]y*[m-k]e-j29k k=-(2L-l) 2L-1 + 2 ^2 y\m + k]y*[m - k]e~j2(>k - 2y[m]y*[m] k=0 '2L-1 = m l Y^ y\-m + k\y*\m - k]e-j2ek \ - 2y[m]y*[m]. k=0 Če izvedemo še diskretizacijo po frekvenci 9, dobimo {2L-1 Y^ y[m + k]y*[m - k]e~j *=0) Anin 2L 2y[m]y*[m] (3.f za 0 < I < 2L. Formula (3.8) definira diskretno Wigener-Villejevo porazdelitev (DWVD). Zanjo velja DWx[m, l] = DW[m, l + iL] za i = 0, ±1, ±2,... To pomeni, da pri računanju (3.8) s FFT (2L točkovno) lahko predpostavimo y[m + k]y*[m — k] = 0 za \n\ > L, 3. Diskretne časovno-frekvenčne predstavitve 45 saj v nasprotnem dobimo drugo polovico členov enakih prvi polovici. S to predpostavko se (3.8) poenostavi v (L 1 DWx[m,l] =ml^2y[m + k]y* m k]e __ 2nln J L 2y[m]y* m\ (3.9) za 0 < / < L. S tem se znebimo redundantnih členov pri računanju s FFT metodami, maksimalna frekvenca, ki jo lahko brez težav prekrivanja ločimo v signalu, pa je tt/T. Formulo (3.9) lahko razumemo kot oceno diskretne Wigener-Villejeve porazdelitve. Tako vzorčena predstavitev je zelo "blizu" zvezni verziji predstavitve. Največji problem tega pristopa je predhodno nadvzorčenje signala, kar ni vedno zaželjeno (zaradi napak). Temu pa se lahko v primeru realnih signalov izognemo z uporabo Hilbertove transformacije. Tako tvorjen analitičen signal, ki smo ga definirali v poglavju 2.1.3.1, ima to pomembno lastnost, da ohranja (podvojuje) samo pozitivne spektralne komponente, medtem ko uničuje negativne. Tako dobimo samo eno polovico spektra in s tem problem prekrivanja odpade. Hilbertovo transformacijo lahko razumemo v nekem smislu kot filtriranje z nizkoprepustnim filtrom, kar je podobno kot v primeru nadvzorčenja signala z interpolacijo. To lahko izkoristimo, da uporabimo direktne diskretne verzije predstavitev na analitičnih signalih. Dejstvo pa je, da porazdelitev energije analitičnega signala lahko drugačna od dejanske, kljub temu da sta energiji dejanskega in analitičnega signala neposredno povezani (zveza (2.4)). Takšen pristop diskretizacije odpade v primeru kompleksnih signalov, npr. pri radarskih aplikacijah [Qian-96]. casovni potek signala casovni potek signala 0.35 -i 0.3 - WV, 2 Gaussova atoma, lin. skala Slika 3.3: Slika dveh Gaussovih atomov z diskretno verzijo WVD: (a) realni signal, (b) anali-tičen signal tvorjen iz realnega signala._______________________________________________ Ta pojav lahko opazujemo na sliki 3.3, kjer imamo signal sestavljen iz dveh Gaussovih atomov. Enkrat vzamemo realni del tega signala, drugič pa njegovo analitično verzijo. V prvem primeru lahko vidimo, da imamo namesto dveh atomov v časovno-frekvenčni ravnini kar štiri, kar je posledica "slabega" vzorčenja in s tem pojava prekrivanja za diskretno verzijo WVD. Tudi interferenčnih območij je zaradi tega več. Pojavijo se tudi interferenčni členi, ki so posledica negativnih spektralnih komponent (na zgornjem in 3. Diskretne časovno-frekvenčne predstavitve________________________________________46 spodnjem robu slike 3.3(a)) V drugem primeru analitičnega signala pa je slika 3.3(b) veliko bolj "čista" in prikazuje dejanski potek signala v časovno-frekvenčni ravnini. 3.2 Vzorčenje s pomočjo operatorske teorije Tu si bomo ogledali diskretizacijo Cohenovega razreda predstavitev s pomočjo operatorske teorije. Leon Cohen je v svojem delu [Cohen-66] posplošil izražave časovno-frekvenčnih predstavitev, ki ohranjajo premike po času in frekvenci, kar smo si ogledali v prejšnjem poglavju. V knjigi [Cohen-95] pa je pokazal, kako lahko takšne predstavitve opišemo tudi s t.i. karakterističnimi funkcijami z uporabo operatorskih metod, ki sta jih prva predstavila Moyal [Moyal-49] in Ville [Ville-48]. Skupna značilnost teh metod je, da gledamo na kvadratne časovno-frekvenčne predstavitve kot na porazdelitvene funkcije energije v prostoru časa in frekvence, kar smo si že ogledali v predhodnih poglavjih (od tod tudi ime energijske porazdelitve). Na ta način lahko uporabimo teorijo verjetnostnega računa, kakor bomo pokazali v nadaljevanju. Tak zapis časovno-frekvenčnih predstavitev pa bomo uporabili predvsem na vzorčenih signalih in tako neposredno iz vzorčenega signala dobili diskretno časovno-frekvenčno predstavitev. 3.2.1 Karakteristične funkcije zveznih predstavitev Pri Cohenovi metodi [Cohen-95] izražave kvadratnih časovno-frekvenčnih predstavitev s karakterističnimi funkcijami moramo najprej definirati operatorja, ki delujeta na signal x(t) po času, operator T, in po frekvenci, operator W. Definiciji sta implicitni in sicer: / + 00 /> + oo x*(t)Wx(t)dt = / X*(f)fX(f)df, (3.10) oo J — oo Tx(t) = tx(t). (3.11) Definiciji operatorjev (3.10) in (3.11) si lahko razlagamo kot izračun povprečne frekvence v signalu oziroma povprečnega časa signala x(t), če razumemo količini x*(t)x(t) in X*(f)X(f) kot porazdelitvi energije v signalu, kot smo to že počeli v poglavju 2.1.2 na str. 6. Eksplicitna rešitev v primeru (3.10) je [Cohen-95]: WMi) = -j^-x[t). (3.12) 3. Diskretne časovno-frekvenčne predstavitve__________________________________47 3.2.1.1 Karakteristične funkcije Z uporabo časovnega in frekvenčnega operatorja skupaj lahko definiramo časovno-frekvenčne predstavitve v primeru zveznega signala. To bomo storili s pomočjo karakterističnih funkcij. Karakteristično funkcijo operatorja A podamo z / + 00 s*(t)exp(jaA)s(t)dt. (3.13) -00 Od tu pa lahko izračunamo porazdelitev zvezne spremenljivke a, ki jo opiše operator A, kot / + 00 M(a)exp(-jaa)da. (3.14) -oo V primeru časovno-frekvenčnih energijskih porazdelitev, P(t,f), imamo opravka z dvema zveznima spremenljivkama. Takšno predstavitev ustrezno definira dvodimenzionalna karakteristična funkcija: M{V, t) = (exp(j7> + jWr)), (3.15) iz katere z dvodimenzionalno Fourierjevo transformacijo izračunamo časovno-frekvenčno predstavitev: / + 0O /> + oo / M{r], t) exp(-jr?t) exp(-jr/)^r. (3.16) oo J —oo Tu je potrebno opozoriti, da imamo opravka z operatorji T in W, ki na splošno med sabo ne komutirajo, zato tudi ne smemo v karakteristični funkciji (3.15) poljubno zamenjavati vrstni red operatorjev, kot to delamo v primeru spremenljivk. Izkaže se namreč, da različni vrstni redi operatorjev definirajo različne karakteristične funkcije in s tem različne predstavitve, npr. (exp(jT?7+iWr)), (exp(jTrj) exp(jWr)}, (exp(|Wr) exp(jTrj) exp( opisujejo različne časovno-frekvenčne predstavitve. Cohen [Cohen-95, str. 152-158] je nadalje pokazal, da so karakteristične funkcije definirane z različnimi vrstnimi redi operatorjev ekvivalentne, če v definiciji (3.15) uvedemo ustrezno funkcijo ^(t),t), ki jo imenujemo jedro. Temu pravilu pravimo pravilo ujemanja (ang. correspondence rule). To pomeni, da s karakteristično funkcijo / M(n,T) = 4>{r],T) s*(t)exp{jTv)exp{jWr)s{t)dt (3.17) J —oo lahko opišemo vse možne kombinacije nastopa operatorjev v karakteristični funkciji. Z izbiro (določitvijo) jedra (f>(rj,r) in z izbiro vrstnega reda operatorjev pa tako lahko enolično definiramo časovno-frekvenčne predstavitve iz Cohenovega razreda, ki smo jih zapisali s (3.16). Tudi tu si lahko razlagamo jedro 4>{n1 r) , analogno kot parametrizacijsko funkcijo (2.19) v prejšnjem poglavju pri Cohenovih porazdelitvah, kot funkcijo glajenja dane predstavitve. 3. Diskretne časovno-frekvenčne predstavitve 48 3.2.2 Prevedba v diskreten prostor Tu bomo podobno kot v prejšnjem podrazdelku zapisali predstavitve s karakterističnimi funkcijami, le da bomo tu privzeli, da je signal vzorčen. Na voljo imamo vzorčen signal x[n] s periodo N. Diskretno Fourierjevo transformacijo signala zapišimo kot X[k]. Naš cilj je torej definirati diskretno časovno-frekvenčno predstavitev P[n, k] neposredno iz diskretno časovno podanega signala x[n] in ustrezne frekvenčne slike X[k\. Najprej prevedimo zvezna operatorja iz (3.10) in (3.11) v njuni diskretni različici /C in C tako, da zapišemo implicitni definiciji za diskreten primer N-l N-l ^x*[n]Kx[n] = ^X*[k]kX[k], Cx\n] n=0 k=0 nx\n] (3.18) (3.19) Operatorja K, in C sta diskretna in linearna, tako daju lahko interpretiramo kot matriki in operacije iz izpeljav (3.18) in (3.19) tako obravnavamo kot matrične enačbe. Zato najprej zapišimo niz {x[0], x[l], ..., x[N — 1]} kot vektor x. Operacijo konjungiranja v tem primeru predstavimo kot Hermitsko transponiranje vektorja in jo označimo kot x*. Operatorja /C in C pa predstavimo z matrikama K in L. V tem primeru lahko rešimo matrični enačbi (3.18) in (3.19). Iz (3.19) neposredno sledi, da je matrika L diagonalna z elementi {0, 1, ..., iV — 1} po diagonali. Rešitev matrične enačbe (3.18) pa je [McLaughlin-97]: /C = o[n]x[n], kjer je 0\n\ = < sin(im/N)-> T- ) 0, n = 0 (3.20) (3.21) kjer pomeni ® krožno konvolucijo. Matrika K je torej krožna matrika oblike: K o[Q] o[l] o[l] o[N - 1] o[N-l] o[0] o[N - 1] o[Q] o[N - 2] (3.22) Izračunane diskretne operatorje bomo uporabili naprej za izračun diskretnih karakterističnih funkcij. Še prej pa si bomo ogledali nekaj lastnosti takšnih operatorjev, ki jih bomo potrebovali v nadaljevanju. 3. Diskretne časovno-frekvenčne predstavitve__________________________________49 3.2.3 Lastnosti operatorjev Premiki Pri zveznih operatorjih je Cohen pokazal, da velja [Cohen-66]: ejWTx(t) = x(t + r), (3.23) kjer je W zvezni operator definiran s (3.10). V primeru diskretnega operatorja K lahko pokažemo podobno: e>Kms[n] = ± {-^s[n] = L ^(K)'s[»]. (3.24) Izračunajmo diskretno Fourierjevo transformacijo izraza (3.24): DFT{eiKms[n]} = f^ ^klS[k] = f^ ^r~S[k] = eJmkS[k]. i=o ' 1=0 Ce izračunamo nazaj inverzno DFT, dobimo iskano lastnost: ejKms[n] = s[n + m]. (3.25) Komutatorji Komutator dveh operatorjev je definiran kot C = [A, B] = [AB — BA\. Pri teoriji operatorjev nam pomenijo konstantne vrednosti komutatorjev pomembne lastnosti takšnih operatorjev. V primeru, da je C = 0, to pomeni, da sta operatorja med sabo komutativna, torej lahko poljubno spreminjamo vrstni red operatorjev. V zveznem primeru naših operatorjev lahko izračunamo (TW-WT)x(t) = (t(-3i)-(-ji)t)x(t) = -jtx'(t)+jx(t)+jtx'(t) (3.26) = jx(t), kar pomeni, da je [T, W] = j oziroma [W, T] = —[T, W] = —j. Vrednost komutatorja teh dveh operatorjev je torej konstantna, kar bomo izkoristili kasneje pri izračunu Wigener-Villejeve zvezne porazdelitve. V diskretnem primeru pa konstantne vrednosti operatorja v tem primeru ne moremo zagotoviti: (LK — KL)x[n] = n(o[n] ® x[n\) — o[n] ® nx[n] = nYJpo[p]x[n-p\-Y,po[p]{n-p)x[n-p\ (3.27) = no[n] ® x[n], kar pomeni, daje [L, K] = no[n] oziroma [K, L] = —no[n]. 3. Diskretne časovno-frekvenčne predstavitve__________________________________50 Krožne matrike V jeziku linearne algebre so definirane krožne matrike kot hi h2 ¦ ¦ ¦ hN ho ¦ • ¦ h m fo-\ H = hfq hi ¦ ¦ ¦ /ljV-1 Vsaka takšna matrika H se da diagonalizirati. Torej FHF* = A, kjer je F N x N matrika z elementi exp(—j^ra). To pa ni nič drugega kot matrika diskretne Fourierjeve transformacije (vsoto lahko razumemo kot produkt matrike in vektorja sestavljenega iz signala). V primeru (3.22) to pomeni, da lahko krožno matriko diagonaliziramo in dobimo [Atlas-97, Narayanan-96]: JV- 1 N -1 FKF* = diag{0, 1, ..., —^—,------—, - - -, -1} (3.28) Tudi to lastnost bomo uporabili pri izpeljavi diskretnih časovno-frekvenčnih predstavitev. Še več lastnosti zveznih in diskretnih operatorjev pa lahko najdemo v članku [McLaughlin-97]. 3.2.4 Izpeljava diskretnih časovno-frekvenčnih predstavitev V diskretnem primeru lahko zapišemo karakteristično funkcijo (3.15) z diskretnima operatorjema (3.18) in (3.19) kot M[t], t] = (exp(j27rL?7 + j2ttKt)). (3.29) Podobno kot v zveznem primeru imamo tudi tu možne različne rede operatorjev, ki pa jih lahko opišemo z izbiro enega samega vrstnega reda in uvedbo funkcije jedra 4>[r}, t], ki je v tem primeru seveda diskretna funkcija. Prav ustrezna izbira vrstnega reda operatorjev pa nam omogoča izpeljavo diskretnih različic časovno-frekvenčnih zveznih predstavitev. V nadaljevanju si bomo ogledali izpeljavo diskretne Richaczkove predstavitve in probleme, ki nastanejo, če hočemo na tak način izpeljati Wigener-Villejevo porazdelitev. 3.2.4.1 Diskretna Richaczkova predstavitev Če uporabimo karakteristično funkcijo (exp(j27rL77) exp(j27rKr)), potem lahko zapišemo M[V,t] = (eiLVKT) = ^2x*[n]ej^ejKrx[n]. n 3. Diskretne časovno-frekvenčne predstavitve_________________________________________51 Tu konstanto 2n obravnavamo v ustreznih spremenljivkah in jo v nadaljevanju ne bomo več pisali. Ob uporabi lastnosti (3.25) poenostavimo M[t],t] v M[7],r] = ^2x*[n]ej'L,ix[n + r]. (3.30) n Če prevedemo zapis časovno-frekvenčnih predstavitev (3.16) v zveznem primeru v diskretno različico, dobimo P[n, k] = Y, Y, M^' r]e-JTke~J7in. (3.31) T Tj V definicijo diskretne porazdelitve (3.31) nadalje vstavimo karakteristično funkcijo iz (3.30): P[n, k] = Y^ Yl ( 5Z ^M^t« + T] ) e-JTke~jvn. r r\ \ u J Operator e-jLr? se po času prevede v e^nr>. Če to upoštevamo, dobimo P[n, k] = Y^ Yl ( Ylx*[u]^x[u + r] J e-JTke~jr' T Tj \ U / = y y ^x*[n]x[u + r]5[n — u]e~^rk T U = ^2 x* [n]x[n + T~]e~JTk T = x*[n]ejnkX[k}. (3.32) Tako smo dobili diskretno (konjungirano) verzijo Richaczkove porazdelitve (2.24). 3.2.4.2 Wigener—Villejeva porazdelitev Poglejmo si še primer, kako lahko s pomočjo karakterističnih funkcij izračunamo Wigener-Villejevo porazdelitev. Najprej bomo izpeljali zvezno Wigenerjevo porazdelitev. Če si izberemo drugačen vrstni red operatorjev v karakteristični funkciji, in sicer ^rri+:>WT), zapišemo karakteristično funkcijo kot: -jrin hoo M(r],r)= x*(t)ejTl1+jWrx(t)dt. (3.33) V tem primeru si pomagamo z izrekom [Wilcox-67], ki pravi, da je fjAa+jBß _ e-±aß[A,B]eJBßeJAa e±aß[A,B]eJAaeJBß (3.34) natanko tedaj, ko velja [[A,BIA} = [[A,B]IB} = 0. (3.35) 3. Diskretne časovno-frekvenčne predstavitve_________________________________________52 V našem primeru je komutator [T, W] = j iz česar sledi, da je pogoj (3.35) izpolnjen in tako lahko vsoto operatorjev spremenimo v produkt (kompozitum) operatorjev: eiTri+iWT _ ej\t\teJTrieJWr Ob upoštevanju tega preuredimo (3.33) v M(ti,t)= x*(t)eJ-^rejT,1ejWrx{t)dt. (3.36) J — oo To lahko nadalje poenostavimo ob upoštevanju lastnosti premika zveznega operatorja (3.23) in dejstva, da je T = t, v f+°° i M(t],t)= x*{t)e3^Te^x{t + r)dt. (3.37) J —oo Z uvedbo nove spremenljivke u = t + | zvezo (3.37) preuredimo v: r+co t ¦ t M{t), t)= x*(u- -)e]unx{u + -)du, (3.38) J-oo 2 2 kar ni nič drugega kot definicija zvezne večlične funkcije iz (2.21). Z dvodimenzionalno Fourierjevo transformacijo iz karakteristične funkcije (3.38) izračunamo Wigener-Villejevo porazdelitev: P{t,f) = C™C™C™x*{u-l)e^x(u+--)e-rte-nfdildTdu = f*™ f^x*(u-^)S(u-t)x(u + l)e-JTfdrdu (3.39) = j^x*(t-^)x(t + ^e-^dr. S tem smo nakazali pot, kako s pomočjo karakterističnih funkcij izračunamo energijske predstavitve. Poglejmo si še, kaj se zgodi v diskretnem primeru. Tu imamo že takoj na začetku težave, saj komutatorji diskretnih operatorjev ne zadoščajo pogoju (3.35) izreka. To pa zaradi tega, ker [L, K] ni konstanta, ampak operator, kar ima za posledico, da je tudi [[L,K],L]=n2o[n] nov operator, ki seveda ni enak 0. Zato na ta način ne moremo izpeljati diskretne Wigener-Villejeve porazdelitve. 3.2.4.3 Splošen zapis diskretnih predstavitev Če vse skupaj povzamemo in povežemo v enoten okvir, lahko zapišemo diskretne časovno-frekvenčne predstavitve s pomočjo karakterističnih funkcij tako, da najprej definiramo diskretno karakteristično funkcijo N—l M[r,,T] = ]T:r>]exp(^ + 3-^)x[n]. (3.40) n=0 3. Diskretne časovno-frekvenčne predstavitve__________________________________53 Z uporabo pravila ujemanja [Cohen-95, str. 152-158] lahko poljubno mešamo vrstni red operatorjev, vendar moramo pri tem uvesti posebno funkcijo ^[t),t], ki jo imenujemo jedro. Tako lahko karakteristično funkcijo zapišemo drugače kot iV—i M[V,r] = 5>>]ç%,r]exp(^^)exp(^^Mn]. (3.41) n=0 Če privzamemo takšen vrstni red operatorjev, lahko enačbo (3.41) obravnavamo na dva načina. Pri prvem načinu gre za poenostavitev enačbe (3.41), kar smo že počeli v primeru diskretne Richaczkove predstavitve. Vse skupaj se poenostavi v iv-i .„ M[V,t] =^T]Lx>Mn + T]exp(^p) (3.42) n=0 in P[n,k] = gexpf^^) xiexpî^^JM^r] (3.43) T? = 0 T = 0 Drugi način izpeljave enačbe (3.41) pa je, če si vse skupaj predstavljamo kot produkte matrik z vektorji. V tem primeru [Atlas-97] predstavimo operatorja L in K z ustreznima matrikama. Eksponenciranje matrik pa izvedemo tako, da najprej diagonaliziramo dani matriki, potem pa eksponenciramo elemente diagonalne matrike. Matrika L je že diagonalna, tako da tu kar eksponenciramo diagonalne elemente. Matriko K pa smo že diagonalizirali v primeru krožnih matrik (3.28). Tako lahko zapišemo karakteristično funkcijo iz (3.41) kot M[r), t] = x*(/>AiFA2F*x, (3.44) kjer pomeni * Hermitsko konjungiranje, Ai diagonalna matrika operatorja exp(J ^ ), A2 pa diagonalna matrika operatorja exp(j2,^K) in F DFT matrika. Ce izračunamo še dvodimenzionalno diskretno Fourierjevo transformacijo, dobimo predstavitev v matrični obliki zapisano kot [Atlas-97]: P[n,fc] = x*($. *F)F*x, (3.45) kjer operacija .* predstavlja produkt matrik po elementih in je $ dvodimenzionalna DFT jedra (p) 1+ t\ \ P ' *¦J''maxi Ce Ir rCx(T, J ) \ p ¦ tJTmax, ( a -\\ TFR* {tJ) = \TFRx(t,f), sicer. (41) S popravljeno predstavitvijo TFRX (t, /) tako nimamo težav z logaritmiranjem. Ravno tako pa jo lahko uporabimo tudi pri 2D slikah z linearno skalo. Pri slikah govornih signalov smo dejansko uporabili za prikaz log10(TFRX, (t, /)). Množenje z 10 lahko pri 2D slikah z barvnimi paletami zanemarimo, saj ne vpliva na preslikavo zaloge vrednosti v barvno paleto. Seveda tako popravljena predstavitev ne ustreza vsem lastnostim dejanske predstavitve, za prikaz pa je nadvse primerna, čeprav z njo tako ne moremo v celoti preučevati geometrije interferenčnih členov. 4.1.2 Primerjava predstavitev Tu si bomo ogledali slike različnih časovno-frekvenčnih predstavitev na primeru krajšega odseka govornega signala. Podali bomo primerjavo in analizo slik. Za govorni signal smo si izbrali signal dveh osnovnih period fonema /e/ moškega govorca. Signal je bil vzorčen s frekvenco 16 kHz, izsek 350 točk tako predstavlja približno 22 ms signala. Takšen govorni signal, ki predstavlja dve osnovni periodi vokala /e/, si lahko razlagamo tudi kot odziv vokalnega trakta na kvazi-periodično vzbujanje, ki ga povzročimo 4. Analiza in razpoznavanje govornega signala________________________________________59 z našimi glasilkami pri tvorbi zvenečih glasov [Rabiner-93]. Resonančnim frekvencam vokalnega trakta pravimo formantne frekvence (formanti) in so odvisne od posameznega glasu. S slikami časovno-frekvenčnih predstavitev lahko opazujemo nastanek in potek posameznih formantnih frekvenc takšnega govornega signala v odvisnosti od frekvence vzbujanja, ki ji pravimo tudi osnovna frekvenca ali frekvenca osnovnega tona. V našem primeru opazujemo slike dveh osnovnih period zvenečega glasu /e/. Na sliki 4.2(a) in (b) lahko primerjamo dva spektrograma analiziranega signala. V obeh primerih smo uporabili Hammingovo okno (pri obdelavi govornih signalov se to okno najbolj uporablja [Rabiner-78, str. 250-282]): v prvem primeru, (a), je bilo okno daljše (64 točk), v drugem, (b), pa krajše (21 točk). Ker je spektrogram že precej uveljavljen pri prikazu in interpretaciji časovno-frekvenčne analize signalov, bomo kar na primeru slike 4.2(a) komentirali vsebino slike. Na sliki 4.2(a) lahko opazimo 3 formantne frekvence, ki jih opisujejo lise na položajih približno 0.04 normalizirane frekvence (640 Hz), 0.12 (pribl. 1900 Hz) in približno v pasu okoli 0.15 (2400 Hz). Četrto formantno frekvenco lahko zasledimo še v pasu okoli 0.22 normalizirane frekvence (3500 Hz). Očitno je, daje prva formantna frekvenca spektralno dominantna, kar lahko opazimo tudi na spektralni sliki (ob strani) signala, kar se v barvni skali izrazi kot bolj intenzivna barva. Spektralna energija posameznih forman-tov pa potem pada do še komaj zaznavne četrte formantne frekvence (vse svetlejši odtenki iz barvne palete). Tu moramo poudariti, da uporabljamo logaritemsko skalo in popravljeno predstavitev definirano s (4.1) s pragom 0.5%. Podobno iz slike 4.2(a), vendar težje kot na sliki 4.2(b), lahko razberemo tudi periodo osnovnega tona govorca, ki znaša v našem primeru okoli 150 točk ali približno 9 ms, kar pomeni osnovno frekvenco okoli 100 Hz (to lahko vidimo tudi neposredno iz signala). Sam spektrogram je nenegativna časovno-frekvenčna energijska predstavitev in zaradi svoje konstrukcije na sliki ne pričakujemo motečih interferenčnih členov, ki onemogočajo boljšo analizo signala. Pomanjkljivost pa je seveda v tem, da ne moremo sočasno doseči natančnejše frekvenčne in časovne lokalizacije posameznih komponent signala. To se lepo vidi iz slik 4.2(a) in (b), kjer imamo v prvem primeru dobro frekvenčno ločljivost (boljšo lokalizacijo po frekvenci) in slabo časovno (razmazanost na sliki (a)), v drugem pa ravno obratno: območja intenzivnejše barve (energije signala) se po času skrčijo po frekvenci pa razmažejo (ne ločimo več formantov tako dobro). Pomanjkljivost spektrograma je tudi v tem, da ne ustreza lastnostim robnih pogojev (lastnost 2, poglavje 2.3.2.1 na str. 24), to pa pomeni, da se npr. t.i. hipni glasovi (zaporniki, ...) na slikah spektrograma razmažejo [Loughlin-93]. Na tem mestu moramo poudariti, da smo pri vseh nadaljnjih predstavitvah uporabili analitične verzije originalnega signala zaradi že opisanih težav pri vzorčenju in analizi zveznega signala. To pomeni, da smo dejansko računali časovno-frekvenčne predstavitve Hilbertove transformacije signala (definicija (2.3), poglavje 2.1.3.1). S tem pa nismo bistveno pokvarili oziroma spremenili časovno-frekvenčne slike porazdelitve energije v signalu, kar se lahko prepričamo iz preostalih slik. Pri spektrogramu bi lahko dejansko vzeli tudi analitično verzijo realnega signala, vendar pri tej predstavitvi nimamo težav z interferenco ob Nyqvistovi frekvenci vzorčenja. 4. Analiza in razpoznavanje govornega signala 60 časovni potek signala časovni potek signala 0.2 0 0.2 0.4 linearna skala SP, Lh=64, Nf=256, log. skala, imagesc, prag=0.5% SP, Lh=21, Nf=256, log. skala, imagesc, prag=0.5% linearna skala 21131057 0 linearna skala 21131057 0 II . 1¦¦..¦... . : tli é \ l, . . \ FŠ* " * ¦ il *Pjhi& - - ¦ ¦ ft * **$* 150 200 cas Slika 4.2: Slike različnih predstavitev dveh osnovnih period fonema /e/: (a) spektrogram, dolgo okno, (b) spektrogram, kratko okno, (e) Wigener-Villejeva predstavitev, (d) psevdo Wigener-Villejeva predstavitev, (e) zglajena psevdo Wigener-Villejeva predstavitev, (f) Pa-geova predstavitev. 4. Analiza in razpoznavanje govornega signala 61 casovni potek signala časovni potek signala linearna skala MH, log. skala, imagesc, prag=0.5% 0.351 i 0.31 S 0.251 o 0.2 0.15 0.1 0.05 linearna skala 50 100 150 200 250 300 cas (g) BJ, Lg=25, Lh=64, Nf=512, log. skala, imagesc, prag=0.5% PMI- , Lh=64, Nf=256, log. skala, imagesc, prag=0.5% 0.45 0.4 0.35 g" 10.25 i Io, Et" iter1 0.15 li- Mi>«>.....Mt.'.;. 0.1 M '/// Hit***- -wđQ%***' 1«.- . lu- -^ - 0 M~* ¦;-___Xli'%V^ 50 100 150 200 250 300 350 cas (h) CW, Lg=25, Lh=64 sigma=1, Nf=512, log. skala, imagesc, prag=0.5% 21131057 0 linearna skala 21131057 0 Slika 4.3: Slike različnih predstavitev dveh osnovnih period fonema /e/ (nadaljevanje slike 4.2): (g) Margenau-Hillova predstavitev (h) psevdo Margenau-Hillova predstavitev, (i) Born-Jordanova predstavitev (zglajena verzija), (j) Choi-Williamsova predstavitev (zglajena verzija), (k) Zhao-Atlas-Marksova predstavitev (zglajena verzija). 4. Analiza in razpoznavanje govornega signala________________________________________62 Slike 4.2(c), (d) in (e) prikazujejo Wigener-Villejeve različice predstavitev, ki zaradi številnih matematičnih lastnosti zelo natančno po času in frekvenci opišejo porazdelitve energije v signalu. Na žalost pa je zaradi teh lastnosti slika tudi znatno pokvarjena, pojavi se namreč pojav izrazite interference. Interferenčni členi se v primeru Wigener-Villejeve predstavitve (WVD) (slika 4.2(c)) pojavijo na polovici osnovne periode fonema, vzdolž frekvenčne osi pa nastopi interferenca med posameznimi formantnimi frekvencami. Kljub temu, da so na sliki prikazani samo pozitivni členi in smo negativne interferenčne člene zanemarili, nam ti zelo kvarijo sliko. Vseeno lahko opazimo najboljšo (v primerjavi z ostalimi) časovno in frekvenčno lokalizacijo posameznih dogodkov v časovno-frekvenčni ravnini. Z glajenjem po frekvenci (4.2(d)) v primeru psevdo Wigener-Villejeve predstavitve (PWVD) smo odpravili interferenčne člene na sredini osnovne periode (interferenčni členi na sredini so izginili), poslabšali pa smo frekvenčno ločljivost. Tu smo za glajenje po frekvenci uporabili Hammingovo okno dolžine 64 točk. Z dodatnim glajenjem po času (4.2(e)) pri zglajeni psevdo Wigener-Villejevi predstavitvi (SPWVD) smo odpravili interferenčne člene vzdolž frekvenčne osi. Tu smo za glajenje po času uporabili Hammnigovo okno dolžine 21 točk. S tem so postale vidne vse formantne frekvence, dodatno pa smo poslabšali časovno lokalizacijo. V primerjavi s slikama spektrograma s SPWVD natančneje opišemo porazdelitev energije. Drugo skupino predstavitev prikazujejo slike 4.2(f), 4.3(g) in 4.3(h). Ideje izvedbe predstavitev se tu razlikujejo kot pri WVD. Pageova predstavitev (PD, slika 4.2(f)) temelji na principu kavzalnosti, opisuje namreč porazdelitev energije na podlagi akumulacije energije do določenega trenutka v času. Margenau-Hillova predstavitev (MHD) (4.3(g)) je izpeljanka Richaczkove porazdelitve, kjer gre tudi za drugačen pristop opisovanja energije signala. Podobnost principov modeliranja obeh predstavitev se kaže v zrnatosti slik 4.2(f) in 4.3(g). Tudi tu sklepamo kompromis med natančnostjo predstavitve in interferenco. Kot lahko vidimo, imamo že v osnovnih verzijah PD in MHD manj in-terferenčnih členov kot pri WVD, hkrati pa lahko zelo natančno določimo formantne frekvence iz slik 4.2(f) in 4.3(g). Na sliki 4.3(h) pa je prikazana glajena (po frekvenci) verzija Margenau-Hillove predstavitve (PMHD). Slika je bolj čista kot v primeru 4.3(g), formantne frekvence so sorazmerno dobro vidne, časovna ločljivost je dobra, slabša pa frekvenčna. Tu smo za glajenje po frekvenci uporabili Hammingovo okno dolžine 64 točk. Preostale tri predstavitve, Born-Jordanovo (BJD, 4.3(i)), Choi-Williamsovo (CWD, 4.3(j)) in Zhao-Atlas-Marksovo (ZAM, 4.3(k)), dobimo na podlagi konstrukcije jeder iz večlične funkcije. Tu izbiramo takšna jedra, da ohranimo čim več lastnosti predstavitve in hkrati čimbolj zmanjšamo vpliv interference. Tu so predstavljene zglajene verzije predstavitev, kjer smo izvajali glajenje s Hammingovim oknom po času dolžine 25 točk, po frekvenci pa 64 točk. Kljub temu lahko opazujemo posledice izbire osnovnih jeder za konstrukcijo predstavitev. Tudi interferenca se tu drugače porazdeljuje kot npr. pri WVD. Pri Born-Jordanovi porazdelitvi (slika 4.3(i)) nastopajo interference med formanti pravokotno na časovno os, kar je posledica jedra (definicija (2.28)). Pri Choi-Williamsovi porazdelitvi lahko opazimo navpične črte po celotni sliki, ki so prav tako posledica izbire jedra pri izbrani o = 1 (glej sliko 2.22). Zelo čisto sliko dobimo 4. Analiza in razpoznavanje govornega signala________________________________________63 z zglajeno verzijo Zhao-Atlas-Marksove porazdelitve (slika 4.3(k)). Lastnost jedra te predstavitve je, da interferenčne člene, ki nastajajo vzdolž frekvenčne osi (vzporedno s časovno osjo) vlečemo skupaj v same spektralne komponente, ki se pojavijo v signalu. Ocena energije se lokalno rahlo pokvari, interference pa se tako delno znebimo. V našem primeru smo uporabljali jedro (2.30) pri a = 1. Kot lahko vidimo iz slike 4.3(k), ZAM predstavitev zelo dobro in natančno opiše poteke posameznih formantnih frekvenc (podobno kot SPWD) in zaradi tega predstavlja resno alternativo spektrogramu pri analizi in obdelavi govornih signalov. V magistrskem delu smo se bolj posvetili primerjavi energijskih predstavitev, ki spadajo v Cohenov razred, manj pa afinim predstavitvam. Razlogov je več, poglaviten pa je, da smo proučevali vpliv predstavitev na razpoznavanje govora. In Cohenov razred porazdelitev predstavlja bolj naravno in očitno povezavo med časovno-frekvenčno sliko in izbiro značilk. Vsekakor pa tudi afine predstavitve, kjer se ukvarjamo predvsem s časom in skalo, predstavljajo resen izziv za obdelavo, analizo in predvsem razpoznavanje govora. Primere afinih predstavitev si lahko ogledamo v dodatku A magistrskega dela. Tu si oglejmo samo en primer takšne predstavitve istega govornega odseka fonema /e/. Na sliki 4.4 je prikazan skalogram govornega signala. «X o -o i -0.4 I,-«a Tastata SC»LO LbrUt>3.ilat NhO=10 U=128 kç sKaia psubr TtitfcO.5% { i 1«* TS 0 SO IM 153 2D0 250 330 350 Slika 4.4: Slika skalograma dveh osnovnih period fonema /e/. Za osnovo smo si izbrali Morletove valčke. Analiza je bila izvedena na analitični verziji signala v frekvenčnem pasu od 0.01 do 0.25 normalizirane frekvence v diadični skali. Iz slike 4.4 je jasno razvidna časovno-frekvenčna ločljivost tako značilna za afine predstavitve: časovna ločljivost s frekvenco narašča, frekvenčna natančnost pa pada. Kot smo lahko razbrali iz slik posameznih predstavitev, moramo vedno tehtati med natančnostjo in interferenco. Seveda ni nujno, da je dovolj natančna slika tista, ki nam da dovolj informacije za nadaljnjo obdelavo in analizo. Tudi interferenca lahko pove nekaj o sami razporeditvi spektralnih komponent in jo tako lahko upoštevamo kot informacijo v nadaljevanju. Iz slik se je potrdilo, da predstavlja ZAM predstavitev 4. Analiza in razpoznavanje govornega signala________________________________________64 resno konkurenco spektrogramu pri obdelavi in analizi govornega signala. Slike danih predstavitev nam tako podajajo nek občutek, kaj lahko od posamezne predstavitve pričakujemo in katero lahko uporabimo za nadaljnjo obdelavo signala. V nadaljevanju si bomo ogledali še en način, kako izboljšati časovno-frekvenčno ločljivost danih predstavitev. 4.1.3 Popravljene predstavitve Kot smo lahko videli v prejšnjem poglavju, je berljivost slik nestacionarnih signalov z različnimi predstavitvami v veliki meri odvisna od pojava interference. V prejšnjem poglavju smo poskušali odpraviti te člene direktno z glajenjem po času in frekvenci osnovnih predstavitev, vendar smo s tem izgubili natančnost predstavitve. Tu pa si bomo na primeru govornega signala ogledali še en posreden postopek odpravljanja interference in hkrati izboljšanja natančnosti predstavitve. Izboljšanim predstavitvam pridobljenih na podlagi takšnih metod (metode realokacije, angl. reassignements methods) pravimo realocirane predstavitve. Tu se naslanjamo predvsem na delo F. Augerja in ostalih [Auger-95]. 4.1.3.1 Realocirani spektrogram Na primeru spektrograma bomo razložili idejo teh metod. Sprva je bil v nadaljevanju opisani postopek namenjen izboljšavi natančnosti spektrograma. To pa zato, ker ima spektrogram veliko dobrih lastnosti: je nenegativna porazdelitev, ima zelo šibke interferenčne člene in ga lahko zelo hitro izračunamo. Omejen pa je s principom nedoločenosti, zato ne moremo doseči poljubne natančnosti predstavitve sočasno po času in frekvenci. Ce še enkrat zapišemo spektrogram kot dvodimenzionalno konvolucijo Wigener-Villejeve porazdelitve okna in obravnavanega signala: /OO /»OO / Wx{s,Ç)Wh{t-sJ-Ç)dsdÇ, (4.2) OO J — OO lahko ugotovimo, da pri spektrogramu dejansko seštevamo lokalne prispevke Wigener-Villejeve (WV) porazdelitve signala znotraj področja okna Wh(t — s, f — L) s središčem v točki (t, f) časovno-frekvenčne ravnine. Ti prispevki ne predstavljajo nič drugega kot uteženo povprečje WV predstavitve znotraj območja delovanja okna, ki je simetrično glede na točko (t, /). Ta točka torej predstavlja geometrično sredino WVD okna. Osnovna ideja izboljšave je v tem, da si lahko izberemo tudi kakšno drugo točko (t, /) znotraj območja delovanja okna, okrog katere akumuliramo prispevke za predstavitev. Ena izmed možnosti je, da izberemo za točko masno središče. To je intuitivno še najbližje temu, kar v resnici počnemo pri spektrogramu. Lokalno porazdelitev energije Wx(s, Ç)Wh(t — s, / —L) namreč lahko obravnavamo v jeziku fizike (mehanike) kot porazdelitev mase sistema, ki ga tvori območje delovanja okna. Zatorej je bolj smiselno obravnavati porazdelitve okoli masnega središča in ne geometrijskega. 4. Analiza in razpoznavanje govornega signala________________________________________65 Če to razmišljanje še matematično osmislimo, gre vse skupaj nekako takole: vse vrednosti spektrograma, izračunane okoli točk (t,/), premaknemo v točke (L,/), ki predstavljajo masna središča porazdelitve energije signala okoli točke (t, /): f, , n _ -Ho Too °WX(8, QWh(t -Sj- QdsdÇ -oo J — oo r>O0 PCO n"n fZf^w^ow^t-sj-Odsdf [4A) Realocirano verzijo spektrograma okoli točk (t', /') pa izračunamo kot vsoto prispevkov spektrograma glede na točke (t, /): /OO /»OO / Sx(t, /; h)S(t' - t(x; t, f))6{f - />; t, f))dtdf (4.5) oo J —oo Najbolj zanimiva lastnost popravljenega spektrograma je, da za izračun porazdelitve v tem primeru potrebujemo tudi informacijo o fazi kratkočasovne Fourierjeve transformacije in ne samo kvadrat amplitude, kot je to pri navadnem spektrogramu. To se vidi iz drugačnega zapisa točk t in / [Auger-95]. Kljub temu, da takšna predstavitev ni več bilinearna, še vedno ohranja premike po času in frekvenci in kar je v našem primeru bistveno, popolno lokalizira linearne cvrke (lastnost 12 pri WVD, poglavje 2.3.2.1 na str. 24). To pa pomeni, da tako s popravljeno verzijo lahko izboljšamo ločljivost predstavitve. V to se lahko prepričamo na primeru sintetiziranih signalov na sliki 4.5. Tu imamo primer večkomponentnega nestacionarnega signala sestavljenega iz sinusno modulirane komponente (prvi del), sinusnega valovanja in linearnega cvrka (v drugem delu). Idealen potek v časovno-frekvenčnem prostoru je prikazan na sliki 4.5(a). Desno zgoraj imamo primer navadnega spektrograma (slika 4.5(b)), spodaj pa realocirano verzijo (slika 4.5(c)). S časovno-frekvenčno ločljivostjo popravljenega spektrograma se skoraj približamo idealnemu poteku, z navadnim spektrogramom pa je vse skupaj bolj razmazano v obeh smereh. 4.1.3.2 Realokacija predstavitev Cohenovega razreda Idejo opisano pri spektrogramu lahko posplošimo tudi na preostale predstavitve. Namesto zveze (4.2) zapišemo splošno verzijo predstavitev Cohenovega razreda s /oo /»oo / n(t-s,f-Ç)Wx{SiÇ)dsdÇ. (4.6) -oo J — oo Če v definicijah (4.3), (4.4) in (4.5) zamenjamo jedro Wh(s,Ç) s splošnim jedrom II(s, L), 4. Analiza in razpoznavanje govornega signala 66 20 40 SP, Lh=16, Nf=64, log. skala, imagesc, prag=0.5% 0.45 ^B......................................................- -.....^H ^^^^^>..:.........¦ ¦ ^^^^ ^^^ ^^^ .........^H V -......-_™ .............. ......- ra .............-^^V.......................:¦¦¦¦¦ -^^^i- -^^B I 0.25 L...............«^...............^^^^^^-¦ ¦ ¦ ¦ . ......... o T X J ^L :...........: ...^^J _ ].i5^^L---^^^^^---ji^H ....... 0.1 ^| fcw-^^^_^^B ^_..........i lirismi Slika 4.5: Primerjava spektrogramov: (a) idealen potek signala v časovno-frekvenčni ravnini, (b) navaden spektrogram, (c) realocirani spektrogram. lahko definiramo nove realocirane verzije predstavitev Cohenovega razreda kot: I-oo I-oo sm -sj- Ç)Wx{s, OdsdÇ t(x;t,f) = f(x;t,f) = Too /-I en(t -sj- t)wx(8, Odsdt J-oof-oonit-sJ-Qw^Odsdç ' /oo />oo / Cx(t, /; U)S(t' - t(x; t, /))«$(/' - f(x; t, /)) dt df oo J — oo Na splošno tudi tu izboljšamo slike predstavitev, se pravi zmanjšamo vpliv interfer-enčnih členov in povečamo natančnost lokalizacije spektralnih komponent v časovno-frekvenčni ravnini. Vse popravljene verzije ustrezajo lastnosti 12 pri WVD (poglavje 2.3.2.1 na str. 24). Podobno lahko posplošimo idejo tudi na afine predstavitve. Lahko pa izvedemo samo delne popravke, in sicer samo po času ali pa po frekvenci, odvisno od tega, katera informacija nas zanima in je tudi pomembna pri samem signalu. Slike posameznih realociranih verzij predstavitev si lahko ogledamo na primeru dveh osnovnih period fonema /e/, slika 4.6. Uporabljeni so bili enaki parametri pridobivanja slik kot pri originalnih verzijah, slike 4.2 (a), (e) in 4.3 (h). Na sliki 4.6(a) je prikazana porazdelitev energije, kot jo opiše realocirani spektrogram. V primerjavi z originalno verzijo (slika 4.2(a)) lahko ugotovimo boljšo ločljivost tako v času, še bolj očitno pa 4. Analiza in razpoznavanje govornega signala 67 casovni potek signala casovni potek signala linearna skala 0.45 0.4 0.35 J0.3 ,L0.25 I0.2 0.15 ^ 0.1 0.05 0 1 430 215 0 inearna skala 932 466 0 RPMH, Lh=64, Nf=128, log. skala, imagesc, prag=0.5% 0.45 0.4 0.35 i: i., E" 'lil:;. 0.15 At*"1 H\llT 0.1 "nUi|iiir- L ¦J»*-L-*«- 0.05 1. 1_ 0 l*l&"1--- 50 100 150 200 250 300 350 cas («0 Slika 4.6: Slike različnih realociranih predstavitev dveh osnovnih period fonema /e/: (a) realocirani spektrogram, (b) realocirana zglajena psevdo Wigener-Villejeva predstavitev, (c) realocirana psevdo Margenau-Hillova predstavitev._________________________________ po frekvenci. Ravno tako je tudi pri ostalih dveh slikah realocirane zglajene psevdo Wigener-Villejeve (RSPWVD, slika 4.6(b)) in psevdo Margenau-Hillove predstavitve (RPMH, slika 4.6(c)). Če na sliki 4.6 primerjamo popravljene predstavitve med sabo, lahko ugotovimo, da sta izboljšani spektrogram in SPWVD skoraj identična, kar je posledica idealne lokalizacije linearnih cvrkov, pri RPMH pa je še vedno prisoten vpliv osnovne verzije, čeprav je lokalizacija (predvsem po frekvenci) boljša in vpliv interference manjši. Metode popravljanja osnovnih verzij predstavitev so pri analizi govora že uspešno uporabili pri določevanju formantnih frekvenc iz govornega signala [Plante-95], pri ocenjevanju osnovne frekvence govora [Ainsworth-98] in pri izboljšavi razpoznavanja vokalov [Yang-98]. Kljub vsemu pa takšne predstavitve ponujajo še veliko odprtih vprašanj in novih možnosti uspešne uporabe pri različnih nalogah obdelave in analize govora. 4. Analiza in razpoznavanje govornega signala 68 4.2 Razpoznavanje govora Medtem ko smo se v prejšnjem razdelku posvečali predvsem slikam govornega signala pridobljenimi z različnimi predstavitvami, bomo v tem razdelku uporabili predstavitve za pridobivanje različnih značilk govornega signala primernih za razpoznavanje govora. Naš namen ni bil toliko poiskati "najboljše" značilke v smislu postopkov pridobivanja značilk, ampak smo se podobno kot pri slikah posvetili primerjavi različnih časovno-frekvenčnih predstavitev v primeru razpoznavanja govora. Hoteli smo poiskati alternative obstoječemu principu pridobivanja značilk, ki temelji na spektrogramu. Govorni signal je zelo težaven za časovno-frekvenčno analizo. Vsebuje tako izrazite nestacionarnosti, kratke, hipne spremembe (npr. odpore pri zapornikih), kot tudi daljše stacionarne dele (npr. vokali), [Mihelič-93]. Zaradi tega predstavlja veliki izziv časovno-frekvenčnim predstavitvam. Potrebna je namreč smiselna izbira predstavitve, ki bi dovolj natančno opisala potek spektralnih komponent po času, hkrati pa ne bi smela imeti stranskih efektov. Tu mislimo predvsem na interferenčne člene, ki dejansko pokvarijo pravo sliko (govornega) signala. V nadaljevanju bomo najprej opisali sistem, ki smo ga uporabili za razpoznavanje, in govorno zbirko, na kateri smo izvajali poskuse razpoznavanja. Kasneje pa bomo predstavili nekaj rezultatov razpoznavanja z različnimi časovno-frekvenčnimi predstavitvami. Opisali bomo metode uporabe teh predstavitev in probleme, ki smo jih pri tem reševali. 4.2.1 Razpoznavalnik govora Sistem, ki smo ga uporabili za naše poskuse, je zelo razširjen in uveljavljen pri razpoznavanju govora. Shema sistema je prikazana na sliki 4.7. govorni signal __i___ določanje značilk niz vektorjev značilk X = xi,...,xT iskanje maksimuma P(W)P(X\W) po vseh W = w\,..., wn P(X\W) slovar akustični modeli glasov P(W) jezikovni model najbolj verjeten niz Wi,...,WN Slika 4.7: Shema razpoznavalnika govora, ki temelji na Bayesovem odločitvenem pravilu. Pri razpoznavanju govora, ki temelji na statističnem modeliranju, gre za iskanje zaporedja govornih enot W = w\,...,wn (besede, podbesedne enote, fonemi, ...), ki 4. Analiza in razpoznavanje govornega signala________________________________________69 je najbolj verjetno glede na zaporedje akustičnih dogodkov (vektorji značilk) X = Xi,...,xt pridobljenih v času t = 1,...,T. Torej iščemo argmaxjy P(W\X). Z uporabo Bayesovega pravila prevedemo P(W\X) = P(W)P(X\W) / P(X). Verjetnost P(W) ocenjujemo z jezikovnim modelom. Pogojno verjetnost P{X\W) pa opišemo z akustičnimi modeli. Pri modeliranju govornih enot najpogosteje uporabljamo prikrite Markovove modele. P(X) je verjetnost zaporedja akustičnih dogodkov in v primeru, ko so vektorji značilk neodvisni od obravnavanih govornih enot Wi, jo lahko zanemarimo. Za ocenjevanje parametrov sistema in tudi za testiranje, potrebujemo ustrezno količino pravilno označenih in skrbno izbranih podatkov. Pri razpoznavanju govora so podatki zajeti v govorni zbirki. 4.2.1.1 Govorna zbirka K211d Zbirka, ki smo jo uporabili pri naših analizah, je govorna zbirka K211d. Podrobneje je opisana v doktorski disertaciji S. Dobriška [Dobrišek-01]. Tu bomo podali samo nekaj osnovnih podatkov pomembnih za nadaljevanje. Govorna zbirka K211d vsebuje ročno razčlenjene in označene posnetke posamezno izgovorjenih besed. Zbirka je namenjena predvsem analizi nekaterih glasov in sklopov glasov ter primerna za izvajanje hitrih preizkusov in ovrednotenj postopkov izboljšav posameznih komponent pri modeliranju razpoznavalnika glasov in parametrizacije govornega signala. Nastala je v okviru raziskovalnega dela Laboratorija za umetno zaznavanje, sisteme in kibernetiko in predstavlja poleg večje zbirke GOPOLIS [Dobrišek-96] in zbirke posnetkov televizijskih in radijskih vremenskih oddaj, VNTV [Zibert-00], temelj za razvoj aplikacij, ki slonijo na razpoznavanju slovenskega govora. Zbirka K211d vsebuje statistično uravnoteženo število glasov in sorazmerno večje število glasov, ki so v govorjenem slovenskem jeziku bolj redki. To pa predstavlja skupaj z dejstvom, da so posnetki ročno označeni, idealno osnovo za preizkušanje novih značilk primernih za razpoznavanje. Statistika zbirke Zbirka vsebuje nekaj manj kot uro posnetega materiala. Deset govorcev (5 žensk in 5 moških) je izgovorilo ločeno 251 besed. Ta korpus besed predstavlja hkrati tudi besednjak zbirke. Govor je posnet s kakovostnim mikrofonom. Signal je vzorčen s šestnajst bitnim analogno digitalnim pretvornikom z linearnim kvantizatorjem amplitude in s frekvenco vzorčenja 16 kHz. Posnetek vsake posamezno izgovorjene besede vsebuje še okoli 200 milisekund začetnega in končnega premora. Besednjak je opremljen z različnimi fonetičnimi prepisi. Za razpoznavanje v nadaljevanju smo uporabili širši fonetični prepis, ki ga sestavljajo alofoni podani v tabeli 4.1. Tu je potrebno poudariti alofona [U] in [I], ki predstavljata dvoglasniške sklope samoglasnikov s fonemoma /v/ in /j/.Smiselnost uporabe teh alofonov je utemeljena v [Dobrišek-01]. Poleg vseh alofonov sta v zbirki dodana še simbola sis in sie, 4. Analiza in razpoznavanje govornega signala________________________________________70 Tabela 4.1: Alofoni širšega fonetičnega prepisa. Zapis v MRPA [Wells-92] formatu. skupina glasov alofoni samoglasniki SEOaeiou zvočniki j IlrvwWUmn nezvočniki pbftdsztsSZtSkgx ki označujeta tišino pred in za izgovorjeno besedo. V širših fonetičnih prepisih besed je vse skupaj 17.107 glasov. Za učni del zbirke smo uporabili prve tri ženske in moške govorce, preostale štiri govorce pa za testni del. S tem smo dosegli razpoznavanje, ki je od govorca neodvisno. 4.2.1.2 Kako smo učili Tu bomo govorili o modelu in o določevanju parametrov tega modela, ki smo ga uporabili za osnovo razpoznavanja testnega dela zbirke K211d. Opisali bomo tiste dele in postopke razpoznavalnika, ki jih pri preizkušanju različnih časovno-frekvenčnih predstavitev nismo spreminjali. Za medsebojno primerjavo rezultatov smo pazili, da smo uporabili enotne postopke za učenje modelov in da smo uporabljali enake modele. Za statističen model razpoznavalnika (slika 4.7) smo uporabili danes najbolj uveljavljene in razširjene prikrite Markovove modele, PMM [Jelinek-98]. Modeliranje razpoznavalnika govora smo izvedli s pomočjo orodja HTK [Young-00]. Izvedli smo modeliranje dveh vrst govornih enot: modelirali smo monofonske in difonske enote. Pri monofonih gre za modeliranje jeder govornih enot, medtem ko pri difonskih govornih enotah modeliramo prehode med govornimi enotami [Dobrišek-01]. To je smiselno, če hočemo preizkušati različne značilke govornega signala. Tako namreč lahko ugotovimo, katere dele govornih odsekov bolje opisujejo izbrane značilke. Ne glede na izbiro govornih enot pa smo uporabljali nespremenjeno topologijo PM modelov. Odločili smo se za klasičen levo desni model [Pavešič-00, str. 515-517], prikazan na sliki 4.8. ____________________________Slika 4.8: Levo desni PMM.____________________________ Uporabljali smo modele s tremi stanji. Porazdelitev akustičnih značilk pa smo modelirali z linearno kombinacijo Gaussovih porazdelitev verjetnosti z diagonalnimi kovar-iančnimi matrikami. Poudariti moramo, da imamo tu v mislih razpoznavalnik glasov in ne besed, zato je tu topologija modela razpoznavalnika malce različna kot pri razpoznavanju besed. Topologija modela je prikazana na sliki 4.9. 4. Analiza in razpoznavanje govornega signala 71 Slika 4.9: Toopologija PMM za razpoznavanje glasov. V samem postopku gradnje razpoznavalnika nismo eksplicitno upoštevali jezikovnega modela za glasove. Dejstvo pa je, da se jezikovni model "skriva" v sami zbirki, saj uporabljamo tako pri učenju kot pri razpoznavanju iste besede (drugih govorcev), se pravi ista zaporedja posameznih glasov. Parametre modela PMM smo ocenjevali na podlagi pridobljenih značilk iz učnega dela zbirke K211d. Tu smo uporabili vsakič drugačne značilke govornih odsekov pridobljene na podlagi različnih časovno-frekvenčnih predstavitev, ki jih bomo natančnejše opisali v naslednjem razdelku. Poudariti pa moramo, da smo pridobivali vse tipe značilk iz izbranih vnaprej določenih fiksnih odsekov govornega signala (okvirjev), torej pri določanju značilk nismo upoštevali predhodne segmentacije govornega signala po govornih enotah. Učenje je potekalo v več fazah in na standarden način. V prvem koraku smo inicial-izirali verjetnosti prehodov iz stanja v stanje (matrike prehodov) ter določili začetne približke funkcijam gostot verjetnosti, torej vektorje povprečnih vrednosti in variance v diagonalnih kovariančnih matrikah v stanjih PM modelov. To smo izvedli na podlagi ročno označenih posnetkov pri monofonskih modelih, pri difonskih pa smo uporabili segmentacijo pridobljeno iz sintetizatorja slovenskega govora [Gros-97]. Prvo ocenjevanje je potekalo s postopkom Viterbijevega učenja [Jelinek-98, str.25] z orodjem HInit [Young-00]. Pri tem postopku izvajamo v bistvu prileganje vektorjev značilk nizu modelov govornih enot (ki jih modeliramo) z iskanjem najbolj verjetne poti skozi PM model. Ceno poti skozi graf določajo verjetnosti prehodov med stanji in verjetnosti oddanih simbolov v stanjih opisanih s porazdelitvami (gostotami) verjetnosti. Najboljša pot nam tako pove, kateri vektorji značilk so bili najbolj verjetno oddani iz posameznih stanj avtomatov (PMM) v vseh modelih. Vektorje nato pripišemo najbolj verjetnim stanjem in iz vseh vektorjev, pripisanih nekemu stanju pri prehodu govorne zbirke, izpeljemo nove vrednosti parametrov vsakega stanja posebej. 4. Analiza in razpoznavanje govornega signala________________________________________72 Podobno deluje tudi Baum-Welchov postopek [Jelinek-98, str.27], ki smo ga uporabili za nadaljnje ocenjevanje parametrov. Sprememba je v tem, da nam parametre modela ne določajo samo vektorji značilk, ki so šli skozi ta model, ampak vsi vektorji. Pri tem s pomočjo rekurzivnih formul določamo uteži posameznih vektorjev v stanjih, ki tako pomenijo verjetnost, da je bil posamezen vektor oddan iz tega stanja. V bistvu gre tu za mehčanje uteži po stanjih, ki nastopajo pri Viterbijevem učenju (pri Viterbiju imamo uteži 0 ali 1, tu pa verjetnosti, torej od 0 do 1). Ta postopek smo izvedli z orodjem HRest [Young-00]. Za dokončno ocenjevanje smo uporabili različico tega postopka (angl. embedded training), ki smo ga izvedli z orodjem HERest [Young-00]. V našem primeru smo izvajali učenje v desetih iteracijah. Učili pa smo tudi modele, kjer smo v stanjih modelirali porazdelitve vektorjev značilk s kombinacijo več normalnih porazdelitev. Po vsaki dodani porazdelitvi smo vsakič doučevali model z desetimi ponovitvami postopka učenja. Za razpoznavanje smo uporabljali modele s kombinacijo ene, dveh in treh porazdelitev na stanje. Vezave parametrov nismo izvajali in tudi potrebe po neviđenih govornih enotah (tako pri monofonih kot difonih) ni bilo zaradi narave govorne zbirke. Model in postopki pomenijo standarden pristop določevanja statističnega modela razpoz-navalnika govora. Ker je bil naš namen medsebojno primerjati pridobljene značilke, tu nismo eksperimentirali z različno paleto možnosti, ki nam jo tako modeliranje ponuja. 4.2.1.3 Kako smo testirali Testiranje značilk je potekalo na testnem delu zbirke K211d, ki ga tvorijo štirje govorci (2ž+2m). Ker smo za učenje in razpoznavanje uporabili različne govorce, lahko govorimo o razpoznavanju, ki je od govorca neodvisno. Testiranje smo izvajali na različnih modelih z različnimi govornimi enotami. Za govorne enote smo enkrat uporabili monofonske modele, drugič pa difonske. Rezultate smo primerjali za modele s kombinacijo ene, dveh ali treh porazdelitev verjetnosti na stanje po modelu ob nespremenjeni topologiji modelov. Različne so bile le značilke govornega signala. Vedno smo pazili, da smo analizirali med seboj primerljive značilke govornega signala. Se pravi, da jih je bilo (približno) enako in da smo imeli modele z istim številom parametrov. Pri tem smo bolj spremljali primerjavo med posameznimi predstavitvami kot pa sam rezultat razpoznavanja. 4.2.2 Razpoznavanje govora z različnimi predstavitvami V tem delu se bomo posvetili pridobivanju značilk govornega signala primernih za razpoznavanje govora. Tu bomo predvsem preizkusili različne časovno-frekvenčne predstavitve in na primeru govorne zbirke K211d ugotavljali primernost teh predstavitev in z njimi povezanih postopkov pridobivanja značilk za razpoznavanje govora. Zaradi številnih ugodnih lastnosti je spektrogram prevladujoča časovno-frekvenčna 4. Analiza in razpoznavanje govornega signala________________________________________73 predstavitev za analizo in nadaljnjo obdelavo govornega signala, ki ga štejemo med kvazi stacionarne, torej v bistvu nestacionarne signale s krajšimi odseki stacionarnosti. Ravno to pa je glavni argument uporabe spektrograma, katerega delovanje je nadvse podobno - prikazuje namreč "lokalni" spekter signala. Zatorej, če je signal lokalno stacionaren, je takšna predstavitev smiselna. Poleg tega spektrogram zelo malo pokvari časovno-frekvenčno sliko z motečimi interferenčnimi členi. Kljub temu pa ima kar nekaj pomanjkljivosti. Tu mislimo predvsem na princip nedoločenosti, ki povzroči omejeno natančnost bodisi v eni ali drugi smeri. Postavlja se tudi vprašanje izbire okna. Pri obdelavi govora se je nekako uveljavilo okno dolžine od 20 ms do 30 ms [Picone-93]. To pa pomeni, da vedno enako opisujemo signal ne glede na njegove lastnosti. Zaradi tega se nam je zdelo smiselno poskusiti uporabo drugih časovno-frekvenčnih predstavitev pri razpoznavanju govora. Potrebno je izpostaviti še en problem, zakaj ostale časovno-frekvenčne predstavitve niso tako razširjene pri analizi signalov. To je problem diskretizacije predstavitev in večja časovna zahtevnost algoritmov izvedbe teh predstavitev. O diskretizaciji smo že govorili v poglavju 3. Bistveno pa je, da diskretne verzije ne ohranjajo vseh lastnosti zveznih predstavitev. To pa pomeni še dodatne težave teh predstavitev. En pristop k dokazovanju in izvedbi diskretnih različic je neposredna izpeljava diskretnih predstavitev s pomočjo matrik in karakterističnih funkcij, ki smo ga opisali v poglavju 3. Druga težava je v izvedbi teh predstavitev. Izkaže se namreč, da če bi računali predstavitve za vsako točko signala po času in frekvenci, je s stališča predstavitve to mogoče in nadvse preprosto izvedljivo, toda zaradi ogromne količine podatkov, ki bi jih morali izračunati, je to s trenutnimi sistemi računalnikov časovno in prostorsko neizvedljivo. Tako bi namreč morali za primer 250 ms realnega signala, vzorčenega s 16 kHz, obdelati približno 8 milijonov točk (N(N — l)/2, N dolžina vzorčenega odseka signala), kar je dejansko neizvedljivo in tudi za razpoznavanje povsem nesmiselno. V nadaljevanju si bomo ogledali, kako smo "popravljali" predstavitve in kako smo izvedli izločanje značilk, da bi jih lahko uporabili za razpoznavanje govornih enot slovenskega govora. Pri določanju značilk smo upoštevali nekaj smiselnih predpostavk in metod, ki so že uveljavljene pri pridobivanju značilk za razpoznavanje. Predstavili bomo te postopke, ki smo jih pri različnih časovno-frekvenčnih predstavitvah vsakič vključili v proces določitve značilk iz govornega signala. 4.2.2.1 Skupne značilnosti postopka pridobivanja značilk Predpostavimo, da imamo vzorčeni govorni signal s[n] = s[nT], kjer je T = -j-> fs Je frekvenca vzorčenja. V našem primeru je bila fs = 16 kHz. Signal najprej filtriramo z visokoprepustnim filtrom (FIR filter) s prenosno funkcijo Hpre = 1 + avrez~x, s katerim poudarimo spekter govornega signala nad 1 kHz. Razlogi za izvedbo filtriranja so v fizioloških lastnostih govoril in tudi slušnega organa človeka [Markel-80, Zwicker-90]. Filtriranje lahko v primeru diskretnega signala s[n] 4. Analiza in razpoznavanje govornega signala____________________________________74 zapišemo z diferenčno enačbo prvega reda: s'[n] = s[n] + apres[n — 1]. (4.7) apre izbiramo iz intervala [—1, —0.4]. V našem primeru smo izbrali apre = —0.97. Dodatno lahko izvedemo še ničenje srednjih vrednosti signala (odštevanje povprečja od signala), vendar v primeru posnetkov iz naše baze to ni bilo potrebno. Nadalje označimo diskretno časovno-frekvenčno predstavitev s TFR[n, k], kjer označujemo z (n, A;) točke po času in frekvenci v časovno-frekvenčni ravnini. Zaenkrat bomo pustili odprto, kako računamo takšno predstavitev in na kako dolgih odsekih govornega signala. Predpostavimo pa, da imamo signal dolg N točk. V naslednjem koraku smo izvedli preslikavo frekvenčne skale. Tu upoštevamo lastnosti človeškega slušnega organa, in sicer neenakomerno, približno logaritemsko frekvenčno občutljivost [Zwicker-90, str.94]. Obstaja nekaj približkov takšnih preslikav, s katerimi se približamo frekvenčni občutljivosti človeškega slušnega organa. Prva takšna je t.i. frekvenčna bark lestvica, ki jo dobimo s preslikavo [Picone-93, str.10] tart = 13arcta„(^)+3.5arcta„ V looo J kjer je / dejanska frekvenca. Naslednji približek slušnega zaznavanja je melodična lestvica, podana s preslikavo [Picone-93, str.10] mei = 2595 log10(l + //700), (4.9) ki jo pogosto modeliramo tudi tako, da vzamemo linearno skalo od 0 do 1000 Hz in logaritemsko nad 1000 Hz. Neenakomerno frekvenčno ločljivost spektralnih meritev dosežemo z uporabo vrste filtrov razporejenih s srednjimi frekvencami frekvenčnih odzivov po lestvicah opisanih s (4.8) ali (4.9). Širine frekvenčnih pasov filtrov niso enake, ponavadi jih določimo s pomočjo bark lestvice (4.8), [Picone-93, str. 10]. Primer osmih trikotnih filtrov razporejenih po melodični skali, ki smo jih uporabljali v naših primerjalnih analizah, je na sliki 4.10. 0 1000 2000 3000 4000 5000 6000 7000 8000 frekvenca Slika 4.10: Razporeditev trikotnih filtrov po melodični skali. Ponavadi so filtri razporejeni po celotni frekvenčni skali od 0 do polovične Nyqvistove frekvence, lahko pa jih tudi omejimo na manjše območje, tako da definiramo spodnjo, 75002 (4- 4. Analiza in razpoznavanje govornega signala________________________________________75 /i, in zgornjo, /#-, frekvenčno mejo. V našem primeru smo izbrali /^ = 50 Hz, /# = 7500 Hz. Tu nismo eksperimentirali z različnimi izbirami razporeditve filtrov, čeprav se je v primeru slovenskega govora celo bolje izkazala linearna razporeditev filtrov pri od govorca odvisnem razpoznavanju govora [Mihelič-91, str.70-71]. Ker smo imeli od govorca neodvisno razpoznavanje, smo ostali pri melodični razporeditvi. Filtriranje z mel-banko filtrov (slika 4.10) si lahko razlagamo tudi kot uteženo povprečenje energije (po frekvenci) opisane s TFR[n7 k] znotraj območja delovanja posameznega filtra. Ta povprečja nadalje še logaritmiramo in jih označimo z m[q, n]. V matematičnem jeziku lahko ta postopek opišemo z naslednjimi koraki. Zapišimo mel-banko filtrov z matriko M = M[q, k]^x k=1, kjer je K število frekvenčnih meritev (točk po frekvenci), Q pa število filtrov. Vsaka vrstica matrike M predstavlja en trikotni filter. Tudi časovno-frekvenčno predstavitev TFR[n, k] lahko razumemo kot matriko. Zapišimo D = TFRT. V matriki D opisuje n-ti stolpec porazdelitev energije po frekvenci v času (točki) n. Tu upoštevamo, da imamo JV časovnih in K frekvenčnih točk v diskretno podani časovno-frekvenčni ravnini. Operacijo filtriranja lahko razumemo kot matrično množenje in če izvedemo še logaritmiranje, kjer razumemo operacijo log(-) kot logaritmiranje posameznih elementov matrike, dobimo MTFR = \og(M ¦ D). (4.10) Elementi MTFR e M9xN so povprečki m[q, n], q = 1,..., Q, n = 1,..., N. Potihem smo že privzeli, da imamo opravka z realnimi časovno-frekvenčnimi predstavitvami. Predstavitev Mtfr[q, n] dejansko predstavlja logaritme energije frekvenčnih pasov signala s[n] v točkah n opisane z različnimi časovno-frekvenčnimi predstavitvami. Nadaljevanje nas privede do koeficientov melodičnega kepstra (MFCC) pridobljenih iz različnih časovno-frekvenčnih predstavitev. Dobimo jih, če izvedemo diskretno kosi-nusno transformacijo na členih m[q,n]: [2 Q fiii \ c[i,n] = J—^2m[q,n]cos f—(g-0.5) j . (4.11) Vpeljavo transformacije (4.11) lahko razložimo kot aproksimacijo logaritmov energije posameznih frekvenčnih pasov v prostoru, ki ga razpenjajo kosinusne temeljne funkcije, ki so zelo blizu lastnim funkcijam, pridobljenim iz Karhunen-Loevejeve transformacije [Mihelič-91, Malayath-00]. Drugi razlog pa je v tem, da s transformacijo (4.11) dekoleriramo točke Mtfr, kar je nujno potrebno, če pridobljeno informacijo uporabljamo za razpoznavanje s PM modeli modeliranimi z diagonalnimi kovariančnimi matrikami. Tu je treba izpostaviti dejstvo, da ni smiselno izvajati teh transformacij za vsako točko pa času n. Zaradi tega pogosto nadomestimo m[q, n] s krajšimi odseki po času, se pravi v nekem smislu gladimo po času z različnimi prijemi, ki jih bomo predstavili v nadaljevanju, z namenom redukcije podatkov. Če sledimo standardnemu pristopu določanja značilk (trenutno najbolj uspešnih) pri razpoznavanju govora, moramo vpeljati še odvode koeficientov kepstra. Aproksimacij 4. Analiza in razpoznavanje govornega signala________________________________________76 za odvode je več. Omenimo samo eno, in sicer: č[iM = Y^ 3c[hn + J], (4-12) j=-Nd kjer je 2Nd +1 dolžina odseka po času s središčem v točki n, kjer aproksimiramo odvod č[ž, n]. Izpustili smo normalizacij ski faktor, ki je vedno enak, če gledamo vedno enako dolge odseke. Aproksimacija (4.12) predstavlja iskanje koeficienta regresijske premice nad podatki c[ž,n]. Pri višjih odvodih je postopek aproksimacije analogen, le da za podatke vzamemo aproksimacije prvih odvodov. Jasno je, da postopek lahko ponovimo za odvode višjih redov, vendar so se pri razpoznavanju govora uveljavili prvi in drugi odvodi [Furui-86]. Ob tem moramo poudariti še pomembno lastnost odvajanja. Ta operacija namreč poudarja šum oziroma napake meritev. Zato je smiselno računati odvode že na dovolj zglajenih predstavitvah signala, torej na takšnih podatkih, kjer smo že dovolj odstranili napake meritev. V standardnih postopkih se izvaja odvajanje v zadnji fazi, torej šele na nivoju koeficientov melodičnega kepstra. Lahko pa bi ga izvajali že pred izvedbo kosinusne transformacije (zaradi linearnosti transformacije bi bilo vseeno). V našem primeru smo izvajali tudi takšne posege v določanje značilk, pri tem pa smo predhodno dodatno gladili območja. Uporabljali smo tudi drugačne ocene odvodov. Kot dodatno značilko za razpoznavanje smo določali še kratkočasovno energijo signala. V bistvu smo ocenjevali logaritem energije signala kot En = log J2 {s'[n + j]f. (4.13) j=-Ne Pri tem predstavlja En logaritem energije odseka signala dolžine 2iVe + 1 v času n. Ce povzamemo, smo se pri konstrukciji značilk v veliki meri naslanjali na postopek pridobivanja značilk kot koeficientov melodičnega kepstra govornega signala in pridruženih odvodov ter energije. Pri tem smo eksperimentirali z različnimi časovno-frekvenčnimi predstavitvami, z različnimi postopki redukcije informacije znotraj predstavitev in različnimi izbirami odsekov predstavitev, na podlagi katerih smo potem določali koeficiente kepstra. Dodatno smo še ocenjevali odvode pred izvedbo kosinusne transformacije in to primerjali s standardnim pristopom. V nadaljevanju si bomo najprej ogledali klasično uporabo spektrograma pri določanju značilk. Tu bomo podrobneje opisali postopek izpeljave značilk, na katerega se bomo sklicevali pri izvedbi drugih predstavitev. Primerjali bomo rezultate razpoznavanja na govorni zbirki K211d pri različnih izvedbah Wigener-Villejeve predstavitve, psevdo Wigener-Villejeve, psevdo Margenau-Hillove in Zhao-Atlas-Marksove porazdelitve. Postopke izračunov predstavitev smo izvedli z uporabo Matlabovega orodja za časovno-frekvenčne predstavitve [Auger-97] in kombinacjo programov, pisanih v programskem jeziku C, v okolju GNU-Octave [Octave], učenje PM modelov pa z uporabo orodja HTK [Young-00]. 4. Analiza in razpoznavanje govornega signala________________________________________77 4.2.2.2 Spektrogram Pri razpoznavanju govora se kot časovno-frekvenčno predstavitev skoraj izključno uporablja spektrogram. Zato smo jo v našem primeru vzeli za referenčno v primerjavi z ostalimi predstavitvami. Upoštevali smo standarden pristop izračunavanja značilk. Frekvenca vzorčenja, /s, je bila v našem primeru 16 kHz. Opišimo postopek v naslednjih korakih: 1. izvajanje visokoprepustnega filtriranja s'[n] = s[n] + apres[n — 1]. V našem primeru je bil apre = —0.97. 2. izračun banke filtrov razporejenih po melodični skali, ki jih lahko zapišemo v matriki M = [mf[q, n]]q=in=i- Tu smo izbrali Q = 32 filtrov razporejenih po melodični skali (4.9) med frekvencama /^ = 50 Hz in fH = 7500 Hz. 3. izračun časovno-frekvenčne predstavitve spektrograma TFR[n, k] = SPEC[n, k]. Za analizo smo uporabili Hammingovo okno dolžine 25 ms, Wh = 25 ms, frekvenčno "sliko" pa smo računali na vsakih 10 ms, se pravi, da smo uporabljali preskok med okvirji dolžine tf = 10 ms, kar pomeni 100 slik na sekundo ali fr = 100 Hz. Izbira preskoka skupaj z dolžino in tipom okna predstavlja običajen pristop pri analizi in obdelavi govornega signala. Tako smo dejansko obravnavali signal po izsekih dolžine Nw = 400 točk. SPEC[n, k] se tako prevede v D = SPEC[n(i),k(j)], kjer jen(i) = i-(tffs), i = 0,1,..., [N/(tffs)] (iN/(tffs)] Je celi del) in k{j) = j, j = 0,1,... ,Nw/2. Okno je bilo vedno simetrično glede na n(i). To je malce drugače zapisana izvedba računanja spektrograma na podlagi kratkočasovne Fourierjeve transformacije na odsekih dolžine A^ signala s[n] dolgega JV točk. Uvedba takšne interpretacije je potrebna, da ostanemo konsistentni s prejšnjim razdelkom in v nadaljevanju z drugimi časovno-frekvenčnimi predstavitvami. Slika 4.11: Spektrogram besede /vOUk/ Spektrogram govornega signala besede /vOUk/ ženske govorke je prikazan na sliki 4.11. 4. Analiza in razpoznavanje govornega signala________________________________________78 4. izvedba filtriranja z mel-banko filtrov MSPEC = \og(M-D). Elementi matrike MSpec so m[q, n(z)], q = 1,..., Q. Operacija log(-) se izvaja po elementih matrike. 5. izračun koeficientov melodičnega kepstra (4.11): c[l, n(i)] = J— ^2 mi
  • l = l,...,Nc. V našem primeru je bil Nc = 12. Poudariti moramo, da nismo upoštevali ničtega koeficienta kosinusne transformacije. 6. izračun prvih in drugih odvodov z oceno koeficientov regresijskih premic d[l, n(i)] = ^i(cM(0+r]-cM(i)-r]) {AU) 2 ET=1 r2 Za druge odvode a[/,n(«)] smo izvedli isto formulo (4.14) na d[l,n(i)]. Pri prvih in drugih odvodih smo upoštevali oceno pri 0 = 2. 7. oceno kratkočasovne energije določimo iz (4.13) Nw/2 En = log J2 (s'[n + m])2. m=-Nw/2 Iz zveze (4.14) izračunamo še prve in druge odvode energije. V našem primeru smo tako na vsakih 10 ms določili 12 statičnih značilk - koeficientov melodičnega kepstra, ki skupaj z energijo ter prvimi in drugimi odvodi tvorijo vektor 39 akustičnih značilk. Učenje modelov iz učnega dela zbirke K211d je potekalo po že opisanem postopku (poglavje 4.2.1.2). Rezultati razpoznavanja alofonov (tabela 4.1) na testnem delu zbirke, ki smo jih modelirali z monofonskimi in difonskimi govornimi enotami, so prikazani v tabeli 4.2. V tabeli 4.2 lahko primerjamo rezultate razpoznavanja na testni bazi K211d med mono-foni in difoni. Pri monofonskih modelih naraščajo rezultati razpoznavanja s povečevanjem števila porazdelitev na model, hkrati pa padajo rezultati pri difonih. To si lahko razlagamo s premajhno učno bazo, saj se z večanjem kombinacij gostot verjetnosti na stanje povečuje število parametrov modela. Zato smo v nadaljevanju predstavitev opuščali izvedbo razpoznavanja z difonskimi enotami s kombinacijo več funkcij gostot na stanje in upoštevali samo rezultate z eno. Primerjavo z ostalimi predstavitvami bomo podali v nadaljevanju. 1 Natančnost razpoznavanja (ang. accuracy) definiramo kot A = z% "+ ; kjer je N število razpoznavanih enot, Nz, Nv, Ni pa zaporedoma število napak zamenjave, vrivanj in izbrisov govornih enot. Pravilnost razpoznavanja (ang. correctness) definiramo kot C = ~( ^+ , torej brez števila vrivanj (Nv). 4. Analiza in razpoznavanje govornega signala________________________________________79 Tabela 4.2: Rezultati razpoznavanja z MFCC značilkami z uporabo PMM s 3 stanji na model. 1 porazdelitev 2 porazdelitvi 3 porazdelitve monofoni pravilnost 75.09% 78.18% 80.59% natančnost1 72.58% 75.83% 78.27% difoni pravilnost 75.61% 73.29% 70.93% natančnost 73.29% 71.23% 68.68% 4.2.2.3 Wigener—Villejeva predstavitev Pri Wigener-Villejevi predstavitvi (WVD) bomo opisali postopek pridobivanja značilk in probleme, ki pri tem nastopijo. Podobno smo težave odpravljali tudi pri drugih predstavitvah v nadaljevanju. Zaradi načina konstrukcije WVD ne moremo tako očitno razkosati signal na posamezne odseke in potem izvajati iste operacije kot pri spektrogramu. Pojavljajo se tudi moteči interferenčni členi z negativnimi vrednostmi, kar nas prisili v drugačno načrtovanje izvedbe pridobivanja značilk. Pojdimo po korakih postopka, ki smo ga uporabili pri spektrogramu. Prva dva koraka postopka sta enaka. Tudi tu smo izbrali Q = 32 filtrov razporejenih po melodični skali med 50 in 7500 Hz. Tretji korak pa je problematičen. Povsem nesmiselno in računsko prezahtevno bi bilo računati TFR[n, k] = WVDs[n, k] za vsako točko n signala s[n]. Poleg tega se pojavi še problem podvzorčenja pri uporabi diskretne WVD. Tega problema se rešimo tako, da uporabimo pri izračunu z WVD analitično verzijo signala, ki ga dobimo z uporabo Hilbertove transformacije (poglavje 2.1.3.1). Torej sa[n] = hilbert(s'[n\), (4-15) kjer je preslikava hilbert(s[n]) = s[n] + jHT(s[n\). Da se znebimo negativnih delov predstavitve uporabimo s pragom p spremenjene predstavitve (4.1), torej WVD]) [n, k]. Prag smo poljubno spreminjali. Problem zmanjševanja števila podatkov predstavitve smo reševali na več načinov. Prvi način, predstavitev imenujmo WVD1, je analogen kot pri spektrogramu. Samo na nekaj enakomerno oddaljenih mestih predstavitve odčitamo spektralno meritev. Preskok definirajmo s tf, ki je v našem primeru znašal tj = 10 ms. Tako smo upoštevali samo točke predstavitve v razmaku 10 ms ali Nf = 160 točk (JVj = t//s). Formalno to zapišemo kot WVDl^[n{i),k] = WVD^[n(i),k], kjer je n(i) = i ¦ Nf, i = 0,1,..., [N/Nf] in k = 0,1,..., K — 1, K je število odtipkov po frekvenci (v našem primeru je K = 256). Pri tem moramo poudariti, da imamo opravka s kompleksnim signalom. 4. Analiza in razpoznavanje govornega signala________________________________________80 Kljub očitni podobnosti s spektrogramom, imamo tu veliko razliko. Pri spektrogramu gre namreč za princip okna in preskoka, kjer je preskok manjši od dolžine okna, s tem pa dosežemo sorazmerno gladko prehajanje iz enega preskoka na drugi. Tu pa lahko govorimo samo o preskoku brez prekrivanja. Zato se pojavijo nezveznosti, ki so posledica občutljivosti predstavitve in interferenčnih členov. Očitno je namreč, da na odčitane vrednosti pri preskokih vplivajo "nevidne" vrednosti med preskoki. Da bi odpravili to pomanjkljivost, smo se odločili posnemati spektrogram v celoti. Uvedli smo namreč postopek prekrivanja, da bi s tem omogočili gladke prehode med odčitanimi vrednostmi. To izvedemo na naslednji način. Ne izračunamo predstavitve celotnega signala sa[n], ampak samo nekega krajšega odseka, torej: xNf,Nw[n] = sa[n]\[iNfiiNf+Nw], (4.16) kjer je Nf preskok in Nw dolžina okvirja, s katerim izrežemo del signala. To ni nič drugega kot princip okna in preskoka, ki ga dobro poznamo pri kratkočasovni Fouri-erjevi transformaciji in posredno tudi pri spektrogramu. Seveda privzamemo, da je Nf < Nw. V primeru WVD smo imeli okvirje dolžine 32 ms, Nw = 512, s preskoki Nf = 160 točk ali 10 ms. Na signalu XNftNw[n] izračunamo WVD, nato pa še izvedemo povprečenje vzdolž časovne osi. S tem izgubljamo časovno informacijo, kar je konec koncev tudi naš namen redukcije podatkov. Se vedno pa v primeru WVD ohranjamo "idealno" frekvenčno ločljivost. Povprečenje je lahko tudi uteženo, kar lahko razumemo kot (grobo) glajenje po času z ustreznim oknom. Če to še formalno zapišemo, dobimo WVDf{p\ri, k] = WVD® ^ [ri, k], ri = iNf, iNf + l,..., iNf + Nw in potem izvedemo povprečenje (glajenje) po času, tako da dobimo vektor za trenutek n{i)=iNf, i = 0,1,...,[N/Nf]: iNf+Nw wvn{i)[k}= Yl h[ri]WVDf + a^ cos [ß-^ + a? sin (j^ . (4.19) Pri tem smo izbrali Xi = 0,1,...,/— 1. Interpretacija koeficientov af je podobna kot v prejšnjem primeru. Na sliki 4.14 si lahko pogledamo aproksimacije podatkov mp[i,q] z fq(x), gq(x) in regresijsku premico. Podobno kot v primeru CKD4 smo tudi tu izvedli kosinusno transformacijo (korak 5) ločeno na af , af in af q = 1,... ,Q. Tako smo dobili 36 značilk za vsak odsek, ki smo mu pridružili še logaritem energije. Izvedli smo še modeliranje odvodov s funkcijo gq(x) po uporabi kosinusne transformacije. Se pravi najprej smo tako kot v primerih CKD4 in CKD5 razkosali sliko na enake dele, potem izvedli kosinusno transformacijo in nato na koeficientih kepstra izvajali 4. Analiza in razpoznavanje govornega signala________________________________________87 Tabela 4.6: Rezultati razpoznavanja s CKD predstavitvijo (3 stanja na model). 1 porazdelitev 2 porazdelitvi 3 porazdelitve monofoni CKDl pravilnost 70.49 % 73.78 % 75.35 % natančnost 66.59 % 71.10 % 73.20 % difoni CKDl pravilnost 68.01 % - - natančnost 65.54 % - - monofoni CKD2 pravilnost 75.46 % 79.28 % 80.35 % natančnost 72.25 % 76.74 % 77.97 % difoni CKD2 pravilnost 76.38 % - - natančnost 73.27 % - - monofoni CKD3 pravilnost 72.97 % 76.20 % 77.26 % natančnost 71.06 % 74.17 % 74.92 % difoni CKD3 pravilnost 69.14 % - - natančnost 67.16 % - - monofoni CKD4 pravilnost 70.17 % 72.34 % 73.01 % natančnost 66.08 % 68.94 % 70.18 % difoni CKD4 pravilnost 66.12 % - - natančnost 63.71 % - - monofoni CKD5 pravilnost 71.15 % 75.18 % 77.01 % natančnost 69.03 % 73.51 % 74.52 % difoni CKD5 pravilnost 68.34 % - - natančnost 66.27 % - - monofoni CKD6 pravilnost 73.92 % 78.21 % 80.19 % natančnost 71.65 % 76.36 % 78.19 % difoni CKD6 pravilnost 76.73 % - - natančnost 73.83 % - - 4. Analiza in razpoznavanje govornega signala 88 Slika 4.14: Tri različni pristopi modeliranja prehodov po posameznih frekvenčnih pasovih predstavitve CKD. aproksimacijo po metodi najmanjših kvadratov s funkcijo gg(x). To predstavitev smo poimenovali CKD6. Primerjavo rezultatov predstavitev CKD1, CKD2, CKD3, CKD4, CKD5 in CKD6 si lahko ogledamo v tabeli 4.6. CKD predstavitev se je izkazala za zelo primerno pri razpoznavanju govora. Rezultati razpoznavanj z različnimi verzijami, podani v tabeli 4.6, nam to lahko potrdijo. Ze prva verzija CKD1 je najboljša med vsemi preizkušanimi verzijami s podobnimi konstrukcijami (razen spektrograma). CKD2 se je podobno kot pri prejšnjih predstavitvah izkazala za bistveno boljšo v primerjavi s CKD1, čeprav preskok v rezultatih ni tako izrazit kot v prejšnjih primerih. Pri CKD2 lahko podobno kot pri PMHD2 in PWVD2 ugotovimo nekaj boljše razpoznavanje glasovnih prehodov (difoni) kot pa glasovnih jeder (monofoni). Predstavitve CKD3, CKD4 in CKD5 nam dajo nižje rezultate razpoznavanja kot CKD2. Pri teh verzijah smo izvajali odvajanje pred kosinusno transformacijo in s tem smo, kot je razvidno iz tabele 4.6, bistveno pokvarili rezultate. Zanimivo je, da so pri CKD4 in CKD5 rezultati celo nižji pri difonih kot pri CKD1. Tu moramo še enkrat opozoriti, da imamo v primeru CKD4 nekaj manj značilk (brez drugih odvodov), kar se tudi pozna pri rezultatih, predvsem v primerjavi s CKD3 in CKD5. Tako smo samo potrdili dejstvo, da odvodi poudarjajo šum in s tem napake meritev s CKD predstavitvijo, kar v primeru razpoznavanja pokvari rezultate. Modeliranje odvodov s funkcijo (4.19) po glajenju s kosinusno transformacijo se je v primeru CKD6 izkazalo za bistveno boljše kot za modeliranje pred transformacijo. Z verzijo CKD6 smo med CKD predstavitvami dosegli celo najboljše rezultate, tako v primeru monofonov kot difonov. 4. Analiza in razpoznavanje govornega signala 89 4.2.2.7 Primerjava rezultatov V prejšnjem delu smo primerjali rezultate razpoznavanja govornih enot pri različnih postopkih modeliranj znotraj posameznih časovno-frekvenčnih predstavitev. Tu pa se bomo posvetili primerjavi rezultatov med predstavitvami. Rezultati razpoznavanja (natančnost) pri monofonih v primeru modeliranja s tremi funkcijami gostot na stanje so prikazani na sliki 4.15. Tu smo primerjali razpoznavanje s posameznimi predstavitvami: WVD, PWVD, PMH, CKD in spektrogramom SPEC. Z modro barvo (na sliki 4.15) so obarvane prve verzije posameznih predstavitev (WVD1, PWVD1, PMH1, CKD1), torej tiste, kjer smo uporabljali samo preskoke brez prekrivanj. Z rdečo barvo so označene najboljše verzije (v smislu razpoznavanja) posameznih predstavitev: WVD3, PWVD3, PMH2, CKD2. V zadnjem delu sta še najboljša predstavitev izmed CKD, verzija CKD6, in spektrogram SPEC. Rezultati razpoznavanja - monofoni I verzija 1 WVD 63.26% PWVD PMH 65.10% 67.55% CKD 73.20% CKD6 SPEC I verzija x 74.99% 76.10% 77.98% 77.97% 78.19% 78.27% Slika 4.15: Rezultati razpoznavanja monofonov z različnimi predstavitvami. Na prikazu 4.15 je lepo viden velik napredek razpoznavanja z verzijami, kjer smo uporabili princip prekrivanja in preskokov. Z WVD in PWVD predstavitvama dobimo nekaj slabše rezultate v primerjavi z ostalimi. To si lahko razlagamo s tem, da imamo pri teh porazdelitvah veliko interferenčnih členov, ki očitno povzročijo slabše razpoznavanje. Rezultati s PMH2, CKD6 (CKD2) in SPEC so skoraj identični. Tako lahko zaključimo, daje v primeru monofonov določanje značilk iz teh treh (štirih) porazdelitev enakovredno, izkaže se celo, da imamo v nekaterih primerih (pri modeliranju dveh funkcij gostot na stanje) razpoznavanje malenkost boljše pri PMH2 in CKD6 kot pri SPEC. Potrebno je še poudariti, da je tudi verzija CKD1 najboljša izmed vseh verzij 1 pri ostalih porazdelitvah. Pri tem je potrebno omeniti, da smo pri WVD, PWVD in PMH uporabljali analitičen signal, pri CKD verzijah in SPEC pa zaradi izvedbe postopka navadno različico signala. Smiselno si je ogledati tudi porazdelitev napak po posameznih obravnavanih fonemih v primeru PMH2, CKD6 in SPEC. V ta namen smo pripravili dva prikaza. Pri prvem gre za prikaz razpoznavanja po posameznih govornih enotah, pri drugem pa prikazujemo primerjave razporeditev napak za posamezne predstavitve. Pri tem smo za ugotavljanje napak uporabljali popravljene verzije Levenshteinove razdalje [Pavešić-00, str. 444] 4. Analiza in razpoznavanje govornega signala________________________________________90 opisane v doktorski disertaciji [Dobrišek-01]. Z njimi namreč dobimo boljše (smiselne) razporeditve napak razpoznavanja. D SPEC DCKD6 DPMH2 100.00% @EeioOuWUvwbdgptkj I I rmnSZtStsszxf Slika 4.16: Rezultati razpoznavanja s SPEC, CKD6 in PMH2 predstavitvami posameznih monofonov govorne zbirke K211d. Slika 4.16 prikazuje rezultate razpoznavanja po posameznih fonemih govorne zbirke K211d v primeru razpoznavanja z značilkami pridobljenimi iz SPEC, CKD6 in PMH2. V splošnem lahko ugotovimo boljše razpoznavanje vokalov /@/, /E/, /e/, /i/, /o/, /u/ s CKD6 in PMH2 v primerjavi s SPEC. Razlog za to je gotovo v bolj natančnem slikanju formantnih frekvenc brez dodatnih interferenc v primerjavi s spektrogramom. Nekaj boljše razpoznavanje s CKD6 je tudi pri šumniku /S/ in zlitniku /tS/. Spektro-gram pa je boljši pri razpoznavanju zapornikov /p/, /t/, /k/ in ustnika /r/. V vseh ostalih primerih se izkažejo predstavitve za enakovredne, kar je posledica zelo podobnih metod modeliranja značilk. V drugem primeru 4.17 smo preučevali razporeditev napak po posameznih glasovih. Primerjali smo SPEC in CKD6 (slika 4.17(a)) ter SPEC in PMH2 (slika 4.17(b)). Tu smo odštevali matrike zamenjav posameznih predstavitev. Na sliki 4.17(a) smo odštevali SPEC in CKD6, na sliki 4.17(b) pa SPEC in PMH2. Matriko zamenjav za posamezne predstavitve smo dobili na podlagi že prej omenjene verzije postopka poravnave nizov govornih odsekov. Pozitivne vrednosti (rdeči odtenki) v taki matriki pomenijo večje število zamenjav (v primeru #Del# izbrisov, #Ins# vrivanj) prve predstavitve v primerjavi z drugo in obratno, modri odtenki pomenijo večje število ustreznih operacij druge predstavitve v primerjavi s prvo. Rdeči in modri odtenki so izbrani v logaritemskem merilu (ločeno) in razporejeni po isti skali. Iz slike 4.17(a), podobno kot iz prikaza 4.16, lahko za CKD6 ugotovimo boljše razpoznavanje vokalov in slabše nekaterih zapornikov v primerjavi s SPEC. Hkrati smo pri CKD6 imeli več izbrisov in manj vrivanj kot pri SPEC. Iz slike 4.17(a) lahko zelo dobro opazujemo porazdelitev napak pri posameznih fonemih, tako npr. za vokale /i/, 4. Analiza in razpoznavanje govornega signala 91 a @ r E e O o u WU i I j b d g k p t s S Z z x S s l m n v w f # a @ r E e O o u W U i 1 I j b d g k p t s S Z z x tS ts l m n v w f #Ins# 1 a @ r E e O o u WU i I j b d g k p t s S Z z x S s l m n v w f # 41 a @ 19 E e 13 O 9 o u 6 W 4 i 3 I j 2 b 1 d g 0 k i p ~ t 2 s J 3 Z ¦ 4 z x 6 tS g ts l L 13 m 19 n v 28 w ., f 41 #Ins# (a) (b) Slika 4.17: Primerjava porazdelitve napak razpoznavanja: (a) SPEC - CKD6, (b) SPEC - PMH2.__________________________________________________________ /0/ in /o/ ter za sičnik /s/ in šumnik /S/ lahko ugotovimo skoraj popolno razpoznavanje (razen vrivanj) s CKD6 v primerjavi s SPEC in obratno dobro razpoznavanje zapornikov /k/, /p/, /t/, ustnika /1/, /r/, in nosnika /m/ s SPEC. Za CKD6 lahko opazimo pogosto zamenjevanje /k/ s /t/ in /m/ z /n/, pri SPEC pa je precej napak pri vokalih. Na sliki 4.17(b) lahko ugotovimo podobno kot v primeru 4.17(a). Tudi tu imamo boljše razpoznavanje vokalov s PMH2 in slabše nekaterih zapornikov. V splošnem imamo nekaj boljše razpoznavanje posameznih fonemov kot pri SPEC (več modrih kot rdečih odtenkov na diagonali matrike 4.17(b)), hkrati imamo tudi približno enako število izbrisov in vrivanj za razliko s CKD6 (slika 4.17(a)). Napake ostajajo tako približno enakomerno razporejene po matriki zamenjav. To je posledica modeliranja značilk, ki je podobno v obeh primerih. Kot smo ugotavljali že pri posameznih predstavitvah, smo z vsemi praviloma boljše razpoznavali glasovne prehode modelirane z difoni kot pa glasovna jedra (monofoni). Na sliki 4.18 so prikazani rezultati razpoznavanja difonov z uporabo značilk pridobljenih z WVD3, PWVD3, PMH2, CKD6 in SPEC. Tu smo modelirali razpoznavalnik s samo eno porazdelitvijo na stanje modela difona. S histogrami na sliki 4.18 so prikazani rezultati pravilnosti in natančnosti razpoznavanja, ki so višji v primerjavi z istimi verzijami uporabljenih pri monofonih. Ugotovimo lahko tudi boljše razpoznavanje difonov s PMH2 in CKD6 kot pri SPEC (pri CKD6 za približno 1% relativno). To si lahko v primeru CKD6 razlagamo z drugačnim modeliranjem odvodov (z aproksimacijo s sinusom in kosinusom). V celoti gledano smo s CKD6 in PMH2 dosegli primerljive oziroma ponekod boljše rezultate razpoznavanja kot pri SPEC v obeh primerih: z monofoni in difoni. WVD in 37 26 18 12 8 6 4 3 2 4. Analiza in razpoznavanje govornega signala 92 Rezultati razpoznavanja - difoni 80% 75% 70% 65% WVD3 PWVD3 PMH2 CKD6 SPEC 73.71% 75.43% 76.15% 76.73% 75.61% : 69.59% 71.90% 73.19% 73.83% 73.29% _______Slika 4.18: Rezultati razpoznavanja difonov s posameznimi predstavitvami.________ PWVD izkazujeta nekaj manjšo zanesljivost razpoznavanja predvsem zaradi interference, ki se pojavljajo med posameznimi spektralnimi komponentami. Pomembna je tudi ugotovitev, da je bistveno boljše določanje značilk s prekrivanjem segmentov kot sam razrez časovno frekvenčne slike. Primerljivost rezultatov pri različnih predstavitvah je posledica dejstva, da smo uporabili podobne postopke določanja značilk, ki temeljijo na koeficientih melodičnega kepstra. Zaključek__________________________________________ V tem poglavju smo preučevali uporabo časovno-frekvenčnih predstavitev na primeru govornih signalov. V prvem delu smo ocenjevali in ugotavljali, katere predstavitve so smiselne za analizo in nadaljnjo obdelavo govornih signalov. Opazovali smo vpliv interference in načine, kako se jo smiselno znebiti tako, da ne pokvarimo bistveno časovno-frekvenčne slike govornega signala. Za referenčne slike smo vedno jemali slike narejene na podlagi spektrograma. V drugem delu pa smo ugotavljali vpliv časovno-frekvenčnih predstavitev na razpoznavanje govora. Poskuse smo izvajali s statističnim modelom razpoznavalnika zgrajenega s PM modeli na bazi K211d. Predvsem smo se ukvarjali z izbiro in določitvijo značilk, ki bi bile optimalne glede na uporabljeni model. Tu smo eksperimentirali z različnimi verzijami časovno-frekvenčnih predstavitev, pri katerih smo se naslanjali na danes najbolj uveljavljen postopek pridobivanja značilk - koeficientov melodičnega kepstra. V primeru Zhao-Atlas-Marksove predstavitve smo eksperimentirali tudi z modeliranjem dinamičnih značilk, kjer smo ugotavljali vplive različnih metod in načinov ocene dinamike. Na podlagi rezultatov razpoznavanja smo tako ugotovili, da so bili naši postopki določevanja značilk približno enakovredni. Še posebno je potrebno izpostaviti psevdo Margenau-Hillovo in že omenjeno Zhao-Atlas-Marksovo porazdelitev, s katerima smo v nekaterih primerih celo presegli rezultate razpoznavanja na podlagi spektrograma. V vseh obravnavanih predstavitvah smo ugotavljali boljše razpoznavanje ob uporabi modelov glasovnih prehodov kot pa samih glasovnih jeder. 5 Zaključek 5.1 Sklepne ugotovitve 5.2 Nadaljnje delo V tem poglavju bomo podali glavne ugotovitve in sklepe magistrskega dela. Osredotočili se bomo predvsem na časovno-frekvenčne izražave govornega signala v primeru razpoznavanja govora. Hkrati pa bomo podali nekaj razmišljanj za nadaljevanje dela na področju razpoznavanja in obdelave govornih signalov. 93 5. Zaključek_______________________________________________________________94 5.1 Sklepne ugotovitve____________________________ V magistrskem delu smo se ukvarjali s časovno-frekvenčnimi predstavitvami signalov s poudarkom na govornih signalih. Ti predstavljajo zaradi svoje narave in lastnosti resen izziv za analizo in nadaljnjo obdelavo. Govorni signal je zelo kompleksen, opisuje tako dolge sorazmerno stacionarne dele kot tudi hipne, kratke glasove. Spektrogram kot časovno-frekvenčna predstavitev je vrsto let služil skoraj kot edina možna predstavitev govora v časovno-frekvenčnem prostoru. Zaradi svojih številnih ugodnih lastnosti, kot so nenegativnost porazdelitve, razumljivost izvajanja operacij in izvedba s pomočjo hitre Fourierjeve transformacije, je še danes vodilna predstavitev v vrsti aplikacij, ki obravnavajo in zajemajo značilnosti govornih signalov. Njegova glavna pomanjkljivost pa je njegova enakomerna občutljivost povezana s principom nedoločenosti; povsem enako namreč tako merimo daljše stacionarne dele in krajše, hipne dogodke v signalu. V magistrskem delu smo ustrezno umestili spektrogram v skupino predstavitev z imenom Cohenov razred. Ogledali smo si še druge predstavitve s tega razreda, ki spadajo med energijske porazdelitve. Manjši poudarek pa smo namenili drugi večji skupini - afinim predstavitvam. Tako smo spoznali in podrobneje proučili delovanje Wigener-Villejeve, psevdo Wigener-Villejeve, Margenau-Hillove, ki je izvedba Richaczkove predstavitve, in njene glajene verzije. Se posebej pa smo se ukvarjali z Zhao-Atlas-Marksovo porazdelitvijo, ki ima vrsto ugodnih lastnosti za analizo in razpoznavanje govornega signala. Obdelali smo probleme diskretizacije teh predstavitev. Posebej smo na primeru Wigener-Villejeve predstavitve izpostavili problem podvzorčenja ter predstavili neposreden pristop diskretizacije, ki je pomemben predvsem pri dokazovanju lastnosti diskretnih predstavitev. V poglavju 4 smo se posvetili govornemu signalu. Predstavili smo nekaj metod prikaza časovno-frekvenčnih predstavitev, kjer smo vpeljali princip prikazovanja s prekrivanjem. Tega smo potem uspešno aplicirali v razpoznavanje govora. S takšnimi verzijami predstavitev smo v povprečju znatno popravili razpoznavanje govora. S tem pa smo tako vpeljali paleto novih možnosti za izračun in izbiro značilk govornega signala. S temi verzijami smo se zelo približali rezultatom razpoznavanja s spektro-gramom, v nekaterih primerih smo ga celo presegli. To je pomemben dosežek, saj pri teh predstavitvah nismo omejeni z izbiro dolžine in tipa okna, predstavitve tudi niso obremenjene s principom nedoločenosti in kot take predstavljajo resno alternativo spektrogramu, predvsem v smislu pridobivanja novih, drugačnih značilk. Namen magistrskega dela ni bil samo izboljšati rezultate razpoznavanja govora z različnimi izbirami značilk, ampak predvsem predstaviti različne možnosti obravnave signala in s tem povezanih problemov. Pri razpoznavanju govora smo se pri izbiri značilk preko različnih časovno-frekvenčnih predstavitev držali standardnih že uveljavljenih postopkov pridobivanja značilk. Tako 5. Zaključek_______________________________________________________________95 smo upoštevali znane lastnosti narave govornega signala in človeškega slušnega zaznavanja. To je seveda smiselno, če bi tudi pri gradnji modelov razpoznavalnika govora simulirali "model" človeškega razpoznavanja govora, v nasprotnem pa to ni nujno potrebno. V magistrskem delu se s tem nismo posebej ukvarjali, čeprav bi bilo pri akustičnem modelirannju govora potrebno gledati na sistem kot celoto. To pomeni, da bi morali iskati optimalne značilke glede na model razpoznavalnika oziroma bi morali smiselno prilagajati modele glede na trenutne lastnosti značilk pridobljenih iz signalov. V naslednjem razdelku bomo podali še nekaj smernic za nadaljnje delo v zvezi z obdelavo in razpoznavanjem govornega signala. 5.2 Nadaljnje delo________________________________ V poglavju 4 magistrskega dela smo se posvečali predvsem pridobivanju značilk za obdelavo govornega signala na podlagi že obstoječih postopkov izbire značilk, spreminjali smo le časovno-frekvenčne predstavitve govornega signala. Tako smo v prejšnjem poglavju predvsem razmišljali o naravi govornih signalov, ki smo jih zato tudi tako spreminjali, da bi v nekem smislu posnemali človekovo slušno zaznavanje. Hkrati smo imeli v mislih tudi naravo govornega signala. Tako smo upoštevali kvazi stacionarnost signala in tudi postopke modeliranja in izbire značilk prilagodili tem dejstvom. Na časovno-frekvenčne predstavitve pa lahko gledamo tudi kot na slike signala v dvodimenzionalnem prostoru časa in frekvence. V tem primeru smo zelo odvisni od izbire časovno-frekvenčne predstavitve. Slike posameznih tipov signalov morajo biti namreč dovolj dobre, da lahko ločujemo med razredi signalov. To pa pomeni, da lahko prevedemo problem razpoznavanja govornih signalov na problem razpoznavanja slik govornih signalov. Pri tem moramo upoštevati obliko, se pravi posamezne elemente in njihovo razporeditev na sliki. Hkrati pa moramo upoštevati tudi njihovo velikost, se pravi inteziteto barve na slikah z barvnimi lestvicami, kot smo jih opisovali v prejšnjem poglavju. Zato je razpoznavanje posameznih elementov takšnih slik precej zahteven problem za avtomatično obdelavo. Poleg tega moramo imeti še vedno v mislih signale oziroma razrede signalov, ki jih poskušamo medsebojno ločevati, zato ne moremo samo razpoznavati posameznih objektov (spektralnih komponent, ki se pojavljajo v določenih trenutkih v času) na slikah, ampak moramo najprej ali pa sočasno določiti samo tiste, ki so za ločevanje med posameznimi razredi signalov najbolj optimalni. Tu pridejo v poštev tudi interferenčni členi, ki nosijo informacijo o spremembah faze signala. V primeru obdelave slik je pomembna tudi izbira modela razpoznavalnika. Sploh ni nujno, da bi gradili razpoznavalnike za razpoznavanje slik govornih signalov na način kot je danes v veljavi (s PM modeli). V nadaljevanju bomo podali nekaj razmišljanj obdelave časovno-frekvenčne slike (govornih) signalov. 5. Zaključek_______________________________________________________________96 5.2.1 Renyijeva entropija Denimo, da nas zanima informacija, iz koliko elementarnih signalov je sestavljen signal v danem trenutku. Se pravi, zanima nas, koliko elementarnih objektov (signalov) je skritih v sliki časovno-frekvenčne predstavitve. Pri tem si moramo seveda zagotoviti dobro predstavitev in mero, s katero bomo merili to informacijo. Časovno-frekvenčne predstavitve obravnavamo kot porazdelitve energije signala. Zato bi lahko informacijo merili s Shannonovo mero entropije [Pavešić-97, str. 24], definirano kot /oo /(a;)log2/(a;)rfa;, -oo kjer je f(x) gostota verjetnosti spremenljivke x. To mero pa v našem primeru ne moremo uporabiti, saj so nekatere energijske porazdelitve tudi negativne, zato uporabimo posplošeno mero znano kot Renyijevo entropijo, podano kot K = ^— iog2 1 — a Iz Renyijeve mere entropije prvega reda, ko gre a —y 1, se da izpeljati Shannonovo entropijo. Renyijevo entropijo tretjega reda pa lahko uporabimo v zvezi s časovno-frekvenčnimi predstavitvami Cx(t, /): -I { /»OO /»OO ^ R"c = -2 lQg2 {/ J Cl{t, f)dtdfj . Rezultat zgornje mere je podan v bitih in nam pove naslednje: če predpostavimo, da nam en elementaren signal prisoten v signalu x(t) pomeni 0 bitov informacije (2°), potem nam dva elementarna signala podata en bit informacije (21), štirje signali dva bita informacije (22) in tako naprej. Tako informacijo pa že lahko štejemo za značilko pri razpoznavanju signalov. 5.2.2 Houghova transformacija Če nas zanimajo linearno frekvenčno modulirani signali, jih lahko na slikah v časovno-frekvenčni ravnini opazujemo kot premice. Tako lahko prevedemo problem iskanja linearnih cvrkov, v iskanje premic na slikah, kar je pri razpoznavanju slik znan problem. To dosežemo z uporabo Houghove transformacije [Pavešić-00, str.83], ki jo lahko v polarnih koordinatah zapišemo kot x cos 9 + y sin 9 = p. Bistvo te transformacije je, da se točke slike, ki so razporejene v okolici neke premice na sliki, v parametričnem prostoru (p, 9) preslikajo v okolico ene same točke, ki tako predstavlja lokalni maksimum. Z izbiro ustreznega praga, tako lahko štejemo in ugotavljamo smer premic na dani sliki. fa(x)dx. 5. Zaključek_______________________________________________________________97 Houghovo transformacijo lahko v primeru časovno-frekvenčnih predstavitev prevedemo v t.i. Wigener-Houghovo transformacijo [Auger-97a]. Zapišimo signal kot linearni cvrk z dodanim belim Gaussovim šumom n(t) s trajanem T: x(t) = e^t+^+n(t). Z izpeljavo Wigener-Villejeve predstavitve, ki idealno ločuje linearne cvrke, na signalu x(t), dobimo Wigener-Houghovo transformacijo: WHx(u,ß) = fwx{t,u + ßt)dt Jt = f [ x{t + T/2)x*{t-r/2)e-j2^t+^Tdtdr J-oo Jt Ideja je tu analogna kot pri običajni Houghovi transformaciji. Točke, ki opisujejo linearne cvrke na slikah WV predstavitve, bodo v prostoru (v, ß) razporejene samo okoli enega vrha. Ob uvedbi praga tako dobimo informacijo, koliko in kje na sliki lahko iščemo linearno modulirane signale. 5.2.3 Učenje jedra predstavitve Kot zadnjo idejo za določevanje značilk naj omenimo še učenje predstavitve za razpoznavanje. V poglavju 3.2.4.3 smo si ogledali izpeljavo diskretne verzije večlične funkcije, s katero lahko definiramo diskretno Richaczkovo porazdelitev. Z vpeljavo jedra [rj, r]A[n, t] m 77 = 0 T = 0 Jedro 0[?7, t] lahko izbiramo na različne načine in potrebe. Najbolj pogosto se določa jedra, ki gladijo osnovne predstavitve, tako da izničujejo interferenčne člene. Pri tem pa upoštevamo še dodatne lastnosti jeder, da z njimi ne pokvarimo lastnosti predstavitev. Druga možnost pa je učenje jeder, ki se lahko prilagajajo tipu signalov, ki jih obdelujemo [Baraniuk-90]. Takim predstavitvam pravimo optimalne predstavitve in jih računamo z reševanjem linearnih programov. Te so seveda optimalne glede na tip signalov, ki jih analiziramo. V ozadju je še vedno namen izboljšati sliko predstavitve. Podoben princip pa lahko uporabimo, če hočemo določevati jedra, s katerimi bi lahko optimalno ločevali med posameznimi razredi signalov [Gillespie-01]. Tu lahko interferenčni členi pomenijo dodatno informacijo za iskanje jedra separacije. 5. Zaključek_______________________________________________________________98 Formalno lahko to zapišemo kot iskanje jedra z maksimizacijo L2 norme med dvema predstavitvama v ravnini (r},r): 4>[v,t] = arg max V ^[t?,^^! [77, r] - A2[r],r])\2, 4>[V,r] *—' kjer sta ^[t?, t] in A2[^,r] tipični predstavitvi prvega in drugega razreda. Enolično rešitev gornjega optimizacijskega problema zagotovimo s pogojem, da ima jedro končno energijo: 5>fo,r]|2 = l. ri,T Takšno določevanje jedra je smiselno, če imamo časovno poravnane signale, ki so si zelo podobni, vendar jih moramo vseeno ločevati. V primeru govornega signala bi lahko to izvedli kot dodatne značilke za fino ločevanje posameznih skupin fonemov, ki se pogosto zamenjujejo v procesu razpoznavanja. Tako smo podali še nekaj možnosti pridobivanja značilk iz slike dane časovno-frekvenčne predstavitve, ki bi jih lahko smiselno integrirali v postopke določevanja in izbire značilk za uspešno razpoznavanje govornih signalov. Viri in literatura [Ainsworth-98] [Atlas-97] [Auger-95] [Auger-97] [Auger-9 7a] [Baraniuk-90] [Bertrand-91] [Choi-89] [Cohen-66] [Cohen-95] [Daubechies-90] W. A. Ainsworth, C. R. Day, G. Meyer. Improving pitch estimation with short duration speech samples. In Proc. ICSLP, Sydney, Australia, str. 1363-1366. 1998. L. Atlas, J. Droppo, and J. McLaughlin. Optimizing time-frequency distributions via operator theory. Proceedings of the SPIE. Volume 3162. 1997. F. Auger, P. Flandrin. Improving the readability of time-frequency and time-scale representations by the reassignement method. IEEE Trans, on Signal Processing. Volume 43, št. 5, str. 1068-1089. 1995. F. Auger, P. Flandrin, P. Gonçalves, O. Lemoine. Time-frequency toolbox for use with MATLAB. Reference guide. 1997. F. Auger, P. Flandrin, P. Gonçalves, O. Lemoine. Time-frequency toolbox for use with MATLAB. Tutorial. 1997. R. G. Baraniuk in D. L. Jones. Optimal kernels for time-frequency analysis. Proc. SPIE. Volume 1348, str. 181 - 187. 1990. J. Bertrand, P. Bertrand. Affine time-frequency distributions. Time-frequency analysis, urednik B. Boashash. Longman-Cheshire, Melbourne, str. 1-23. 1991. H. I. Choi, W. J. Williams. Improved Time-Frequency Representation of Multicomponent Signals Using Exponential Kernels. IEEE Transactions on Acoust., Speech, Signal Processing. Volume ASSP-37, št. 6, str. 862-871. 1989. L. Cohen. Generalized phase-spaced distribution functions. Journal of Math. Phys.. Volume 7, str. 781-806. 1966. L. Cohen. Time-Frequency Analysis. Prentice Hall Signal Processing Series. 1995. I. Daubechies. The Wavelet Transform, Time-Frequency Localization and Signal Analysis. IEEE Transactions on Information Theory. Volume 36, No. 5, str. 961-1005. 1990. 99 VIRI IN LITERATURA 100 [Daubechies-92] [Dobrišek-96] [Dobrišek-97] [Dobrišek-01] [Flandrin-89] [Furui-86] [Gabor-46] [Gillespie-01] [Gros-97] [Gyergyek-91] [Harris-78] [Hlawatsch-91] [Hlawatsch-92] I. Daubechies. Ten Lectures on Wavelets. Philadelphia: SIAM. 1992. S. Dobrišek, J. Gros, F. Mihelič, K. Pepelnjak in I. Ipšić. GOPOLIS: Slovenian Speech Database of Spoken Flight Information Queries. Proceedings of the 3rd Slovenian-German and 2nd SDRV Workshop on Speech and Image Understanding, str. 37-46. Ljubljana. 1996. S. Dobrišek, F. Mihelič in N. Pavešić. A Multiresolutionally Oriented Approach for Determination of Cepstral Features in Speech Recognition. Proceedings of the 5'th European Conference On Speech Communication and Technology. Volume 3, str. 1367 - 1370. Rhodes, Greece. 1997. S. Dobrišek. Analiza in razpoznavanje glasov v govornem signalu. Doktorska disertacija. Univerza v Ljubljani, Fakulteta za elektrotehniko. Ljubljana. 2001. P. Flandrin. Some aspects of non-stationary signal processing with ephassis on time-frequency and time-scale methods. Wavelets: Time-Frequency Methods and Phase Space, str. 68-98. Springer-Verlag 1989. S. Furui. Speaker Independent Isolated Word Recogniser Using Dynamic Features of Speech Spectrum. IEEE Transaction on Acoustic, Speech and Signal Processing. Volume 34, No 1, str. 52 - 59. 1986. D. Gabor. Theory of Communication. J. IEE (London). Volume 93(111), str. 429-457. 1946. B. W. Gillespie in L. E. Atlas. Optimizing Time-Frequency Kernels for Classification. IEEE Trans, on Signal Processing. Volume 49, št. 3, str. 485-496. 2001. J. Gros. Sistem za sintezo slovenskega govora. Doktorska disertacija. Univerza v Ljubljani, Fakulteta za elektrotehniko. Ljubljana. 1997. L. Gyergyek. Teorija signalov in obdelava signalov. Založba FE, Fakulteta za elektrotehniko, Ljubljana. 1991. F. Harris. On the use of windows for harmonic analysis with the discrete Fourier transform. In Proceedings IEEE. Volume 66, str. 51-83. 1978. F. Hlawatsch. Time-Frequency Methods for Signal Processing. V Technical Report 1291-0001. Departement of Electrical Engineering, University of Rhode Island. 1991. F. Hlawatsch in G.F. Boudreaux-Bartels. Linear and Quadratic Time-Frequency Signal Representations. IEEE Signal Processing Magazine. Volume 9, št. 2, str. 21-67. 1992. VIRI IN LITERATURA 101 [Ipšić-96] [Jelinek-98] [Loughlin-93] [Markel-80] [Marušič-98] [Malayath-00] [McLaughlin-97] [Mihelič-91] [Mihelič-93] [Moyal-49] [Narayanan-96] [Octave] [Papo-77] [Pavešić-97] [Pavešić-00] I. Ipšić. Razpoznavanje besed v vezanem govoru. Doktorska disertacija. Fakulteta za elektrotehniko in računalništvo. Univerza v Ljubljani. Ljubljana. 1996. F. Jelinek. Statistical Methods for Speech Recognition. The MIT Press. Cambridge, Massachusetts, London, England. 1998. P. J. Loughlin, J. W. Pitton, L. E. Atlas. Bilinear Time-Frequency Representations: New Insights and Properties. IEEE Transactions on Signal Processing. Volume 41, št. 2. 1993. J. Markel in A. H. Gray, Jr. Linear Prediction of Speech. Springer-Verlag, New York. New York. 1980. B. Marušič. Kodiranje slik z valčno transformacijo. Magistrsko delo. Fakulteta za elektrotehniko, Univerza v Ljubljani. Ljubljana. 1998. N. Malayath. Data-Driven Methods for Extracting Features from Speech. Doctoral dissertation. Departement of Electrical and Computer Engineering. Oregon Graduate Institute of Science and Technology. 2000. J. McLaughlin, L. E. Atlas. Applications of Operator Theory to Time-Frequency Analysis and Classification, sprejeto v IEEE Transactions on Signal Processing. 1997. F. Mihelič, Akustično fonetična pretvorba slovenskega govora. Doktorska disertacija. Fakulteta za elektrotehniko in računalništvo, Univerza v Ljubljani. Ljubljana. 1991. F. Mihelič in B. Lozej. Dolžine trajanja in glasnost izgovorjave slovenskih fonemov. Zbornik delavnice: Jezik tako in drugače, str. 441 - 451. Ljubljana. 1993. J. E. Moyal. Quantum mechanics as a statistical theory. Proc. Camb. Phil. Soc. Volume 45, str. 99-124. 1949. S.B. Narayanan, J. McLaughlin, L. Atlas, and J. Droppo. An operator theory approach to discrete time-frequency distributions. In Proc. of the IEEE Int. Symp. on Time-Frequency and Time-Scale Analysis, str. 521-524. 1996. J. W. Eaton. GNU-Octave. http://www.octave.org. A. Papoulis. Signal Analysis. McGraw-Hill Book Co. New York. 1996. N. Pavešić. Informacija in kodi. Založba FE in FRI, Fakulteta za elektrotehniko, Univerza v Ljubljani. 1997. N. Pavešić. Razpoznavanje vzorcev. Založba FE, Fakulteta za elektrotehniko, Ljubljana. 2000. VIRI IN LITERATURA 102 [Picone-93] [Pitton-95] [Plante-95] [Qian-96] [Qian-99] [Rabiner-78] [Rabiner-93] [Richaczek-68] [Rioul-91] [Rioul-92] [Shenoy-95] [Ville-48] [Wells-92] [Wilcox-67] [Yang-98] J. Picone. Signal Modeling Techniques In Speech Recognition. Proceedings of the IEEE. 1993. J. W. Pittori in L. E. Atlas. Discrete-Time Implementation of the Cone-Kernel Time-Frequency Representation. IEEE Trans, on Signal Processing. Volume 43, št. 8, str. 1996-1998. 1995. F. Plante, W. A. Ainsworth. Formant tracking using ressigned spectrum. In Proc. of EUROSPEECH, Madrid, str. 741-744. 1995. S. Qian in D. Chen. Joint Time-Frequency Analysis: Methods and Applications. Prentice-Hall PTR, NJ. 1996. S. Qian in D. Chen. Joint Time-Frequency Analysis. IEEE Signal Processing Magazine. Volume 16, št. 2, str. 53-67. 1999. L. R. Rabiner in R. W. Schäfer. Digital Processing of Speech Signals. Prentice-Hall. Englewood Cliffs, NJ. 1978. L. R. Rabiner in B-H. Juang. Fundamentals of Speech Reognition. Prentice-Hall. Englewood Cliffs, NJ. 1993. A. W. Richaczek. Signal Energy Distribution in Time and Frequency. IEEE Transactions on Information Theory. Volume 14, str. 369-374. 1968. O. Rioul in M. Vetterli. Wavelets and Signal Processing. IEEE Signal Porcessing Magazine. Volume 8, št. 4, str. 14-38. 1991. O. Rioul in P. Flandrin. Time-scale distributions: A general class emending wavelet transform. IEEE Transactions on Signal Processing. Volume 40, št. 7, str. 1746-1757. 1992. R. G. Shenoy, T. W. Parks. Wide-band ambiguity functions and affine Wigener distributions. Signal Processing. Volume 41, št. 1, str. 339-363. 1995. J. Ville. Theorie et applications de la notion de signal analytique. str. 61-74. 1948. J. Wells, W. Barry, M. Grice, A. Fourcin in D. Gibbon. Standard Computer Compatible Transcriptions. ESPRIT Project 2589 (SAM). SAM-UCL-037. 1992. R. M. Wilcox. Exponential Operators and Parameter Differentiation in Quantum Physics. Journal of Math. Phys. Volume 8, str. 962-982. 1967. D. Yang, W. A. Ainsworth, G. Meyer. Vowel separation using the reassigned amplitude-modulation spectrum. In Proc. ICSLP, Sydney, Australia, str. 947-950. 1998. VIRI IN LITERATURA 103 [Young-00] S. Young, D. Kershaw, J. Odeli, D. Ollason, V. Vatchev in P. Wood- land. The HTK Book. Cambridge University Engineering Department, Cambridge, United Kingdom. 2000. [Zhao-90] Y. Zhao, L. E. Atlas, R. J. Marks. The use of cone-shaped kernels for generalized time-frequency representations of nonstationary signals. IEEE Transactions on Acoust., Speech, Signal Processing. Volume 38, str. 1084-1091. 1990. [Zwicker-90] E. Zwicker in H. Fasti. Psychoacoustics: Facts and Models. Springer- Verlag. Berlin, Heidelberg. Germany. 1990. [Zibert-00] J. Zibert, F. Mihelič. Slovenian Weather Forecast Speech Database. In Proceedings of SOFTCOM 2000, International Conference on Software, Telecommunications and Computer Networks, str 199-206. Split. 2000. A Pregled časovno-frekvenčnih predstavitev V dodatku so zbrane znane časovno-frekvenčne predstavitve signalov povzete po [Hlawatsch-92]. To so zvezne predstavitve, ki jih delimo na linearne oz. atomarne predstavitve in kvadratne oz. energijske predstavitve. Pri energijskih predstavitvah se uporablja izraz tudi energijske porazdelitve. Obstajajo pa še predstavitve, ki ne spadajo v noben razred. A.l Linearne časovno-frekvenčne predstavitve_____ 1. kratkočasovna Fourier jeva transformacija (STFT): /oo /»oo x(r)h*(T - t)e-^r dr = / X(t)H*(Ç - f)e^^~^ #, -oo J — oo 2. zvezna valčna transformacija (CWT): / + 00 f+oo I . x(s)^ia(s)dS= / x(ovwT\*if(Tty2***** -oo J —oo J 3. Gaborjeva transformacija, Gaborjevi koeficienti: x(t) = ^2^2Gx[n,m]gnym(t). n m A.2 Kvadratne časovno-frekvenčne predstavitve Kvadratne predstavitve lahko razdelimo še glede na lastnosti, ki jih imajo. Delimo jih na dva večja razreda: Cohenov razred in afine predstavitve. Pri časovno-frekvenčni analizi signalov se v primeru kvadratnih predstavitev mešata pojma predstavitev (ang. representation) in porazdelitev (ang. distribution). V prvem primeru mislimo sliko porazdelitve, v drugem pa zgolj porazdelitev energije. Ker je pri verjetnosti funkcija porazdelitve verjetnosti nenegativna, realna s ploščino 1, v primeru porazdelitev energije pa to ni vedno res, je bolj smiselno, če govorimo o predstavitvah. Vsekakor sta pri takšni časovno-frekvenčni analizi signalov v primeru kvadratnih predstavitev pojma ekvivalentna. 104 Dodatek A. Pregled časovno-frekvenčnih predstavitev 105 1. spektrogram: SPECx(t, /; h) = \STFTx(t, /; h)\2 = /oo x(r)h*(T-t)e-]27rfTdr -oo 2. skalogram: SCALx(tJ;if>) = \CWTx(t,f;iP)\2 = + 00 x(s)tâa(s) ds 3. Wigener-ViUejeva porazdelitev: Wx(t, f) = j+C° x(t+T-) x* (t - I) e-^T dr = ^+°° * (/ + f ) ** (/ - 4. psevdo Wigener-ViUejeva porazdelitev: /+°° / r\ / r\ /'+00 ä(t)z (t + -) L* (t - -J e-^T dr = y H(/-0Wx(t, 0 #, pj27Ttf 5. zglajena psevdo Wigener-ViUejeva porazdelitev: / + 0O r-\-oo /i(r) / y (s - t)a;(s + t/2)x* {s - r/2)ds e~j27rfTdr, -oo J — oo 6. večlična funkcija (AF): / + 00 f + OO />+oo x(s+r/2)a;*(S-r/2)e-^sfiS = / / Wx(r, f)e^T-^dtdf, -oo t+|r|/2 — / x(s + T/2)x*(s-r/2)ds -oo lTl \_Jt-\T\/2 e~j2nfTdT, 12. Zhao-Atlas-Marksova porazdelitev: »+oo r />t+|r|/2 1/2 13. afina zglajena psevdo Wigenerjeva porazdelitev: 's-t h(r) / x(s + r/2)x*(s-r/2)ds e-j27rfTdr, -oo LA-|t|/2 ASPW^a) = - /+°° [+CO h(-)g(S—^ T T x(s + —)x*(s — -)dsdr Qj J Zi Zj 14. Bertrandova porazdelitev: BEDx(t,f) = f J^ X(f\(u)e^)X*(fX(-u)e(-u^)X(u)e^fudu, u/2 sinh(M/2) ' kjer je X(u) = —^— 15. D-Flandrinova porazdelitev: + 00 FDx(tJ) = f j X /(1 + p2 U. X* /(1 - \f (l-u-) e?2*tfudu, 16. aktivna Unterbergerjeva porazdelitev: AUDx(t,f) = f HX{fv)X*(f-){\ + ly2^-1/«)^, Jo ^u/ M 17. pasivna Unterbergerjeva porazdelitev: PUDx(t,f) = f HX{fu)X* U\ -j^^-^du, Jo \u/ u 18. Butterworthova porazdelitev: BUDx(t, f) = JZ /_~ 4>(t, v)Ax(t, v)e^-f^dTdv, kjer je ip(r,v) ,2M f \2N -i 1+fe) fe) 19. glajena eksponentna porazdelitev: GEDx(t, f) = JZc l V>(r, u)Ax(t, u)^^-fr)dTdVt kjer je ip(r, v) = exp ' j_\2M tv_\2N Dodatek A. Pregled časovno-frekvenčnih predstavitev______________________________107 20. posplošena Wigener-Vülejeva porazdelitev: GWDxa\t, f) = j+°° x(t+{\- a)r) x* (t-{\- a)r) e^^dr 21. Levinova porazdelitev: /oo 2 /- «e» e-V*fTdT =2Rlx*(t)ej27rft x(r)e-j27rfTdr 22. realni del posplošene Wigener-Villejeve porazdelitve: RGW D™ (tj) = U{GWDxa\tJ)} A.3 Ostale časovno-frekvenčne predstavitve_______ Obstaja še nekaj predstavitev, ki ne zadoščajo pogoju linearnosti in/ali bilinearnosti: 1. prilagajanje Gaussovega jedra tipu signalov: RGDx(t, f) = Jt l tßx(r, u)Ax(r, v)e^-^dTdv, kjer je ipx(T,v) = exp 2a|(9) G = arctan ^p- t/to 2. Cohenova nenegativna porazdelitev: CNDtp\t, f) = MÜLipL [! + cp {Ut)i Vx{f))] i r* lmi2j^ „ rt\ — i f/ kjer je 6(*) = i/!«, k(r)|2dr, Vx{f) = ± /_'„ |X(/') |2d/', ^ = /t |x(t)|2dt Slovar izrazov V magistrskem delu smo uporabili precej novih strokovnih izrazov. Za boljše razumevanje in lažji pregled smo tu podali slovar slovenskih in ustreznih angleških izrazov. Še enkrat poudarimo, da smo prevajali porazdelitve (distributions) kot predstavitve. afine predstavitve aktivna Unterbergerjeva predstavitev analitičen signal atomarne predstavitve Bertrandova predstavitev bifrekvenčno jedro Born-Jordanova predstavitev Butterworthova predstavitev Choi-Williamsova predstavitev Cohenov razred predstavitev časovna širina časovno—frekvenčna ločljivost D—Flandrinova predstavitev diadična skala diskretna kratkočasovna Fourierjeva transformacija diskretna valčna transformacija energijske porazdelitve Fourierjeva transformacija frekvenčna širina affine distributions active Unterberger distribution analytic signal atomic decompositions Bertrand distribution bi-frequency kernel Born-Jordan distribution Butterworth distribution Choi-Williams distribution distributions of Cohen's class time spreading, standard deviation in time time-frequency resolution D-Flandrin distribution diadic scale discrete short-time Fourier transform discrete wavelet transform energy distributions Fourier transform frequency spreading, standard deviation in frequency 108 Gaborjeva transformacija Gaborjevi koeficienti Gaborjevi nastavki glajena eksponentna predstavitev Hilbertova transformacija idealna lokalizacija linearnih cvrkov interferenca interferenčni členi izhodiščni valček jedro karakteristična funkcija kratkočasovna Fourierjeva transformacija križni členi kvadratna superpozicija kvadratne časovno-frekvenčne predstavitve Levinova predstavitev linearne časovno-frekvenčne predstavitve Margenau-Hillova predstavitev načelo kvadratne superpozicije ohranitev konvolucije ohranitev nosilcev ohranitev premika po času ohranitev premika po frekvenci ohranitev raztegov Pageova predstavitev parametrizacijska funkcija pasivna Unterbergerjeva predstavitev Gabor transform Gabor coefficients Gabor logons generalized exponential distribution Hilbert transform perfect localization on linear chirp signals interference interference terms mother wavelet kernel function characteristic function short-time Fourier transform cross terms quadratic superposition principle quadratic time-frequency representations Levin distribution linear time-frequency representations Margenau-Hill distribution quadratic superposition principle compatibilty with filterings support conservation time translation covariance frequency translation covariance dilation covariance Page distribution parametric function passive Unterberger distribution 109 pojav prekrivanja porazdelitve reducirane interference posplošena Wigener-Villejeva predstavitev povprečen čas povprečna frekvenca pravilo ujemanja princip nedoločenosti produkt v konvolucijo psevdo afina Wigener-Villejeva predstavitev psevdo Margenau-Hillova predstavitev psevdo Pageova predstavitev psevdo Wigener-Villejeva predstavitev realocirane predstavitve Richaczkova predstavitev robni pogoj signal cvrk skalogram skupinska zakasnitev spektrogram trenutna amplituda trenutna frekvenca unitarnost valčna transformacija večlična funkcija vzorčenje po diadični skali Wigener-Villejeva predstavitev zamik po času aliasing reduced interference distributions generalized Wigener-Ville distribution average time average frequency correspondence rule uncertainty principle, Heisenberg-Gabor equality compatability with modulations pseudo affine Wigener-Ville distribution pseudo Margenau-Hill distribution pseudo Page distribution pseudo Wigener-Ville distribution reassigned distributions Richaczek distribution marginal property chirp signal scalogram group delay spectrogram instantaneous amplitude instantaneous frequency unitarity wavelet transform ambiguity function diadic sampling Wigener-Ville distribution delay zamik po frekvenci zglajena psevdo afina Wigener-Villejeva predstavitev zglajena psevdo Wigener-Villejeva predstavitev Zhao-Atlas—Marksova predstavitev zvezna valčna transformacija doppler smoothed pseudo affine Wigener-Ville distribution smoothed pseudo Wigener-Ville distribution Zhao-Atlas-Marks distribution, cone-shaped kernel distribution continuous wavelet transform 111 Izjava Podpisani Janez Žibert izjavljam, da sem avtor magistrskega dela z naslovom Casovno-frekvenčne predstavitve govornih signalov. Janez Zibert