29
• Puhesignaalia voidaan mallintaa lähde-suodin – systeemin avulla • Järjestelmän syötteenä x(n) on kurkunpää-ääni ja ulostulona y(n) mitattu puhesignaali Kertausta: lähde-suodin –malli 1 H(z) Y(z) X(z)

Kertausta: lähde-suodin –malli

  • Upload
    sonel

  • View
    104

  • Download
    10

Embed Size (px)

DESCRIPTION

Kertausta: lähde-suodin –malli. Puhesignaalia voidaan mallintaa lähde-suodin –systeemin avulla Järjestelmän syötteenä x ( n ) on kurkunpää-ääni ja ulostulona y ( n ) mitattu puhesignaali. X(z). H(z). Y(z). Kertausta: lineaarinen ennustus. - PowerPoint PPT Presentation

Citation preview

Page 1: Kertausta:  lähde-suodin –malli

• Puhesignaalia voidaan mallintaa lähde-suodin –systeemin avulla

• Järjestelmän syötteenä x(n) on kurkunpää-ääni ja ulostulona y(n) mitattu puhesignaali

Kertausta: lähde-suodin –malli1

H(z)

Y(z)

X(z)

Page 2: Kertausta:  lähde-suodin –malli

• Lineaarinen ennustus on yksi tärkeimmistä puheenkäsittelyn työkaluista

• Lyhenne LP (linear prediction) tai LPC (linear predictive coding)

• Puheenkäsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää

• Ideana ennustaa puhesignaalin seuraavaa näytettä edellisten näytteiden ja lineaarisen suotimen avulla (edellisten näytteiden lineaarikombinaationa)

• Aiemmin käsitelty ristikkorakenteinen malli ääntöväylälle on all-pole –suodin

– > Lineaarinen ennustus on hyvä menetelmä suotimen parametrien estimointiin

Kertausta: lineaarinen ennustus2

Page 3: Kertausta:  lähde-suodin –malli

Ääntöväyläsuotimelle voidaan käyttää mallia (all-pole –suodin)

All-pole –järjestelmän ulostulo voidaan ennustaa täydellisesti mikäli sisäänmeno ja ulostulon aiemmat arvot tunnetaan. Etsitään aproksimaatio määrittelemällä sisäänmeno nollaksi ja tehdään ennustus pelkän ulostulon perusteella

siten, että neliövirhe E minimoituu:

Kertausta: lineaarinen ennustus3

....1

1)(

11

1p

p zazazA

p

k

knykany1

)()()(ˆ

N

naOPT nynyna

1

2))()((minarg)(

N

n

nynyE1

2))()((

Page 4: Kertausta:  lähde-suodin –malli

Optimaaliset suotimen parametrit a(1),a(2),...,a(p) löytyvät, kun asetetaan E:n derivaatta jokaisen parametrin a(n) suhteen on nollaksi.

Autokorrelaatiofunktion r(n) avulla ilmaistuna, derivaattojen nollakohdat saadaan ilmaistua matriisimuodossa Yule-Walker –yhtälönä:

Kertausta: lineaarinen ennustus4

)(

)3()2()1(

)(

)3()2()1(

)0()3()2()1(

)3()0()1()2()2()1()0()1()1()2()1()0(

pr

rrr

pa

aaa

rprprpr

prrrrprrrrprrrr

Page 5: Kertausta:  lähde-suodin –malli

• Levinson-Durbin –rekursio: tehokas algoritmi Yule-Walker –yhtälöiden, ja siten ennustuskertoimien a(1),a(2),...,a(p) ratkaisemiseen

• Ideana on ratkaista symmetrinen Toeplitz-matriisiyhtälö

lohkoittain kasvattamalla vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla

Kertausta: Levinson-Durbin –rekursio5

yRx

Page 6: Kertausta:  lähde-suodin –malli

• Yhtälöryhmän ratkaisu: vektori, joka on summa alempiasteisesta ratkaisusta ja sen vakiolla painotetusta käännöksestä

• Esim. kun aste on 3:

ratkaistaan , , ja lopuksi uudet parametrit (1), .

Kertausta: Levinson-Durbin –rekursio6

2

3

2

2

23

2

2

00

00

1)1()2(

0

0)2()1(

1

E

q

k

q

E

aa

kaa

R

000

)3()2()1(

1 3

3

3

3

E

aaa

R

0123

1012

2101

3210

rrrrrrrrrrrrrrrr

R

Page 7: Kertausta:  lähde-suodin –malli

• Formantti on spektrissä havaittava vahvistunut osavärähtelyalue tai taustalla oleva siirtofunktio-ominaisuus (napa)

Kertausta: Formanttien estimointi7

Page 8: Kertausta:  lähde-suodin –malli

• Suoraviivainen tapa estimoida formantteja on jakaa LP-polynomi

tekijöihin

missä ovat LP-polynomin nollakohdat

Kertausta: Formanttien estimointi: tekijöihin jako8

pp zazazA ...1)( 1

1

),1)...(1)(1()( 112

11

zzzzzzzA p

pzzz ,...,, 21

Page 9: Kertausta:  lähde-suodin –malli

• Napapari taajuudella 1600 Hz (Fs = 16000 Hz), eli kulmataajuudella

Kertausta: Napaparin amplitudivaste: formantin taajuus9

2.021.0

Page 10: Kertausta:  lähde-suodin –malli

• Formantit voidaan poistaa (ratkaista glottisheräte) suodattamalla puhekehys LP-parametreista saadulla käänteissuotimella A(z)

• Autokorrelaatio voidaan nyt laskea glottisherätteestä X(z) puhekehyksen Y(z) sijaan

ÞFormanttien vaikutus pienenee

• Autokorrelaatiosekvenssistä etsitään maksimikohta todennäköistä perustaajuutta vastaavalta alueelta.

• Menetelmästä käytetään nimitystä SIFT (simple inverse filter tracking)

Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa: SIFT

10

A(z)Y(z) )()()( zAzYzX

Page 11: Kertausta:  lähde-suodin –malli

• SIFT-esisuodatettu autokorrelaatio:

Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa

11

Page 12: Kertausta:  lähde-suodin –malli

PLP,Perceptual

Linear Prediction

eli ihmisen kuuloon perustuva

lineaariprediktioanalyysi

Page 13: Kertausta:  lähde-suodin –malli

Miksi mikä PLP ?• PLP (Perceptual Linear Prediction) – parametrejä/featureita käytetään

ainakin puheentunnistuksessa ja puhujantunnistuksessa. Niiden on havaittu olevan luotettavampia kuin puhtaat LP-parametrit.

• PLP –menetelmässä signaalin spektriä muokataan ensin siten, että ihmiskuulon ominaisuudet tulevat huomioon otetuiksi. Sitten muokatulle signaalille tahdään tavallinen lineaariprediktioanalyysi.

Page 14: Kertausta:  lähde-suodin –malli

Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus

• Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset:

f0 2*f0 4*f0

• eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti:

log(f0) + log(f0) = log(2*f0) log(2*f0) + log(2*f0) = log(4*f0)

Page 15: Kertausta:  lähde-suodin –malli

Spektrogrammi pianon äänistä C1 – c5

Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.

f0

f0

f0

Page 16: Kertausta:  lähde-suodin –malli

Ihmiskuulon ominaisuuksia - kriittinen kaista

• Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.

Page 17: Kertausta:  lähde-suodin –malli

Äänenkorkeusaistimuksen mallinnus

• Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta:

1) Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia.

2) Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.

Page 18: Kertausta:  lähde-suodin –malli

Mel - taajuusasteikko

1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta.

eli 1000 Hz = 1000 Mel

)700

1(log2595 10Hz

Melff

Page 19: Kertausta:  lähde-suodin –malli

Bark-taajuusasteikko

2

7500arctan5.3

)00076.0arctan(13

Hz

HzBark

f

ff

Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.

Page 20: Kertausta:  lähde-suodin –malli

Pianon äänistä C1 – c5

Mel-taajuuksinen spektrogrammi

Ja

Bark-taajuuksinenspektrogrammi

Page 21: Kertausta:  lähde-suodin –malli

Bark –asteikon käyttö• Yhden kriittisen kaistan ’äänimäärä’ saadaan:

, k=1…26

jossa on signaalin spektri, : on kaistanpäästösuodin, joka mallintaa kriittistä kaistaa k, on kaistanpäästö- suotimen alarajataajuus ja on kaistan- päästösuotimen ylärajataajuus.

• Spektrin pehmennys voidaan ajatella konvoluutiona spektrin ja kriittinen-kaista-suotimen välillä. Silloin kuitenkin vain osa konvoluutiofunktion arvoista valitaan Bark(k) –arvoiksi.

kH

kL

kHSkBark

)()()(

)(S )(kH

kH

kL

Page 22: Kertausta:  lähde-suodin –malli

Äänenkorkeusaistimuksen mallinnus PLP:ssä

• Perceptual Linear Prediction –analyysissä ihmisen epälineaarinen taajuusaistimus ja kriittisen kaistan integrointi mallinnetaan Bark –skaalan mukaisella suodinrivistöllä.

Page 23: Kertausta:  lähde-suodin –malli

Bark –skaalan mukainen suodinrivistö PLP:ssäBark –skaalan mukainen suodinrivistö saadaan aikaan, kun kriittistä kaistaa mallintava suodin

ja Bark-asteikon keskitaajuudet

konvoloidaan keskenään:

ja lopuksi siirretään suodinrivistö lineaariselle taajuusasteikolle

)6/sinh(600 Barkff

Page 24: Kertausta:  lähde-suodin –malli

Ihmiskuulon ominaisuuksia- äänekkyys eri äänenkorkeuksilla

• Ihmisen kuulo on herkimmillään taajuuksilla 500 – 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.

Page 25: Kertausta:  lähde-suodin –malli

Kuulon herkkyyden mallinnus eri taajuuksilla

• Kuulon herkkyysvaihtelua eri taajuuksilla voidaan mallintaa suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle.

• Esimerkiksi äänitasomittauksissa käytetään useimmiten A-suodinta ennen energian laskemista äänisignaalista.

Page 26: Kertausta:  lähde-suodin –malli

Kuulon herkkyyden mallinnus PLP:ssä

Suodinrivistön päästökaistojen vaimennukset skaalataan yllä olevan yhtälön määrittelemän suotimen mukaisiksi:

Page 27: Kertausta:  lähde-suodin –malli

Ihmiskuulon ominaisuuksia – äänenvoimakkuuden muutoksen havaitseminen

• Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti:

• Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desiBeleinä: .

• Myöhemmin kuitenkin herrat Fletcher ja Munson huomasivat, että keskitaajuuksilla (300 – 4000Hz) missä puhe pääosin sijaitsee, äänenvoimakkuden havainnnointi noudattaakin pikemminkin kuutiojuuri-funktiota:

Page 28: Kertausta:  lähde-suodin –malli

Äänenvoimakkuuden ilmaisu PLP:ssä

• PLP:ssä käytetään kuutiojuuri-muunnosta mallintamaan kuulon äänenvoimakkuusaistimusta:

3 )()( zHzSL

3 xL

Page 29: Kertausta:  lähde-suodin –malli

Spektrin kuulonmukainen käsittely PLP:ssä

3√()

3 )()()()( fHfHfPkP eql

f

ffkperceptual

kH

kL