Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

Preview:

DESCRIPTION

Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés. Takács György 2. előadás 2014. 02. 14. Tartalom. Az emberi beszéd alapelemei Beszédszervek, beszédszervek működése A beszédérzékelésben résztvevő szervek és működésük Beszéddel kapcsolatos alapfogalmak. - PowerPoint PPT Presentation

Citation preview

T.Gy. Beszedfelism es szint. 2014.02.14.

1

Beszédfelismerés és beszédszintézis

Emberi beszédkeltés és beszédérzékelés

Takács György

2. előadás

2014. 02. 14.

T.Gy. Beszedfelism es szint. 2014.02.14.

2

Tartalom

• Az emberi beszéd alapelemei

• Beszédszervek, beszédszervek működése

• A beszédérzékelésben résztvevő szervek és működésük

• Beszéddel kapcsolatos alapfogalmak

T.Gy. Beszedfelism es szint. 2014.02.14.

3

Nyelv és beszéd

• A nyelv az emberi kommunikáció és az emberi gondolkodás legfőbb eszköze

• A kommunikáció a társadalmi élet és a munkamegosztás alapvető feltétele

• A nyelv egy jelrendszer, amelynek elemeihez egy nyelvközösségen belül ugyanaz a jelentés tartozik

• A beszéd a nyelv elsődleges megnyilvánulása• A beszéd útján közvetíthető információ sebessége

15…20 bit/s értéket érhet el. (Webster, J.C.: Information in simple multidimensional speech messages. J.A. S. A. Vol. 33. pp. 940-944.)

T.Gy. Beszedfelism es szint. 2014.02.14.

4

Az emberi információ-feldolgozás egy általános modellje

Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000)

T.Gy. Beszedfelism es szint. 2014.02.14.

5

A természetes beszédlánc

T.Gy. Beszedfelism es szint. 2014.02.14.

6

Beszédhang• A legkisebb olyan egységek, amelyek sorozatával

egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük.

• A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes.

• A beszédhangok a nyelvre jellemzőek!• Egyes nyelvekben a hangmagasság hajlítása is

megkülönböztet beszédhangokat.• Az élő beszéd olyan leírása, amely a beszéd

hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA.

T.Gy. Beszedfelism es szint. 2014.02.14.

7

T.Gy. Beszedfelism es szint. 2014.02.14.

8

A beszédhangok folytonos és diszkrét természete

T.Gy. Beszedfelism es szint. 2014.02.14.

9

A beszéd szerkezete• A beszéd egymástól megkülönböztethető

elemek szervezett időbeni egymásutánisága – soros szerkezet.

• Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang.

• Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető.

• A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.

T.Gy. Beszedfelism es szint. 2014.02.14.

10

A fonéma

• Egy nyelv fonémakészlete elemek olyan minimális számosságú halmaza, amelyből minden szó jelentéshelyesen, de csak egyféleképpen állítható elő

• A fonémakészlet elemei a fonémák. • Az azonos fonémákat képviselő

beszédhangok az allofonok.

T.Gy. Beszedfelism es szint. 2014.02.14.

11

T.Gy. Beszedfelism es szint. 2014.02.14.

12

T.Gy. Beszedfelism es szint. 2014.02.14.

13

T.Gy. Beszedfelism es szint. 2014.02.14.

14

T.Gy. Beszedfelism es szint. 2014.02.14.

15

T.Gy. Beszedfelism es szint. 2014.02.14.

16

T.Gy. Beszedfelism es szint. 2014.02.14.

17

T.Gy. Beszedfelism es szint. 2014.02.14.

18

T.Gy. Beszedfelism es szint. 2014.02.14.

19

T.Gy. Beszedfelism es szint. 2014.02.14.

20

Oktatóprogram:

• Digitus……takacsgy/mnyba

T.Gy. Beszedfelism es szint. 2014.02.14.

21

T.Gy. Beszedfelism es szint. 2014.02.14.

22

T.Gy. Beszedfelism es szint. 2014.02.14.

23

T.Gy. Beszedfelism es szint. 2014.02.14.

24

T.Gy. Beszedfelism es szint. 2014.02.14.

25

T.Gy. Beszedfelism es szint. 2014.02.14.

26

T.Gy. Beszedfelism es szint. 2014.02.14.

27

T.Gy. Beszedfelism es szint. 2014.02.14.

28

T.Gy. Beszedfelism es szint. 2014.02.14.

29

T.Gy. Beszedfelism es szint. 2014.02.14.

30

T.Gy. Beszedfelism es szint. 2014.02.14.

31

T.Gy. Beszedfelism es szint. 2014.02.14.

32

A hallás frekvencia és szintfüggése

Szabad térben (süketszobában) mért görbeseregHelmholtz rezonátor Fülkagyló hatása

Létezik diffúz térben és fejhallgatóval mért görbesereg is!

Weber-Fechner:hangosságérzet

00

lg20lg10)(.p

p

I

IphonérzetH

Fletcher-Stevens:hangosság6,0

1

2

3,0

1

2)(

p

p

I

IsonHangosság

40dB+40dB=43dB

40 dB felett igaz csak!!!40phon=1son1son+1son=2son

T.Gy. Beszedfelism es szint. 2014.02.14.

33

phon, son, dB• Inger érzet

• W-F szerint : logaritmikus, százszoros intenzitású hangot hússzor hangosabbnak hallunk

• Fl-St szerint : hatványkitevős (0,3), százszoros intenzitású hangot négyszer hangosabbnak hallunk

• Kísérlet: 10 hang 500Hz-től 500 Hz-enként, 60 dB intenzitással szól, mekkora intenzitású 1 kHz-es hangot hallunk ugyanolyan erősnek?

• Eredmény: a 93 dB-est! W-F szerint: a 70 dB-est kellene ugyanolyan erősnek hallani!

• Milyen átszámítás a jó, hogy a 10 jelet 10-szer olyan hangosnak halljuk?

10

40

2

phon

son

60 phon=4 son, 10 x 4=40 son=93 dB

402lg

lg10

sonphon

T.Gy. Beszedfelism es szint. 2014.02.14.

34

A phon-son átszámítási görbe

(Tarnóczy Tamás)

T.Gy. Beszedfelism es szint. 2014.02.14.

35

A hallás kritikus sávjaiBizonyos feltételekkel a W-F törvény igaz! Bizonyos frekvenciasávokon belül az intenzitások összegződnek! Ezek a sávok a kritikus sávok.

Barkhausen tiszteletére „Bark”-ak nevezték el a sávokat, 24 db létezik.Sávszélességük változó, 400 Hz-ig 100 Hz, 1 kHz felett a frekvencialogaritmusával arányosan növekszik.

(Tarnóczy Tamás)

T.Gy. Beszedfelism es szint. 2014.02.14.

36

Hangelfedés a frekvencia tartományban

• Megszólaló színuszos hang, vagy keskenysávú zörej a hallásküszöb görbét módosítja, a jel frekvencia környezetében érzéketlenebb lesz hallásunk.

1) Nagyobb intenzitású elfedő jel szélesebb frekvenciasávban okoz elfedést

100 1000 10000

f(Hz)

p(dB)

20

40

6

0

80

100 1 k Hz

4,5 k Hz250 Hz

2) A fedőgörbe nem szimmetrikus, nagyobb frekvenciák felé szélesebbsávban hat (kórus: basszus, szoprán)A görbe alatti intenzitású hangokat nem halljuk!

A hangesemény dinamikusan változó fedőgörbét alakít ki, ami a görbealatt van energiában, azt nem kell átvinni! (Digitális jelek adatredukciója)

T.Gy. Beszedfelism es szint. 2014.02.14.

37

Hangelfedés az időtartományban

Utóelfedés: egy erős hang-inger után, míg az alaphártyarezgései lecsillapodnak, a kisebb intenzitású hang nemhallható!

Előelfedés: a korábban meg-Szólaló hangot egy későbbérkező erős hang elfed!Az idegpályákon az áramimpulzusok sebessége a kiváltó inger nagyságától függ?Az időbeli elfedés jelenségét szintén kihasználjuk a digitális jelek adatredukciójánál!

T.Gy. Beszedfelism es szint. 2014.02.14.

38

Két hang hangosságának összegeFigyelembe kell venni a kritikus sávokat és a hangelfedés jelenségét a

hang intenzitásának függvényében!Ha a két hang frekvenciában távol van egymástól, és nem túl nagy

intenzitású (elfedési görbének nincs szerepe), a son-ok összegződnek.Minél nagyobb energiájú a két hang, annál távolabb kell lenni egymástól

frekvenciában, pl. 90 dB esetén 10-12 kritikus sáv távolság szükséges!

Kritikus sávon belül az intenzitások összegződnek.Ha az egyik hang sokkal hangosabb, elfedi a másikat! (Nem szimmetrikus

az elfedés, mély-magas hang, nem mindegy, melyik az erősebb!

Digitális hang adatredukciója: pl. 32 frekvenciasávra bontva a jelet egyszerű összegzési és elfedési törvények érvényesek!

T.Gy. Beszedfelism es szint. 2014.02.14.

39

Dinamikus hallásküszöb kialakulása

0,1 0,2 0,5 1 2 5 10 f (kHz)

p(dB)

Abszolút hallásküszöb Eredő hallásküszöb

50

40

30

20

10

0

T.Gy. Beszedfelism es szint. 2014.02.14.

40

Hangesemény sávszélessége és a hangosság kapcsolata

• Kísérlet: 50 dB-es színuszjel hangossága 2 son

Tíz db. 40 dB-es színuszjel összhangossága 7,9 son

A két jel energiája azonos, de a nagyobb sávszélesség miatt hangosabbnak halljuk!

Rövid ideig tartó hang hangosságának fokozása:kissé torzítva a hangot, többspektrumvonal jelenik meg, az eredeti jelhez hozzáadva,a hangosság nagyobb lesz!(Exciter)

T.Gy. Beszedfelism es szint. 2014.02.14.

41

A hallás időállandói• Hallásunk több rezgőrendszer kapcsolata útján alakul ki

• Minden rezgőrendszer rendelkezik feléledési (berezgési) és lecsengési idővel (időállandóval, a végállapot 63 %-a)

• Mély hangokra 50 ms, 1000 Hz feletti hangokra 20 ms

• A teljes hangérzet kialakulásához kb. 200 ms szükséges, ez idő elteltével kapja meg az agy a teljes információ mennyiséget!

• A 200 ms „ablakozás” miatt a hangmagasság érzékelésünk nem pontos! (Megérthető a színuszjel, ill. a kapuzott színuszjel Fourier-transzformáltja alapján!) 1 tfx

- Egy 200 ms időtartamig észlelt színuszjelet 5 Hz pontossággal hallunk- Az 50 ms időállandó miatt több, különböző frekvenciájú mély hangot azonos magasságúnak érzünk!- A hangmagasság érzékelése függ az intenzitástól is!

Recommended