Speech Perception (Chinese)

语音感知 Speech Perception

语言心理学黄欢贾琳王瑜

15/3/2016

1 语音学的一般问题2

语音感知的分析语音感知的特点语音感知的认知模式

一、语音学的一般问题语音的产生

语音的声学特征音位及其区别特征

1. 语音是如何产生的？三大法宝动力区 --- 提供充足的空气，呼气音（除了吸气音）声源区 --- 声带与喉头，振动发声调音区 --- 口腔、鼻腔、咽腔

语音由肺部呼出的空气流，经气管、通过声带、口腔（鼻腔）而产生的。

2. 语音的声学特性音高指声音的高低，由发音体的震动频率（ Hz ）决定，即单位时间里的震动次数（正比）。声带活动的松紧程度不同，产生语音的频率也不一样。

音强指声音的强度，主要决定于声波的振幅。分贝（ dB ）。语音的强弱与发音的用力程度和气流量的大小成正比。音长即声音的长短，取决于发音体震动的时间，单位为秒或毫秒。（正比）一般情况下，元音的音长要比辅音长，不同的辅音音长也有差异。

音质指声音的特性或品质。取决于发音体的形式，与共鸣腔有关。

音位及其区别特征音位能够区别词的语音形式和意义的最小单位，如汉语拼音中 a 的主要音位变体有 [a] 、 [ɑ] 、 [ε] ，出现环境互补，不具有区别意义的作用。而汉语中的 b 和 p ，属于不同的音位。区别特征理论认为，不管是辅音还是元音，都可以按照语音的生理特性以及声学特性，分析成若干对最小的二元对立体。由于区别性特征由对立的二分性的特点：计算机的数据处理即二进制，利用计算机，对语音的识别及数据处理就更方便了。如 [t]10110000 [d]10111000

二语音的感知分析语音的感知依据

影响语音感知的因素

二、语音的感知分析

语音感知的依据

元音共振峰在较短时间周期保持者相同的频率，利用共振频率与其间的相互关系可以识别元音间的差别，即 F1 F2 F3 的相对关系此外，各元音的发音机制不同，也可以作为识别元音的依据。

共振峰：声带振动产生的声音由于共鸣腔的作用改变了语音，加强或衰减了某些陪音的强度，因而产生共振峰。分为 F1\F2\F3 。

二、语音的感知分析

语音感知的依据辅音

1. 塞音在共振峰的起始处发生了迅速的变化，虽然F2 过渡不稳定，幅值和方向发生了变化，但是（ [d] ） F2 的共振峰过渡的弯头指向1800Hz 。 [b] 轨迹点为 720Hz

2. 浊辅音与清塞音嗓音启动时间 (voice onset time VOT) 从唇部发音到声带开始振动时间差。浊塞音的启动时间很短，清塞音的嗓音启动时间一般为为 +0.03s 到 +0.15s

语音动态性感知语音的感知要受到上下文关系、重音和韵律、句法语义、语流的速度和质量、语音的相似性以及噪音背景等多种因素的影响。

隔离法，只涉及到孤立状态下的语音识别，那对于连续性的语音识别我们需要考虑哪些因素呢？

影响语音感知的因素语音规则对语音感知的影响Day 两耳分听技术，左耳呈现 banket,右耳呈现 lanket 。尽管语音刺激是分别呈现的（ 0.15s ），但被试把它感知为 blanket 。

影响语音感知的因素句法、语义的影响AG.Miller 、 G.Heise 、 W.Lichten 要求被试在不同噪音环境下识别词的语音（ A五个单词组成的句子 vs B 单个词的语音刺激），无论在那种噪音环境下，前者识别正确率高。Miller 等人进一步做了三种不同类型的句子语音识别（合乎句法的 / 不规则的/根本不符合句法的单词串）结果发现，不管噪音水平，合乎句法的句子语音识别率是最高的。

影响语音感知的因素句法、语义的影响 B. 语音复原效应： Warren(1970)1.The state governors met with their respective legislatures convening in the

capital city. 这句话中 legislatures 的 /s/ 以咳嗽声代替。结果是 1.被试报告听到了被切掉的音。 2. 然后告知有个音被切掉，要求猜测是哪个音时，几乎所有被试都不能成功指认出来。2.随后的研究证明，语境是产生语音复原现象的决定因素。 *隐蔽A. It was found that the *eel was on the axle ----wheel 发现 *eel 在车轴上B. It was found that the *eel was on the shoe-----heel 发现 *eel 在鞋上C. It was found that the *eel was on the orange----peel 发现 *eel 在橘子上D. It was found that the *eel was on the table----meal 发现 *eel 在桌子上发现产生的语音复原和随后的语境有关，根据句义不同，听辨结果也不同。

影响语音感知的因素句法、语义的影响C. 错误发音检测：Marslen-Wison 和 Welsh(1978) 将错误发音的听辨任务和追随任务结合起来，结果发现语音复原多发生在较高预测性的场合中，而错误复述则是和低情景预测性的场和相联系，同时语音复原比完全复述错误更为流畅。俩人另一个研究，考察目标音位与实际呈现音位在一个、两个、三个特征上不同，研究语音复原的相对比例。发现一个（语音复原 74% ），三个（ 24% ）。可见在语音感知过程对输入的语音的分析和语义句法制约因素的运用是结合在一起的，呈现出交互作用。

影响语音感知的因素语流速度及其特性 1.切音手段—切分语流，当呈现由嘶嘶声、元音等构成的声音 .当速度快于 1.5个音段，人们无法识别其顺序；但是对于语音，正常的语流速度最快达到 50个音段，人们依然可以识别；2. 语流中的分段与实际音段间没有严格的意义对应关系。如 writer 和 rider(t 和 d 是闪音，无差别；区别在 [ai] 是长元音还是短元音 )；3. 语音信息是并行传递的，某一音位的发音要视前后毗邻的音位而定。如 bill , ball, able ，这种并行传递现象增加了感知的困难，同时也提高了传递的效率。可见语流速度及其特性对语音感知存在着不同程度的影响。

“ 所见即所闻”？实验验证McGurk 和 MacDonald(1976,1978) 发现，听觉（双唇音 [ba] ）和视觉（ [ga] ）信息相冲突时，感知者会同时使用这两方面的信息源以获得稳定的感知，听者报告说是 [da] （是齿龈的阻塞保持住了两个音的一些声学特性）；随后的研究中，俩人发现，发音位置（尤其是唇部）主要通过眼睛提供线索，而发音方式更多通过耳朵提供线索。可见听者感知过程中需要利用听觉和视觉两种模式的发音信息。

语音感知的分析语音感知的特点言语感知的认知模式

三语音感知的特点

语音感知的范畴性

语言经验对语音范畴性感知的影响

知觉训练对语音范畴性感知的影响

1 语音感知的范畴性

通常我们在感知世界上的客体时，能够感知到位于刺激连续体上的一系列细微的量的变化。比如，颜色。这表明颜色知觉似乎带有某种连续性的特点。语音知觉是否也有连续性知觉的特点呢？答案一般是否定的。（彭聃龄、谭力海， 1991 ）

语音知觉是一种非连续性的、具有离散特点的范畴性知觉 (Categorical perception) 。 (Liberman, Cooper, Shankweiler, & Studdert - Kennedy, 1967) 语音刺激被知觉为数量有限的范畴，人们对同一范畴内的语音差别难以区分，而对范畴间的差异则非常敏感。如果我们以质与量的观点来分析，连续性知觉既有质的变化，也有量的变化，而范畴性知觉只有质的变化，而无量的变化。（彭聃龄、谭力海， 1991 ）

婴儿的语音感知（ Jusczyk,1995 ）

改变 VOT ，但仍和 /b/ 属于同一范畴。吸吮速率没有变化改变 VOT ，使 /b/ 变成 /p/ 音。吸吮速率加快

给 1个月大的婴儿听人工合成的 /b/ 音，一段时间后，婴儿对此厌倦，吸吮速率下降。接下来，用两种方式改变这个音的 VOT （ voice onset time ）。

婴儿的语音感知研究发现， 6个月大的婴儿能够听辨出所有语言的所有语音。但 6个月以后，婴儿听辨非母语语音的能力开始下降，直至无法区分出非母语中的语音范畴。与此同时，婴儿对母语中起区别意义作用的语音对立对的感知能力逐步增强，能够更好地区分母语中起到区别意义作用的语音范畴。这是因为婴儿语音听辨能力的发展受语言经验的影响。儿童在后来的生活中主要接触母语，很少有机会再听到非母语的语音。（江新， 2007 ）在大量母语经验的作用下 ,

婴儿最初的普遍性语音感知能力逐步转变为对母语语音的特异性感知。

婴儿的语音感知

Werker 等（ 1984； 1994； 1995 ）：ba-da ki-qi da-ta

English Salish Hindi

英语婴儿区分 da-ta ：6-8个月—— 95%

8-10个月—— 70%

10-12个月—— 20%

1 语音感知的范畴性王士元（ 2011 ）在《语言、演化与大脑》中写到：从听觉上面看来，一开始的时候，因为这婴儿不知道他将来会说什么语言，所以什么不同的语音成分他都听得见，慢慢地，他就开始注意母语里面一些特有的性质。然后慢慢地，别的语言里面的东西，他就听不见了。很可能美国小孩很小的时候，比如半岁的时候，听 mā má mǎ mà

没问题，可以听得出差别来。可是等到他十个月、十一个月大的时候，就听不出来了，因为慢慢地他发觉，这个在他的母语里头没有什么用，所以他也就慢慢地听不出声调差别了。

婴儿的语音感知 Kuhl, Conboy, Padden, Nelson, & Pruitt （ 2005 ）的研究发现 , 在语音感知发展的初期 , 婴儿如果在母语语音的区分方面表现较好 , 那么后来的语言能力的发展速度也较快 ,

婴儿如果在非母语语音区分上表现较好 , 则预示着之后的语言能力发展较慢。正是由于一些语音辨别能力丧失，另一些语音辨别能力获得，才使儿童语音辨别能力的发展更接近于其所接触的语言系统，并为将来的语言发展和社会交往奠定基础。（江新， 2007 ）

语音范畴性研究的经典范式（ 1 ）辨认测验 (identification) ：要求受试者说出每个单独出现的刺激声的音位名称。（ 2 ）区分测验 (discrimination) ：被试判断听到的两个语音刺激是否属于同一范畴。对一组刺激声系列，这两种测验分别得刺激声的辨认函数和区分函数。

人工合成一个自 /b/ 到 /p/ 的语音连续体 , 并将这个连续体按照 VOT 的长度平均分成 8 个语音刺激。

1 语音知觉的范畴性

辨认为 /b/ 的百分比区分正确率

个体对语音的感知与语音的物理边界并不一致。从 [b] 到 [p] 的两个语音刺激之间 , 在物理声学上的差异完全是一种量的连续变化。个体在感知这一声学连续体时 , 并不会在刺激从 [ba] 到 [pa] 的变化过程中觉得声音听起来越来越像[pa] ，而是在这一连续维度的某个点上 , 突然将刺激感知为 [pa] 而不是 [ba] ，当刺激连续变化时 , 倾听者对刺激的感知却是非连续的 (Miller, 2002) 。

人们常有这样的体验，在学习一门外语时，尽管阅读技能相当娴熟，但听起来感到很吃力。这有各种各样的原因，其中一个原因就是已获得的语言经验对语音的范畴性知觉产生了一定的影响。

2 语言经验对语音范畴性感知的影响

二语语音习得认知模型：感知同化模型（ PAM ： Perceptual Assimilation Model ）言语学习模型（ SLM ： Speech Learning Model ）母语磁极模型（ NLM ： Native language Magnet Model ）自动选择感知模型（ ASP ： Automatic Selective Perception Model ）

感知同化模型（ Best 等， 1988； 1991； 1995 ）

是 Best （ 1988 ）在研究英语母语者听辨非洲祖鲁语碰击音（ click ）的过程中提出的。PAM 的主要观点是：当听到某个二语的音段时，听音人会把它与母语中发音最为相似的音位范畴进行类比，会产生以下几种类比模式。若二语中的两个音不能在母语音位系统的背景里形成某种形式的对立（ contrast ），那么它们就很难被区分及习得。TC型（ Two Categories ）SC型（ Single Category ）CG型（ Category Goodness ）NA型（ Non-Assimilable ）UC型（ Uncategorizable vs. Categorizable ）UU型（ Uncategorizable Uncategorizable ）

感知同化模型（ Best 等， 1988； 1991； 1995 ）TC型（ Two Categories ）：将非母语中的两个音分别纳入到母语的两个音位范畴里；听音人对这类非母语语音的感知很容易。SC型（ Single Category ）：将非母语中的两个音纳入到母语的一个音位里；听音人对这类非母语语音的区分能力较差。CG型（ Category Goodness ）：将非母语的两个范畴听成母语中的一个范畴，但是认为两个非母语范畴与母语中的这个范畴的相似程度不同，因此能够对非母语的两个范畴进行一定程度的区分，不过区分的正确率不如 TC型。NA型（ Non-Assimilable ） : 非母语的两个音处于话语感知经验之外，被感知为非言语声。例如，祖鲁语里的那些碰击音（ click ）很难被英语母语者感知为言语声。国内运用 PAM 理论来进行汉语二语语音习得实验研究：王韫佳（ 2001 ）对韩国日本学生普通话高元音感知情况的考察梅丽（ 2011 ）对泰国学生汉语塞擦音的感知研究

言语学习模型（ Flege ， 1981； 1987； 1995 ） Flege （ 1981 ）在对英语母语者学习法语元音 [y] 、 [u] 的研究中，他发现他们所发的 [y] 的第二共振峰（ F2 ）非常接近法语母语者，而 [u] 的 F2跟法语母语者相差非常大；也就是说，所谓的新音素普遍习得较好，而对相似的因素却习得较差。与母语相似的二语音素：学习者会将其同化为母语音位，习得效果较差；初始阶段较易，但会发生僵化现象，有 L1 口音。母语里不存在的新音素：学习者在母语音位中找不到相似的音系范畴，但只要有充分的输入，就可以建立起新的范畴，习得效果较好。初始阶段较难，但最终准确。

母语磁极模型（ Kuhl ， 1991； 1992 ）

这一模型假设大脑的感知空间由以原型为中心对外部语音发挥磁极效应。如果所输入外部语音的声学参数和范畴原型一致，该外部语音就被拉到原型的周围。如果非母语音位在实际声学空间的分布上越接近于母语某个音位声学分布的中心，该母语音位就越能发挥磁极效应而将非母语语音拉到自己的范畴里，从而使听者将它感知为母语范畴的音位变体。反之，如果新音位与母语音位原型相差很大，母语原型就无法发挥磁极效应，不能将它拉到自己的周围，听着就会认为该语音是一个独立的新音位。

自动选择感知模型（ Strange & Shafer ， 2008； Strange ， 2011 ）

根据 ASP ，语音感知是一个有目的的、选择信息的活动。人们对母语语音和二语语音感知的区别在于自动化（ automatic ）选择和注意性处理（ attentional processing ）之间的不同。而这两种处理方式可以看做是一个连续统的两端。即使在不太理想的听觉条件下，或是听音人在关注其他的语言层级、抑或是在完成其他任务时，他们对母语语音对立之间的区别都是迅速而强烈的；相反，第二语言学习者必须用更多的注意力，从话语中提取足够的信息，以便将其母语中不存在的语音对立区别开来。

长期以来，对外汉语的语音教学仍然以讲解和模仿等传统教学手段为主，这些方法在提高学习者汉语语音范畴化知觉能力方面作用并不明显。（张林军， 2010 ）上世纪 90年代以来，国外的一些研究者开始尝试采用实验室训练方法来提高学习者的第二语言语音感知能力。这种训练方法被称作“知觉训练法”（ perceptual training ）。高变异语音训练法（ high variability phonetic training ）知觉衰减训练法（ perceptual fading training ）视听知觉训练法（ audiovisual perceptual training ）适应性训练法（ adaptive training ）原型训练法（ prototype training ）

3 知觉训练对语音范畴性感知的影响

高变异语音训练法（ Logan 等， 1991； Lively 等， 1993 ）所谓“高变异”是指训练材料应该足够丰富 ,包含自然语料的各种变化 , 比如不同的发音人、不同的音节结构、被训练的音位 ( 辅音、元音或者声调 )应该处于词语的不同位置等。当学习者接受多发音人的训练材料，他们就会将大量的样例存储在记忆中，这些样例有助于他们形成抽象的稳定的原型，形成语音范畴。我们以 Wang 等 (1999； 2003) 的研究为例 , 对该方法做一下具体说明。Wang 等的研究目的在于探讨知觉训练对提高美国学习者感知汉语声调能力的作用。研究中使用了“高变异”的训练材料 :180个 (每个声调各 45个 ) 汉语单音节词 ,包括了汉语所有可能的音节结构 ( 元音、辅音 + 元音、辅音 + 元音 + 鼻音等 ),并由 4 位不同的发音人朗读。 4个声调分成若干个“声调对” ( 比如一声和二声、一声和四声等 ) 进行训练 , 结果发现 , 和控制组相比 ,实验组被试感知汉语声调的能力有了很大的提高。

知觉衰减训练法 (Iverson 等， 2005 ）

即通过语音合成技术凸显声调感知的关键线索差异，并通过训练使学习者充分注意到这种差异，然后逐步降低这些声调感知线索的差异，从而使学习者更多地依赖关键线索感知汉语声调。（张林军， 2010 ）

语音感知的分析语音感知的特点言语感知的认知模式

四语音感知的认知模式

语音感知中的问题及相关解释语音感知的神经基础

语音感知的理论和模型3

语音感知中的问题及相关解释1

产出感知—— 语音信号的特性 —— 处理的对策

• 整体性（ Linearity ）切分（ segmentation ）• 高变异性（ Lack of Invariance ）语境—— 协同发音（ Co-articulation ）环境条件说话者

产出——语音信号的特性

• 音段成分• 超音段成分 ——韵律因素（语速、重音、语调）• 语音规则• 范畴化知觉• 句法和语义因素• 视觉信号

感知——处理的对策

• 整体性（ Linearity ）切分（ segmentation ）• 高变异性（ Lack of Invariance ）语境—— 协同发音（ Co-articulation ）环境条件说话者

自上而下的加工——概念驱动

自下而上的加工——数据驱动

概念系统

心理词典

听觉词形激活语音输入编码听觉分析口头单词

音段成分超音段成分视觉信号

感知——处理的对策

语音规则范畴化知觉句法和语义因素

语音感知中的问题及相关解释

语音感知的神经基础

言语感知的理论和模型3

语音感知的神经基础2

• Broca 区 Paul Broca （法国）； 1961 年，卒中，可理解语言，但不能讲话；左侧额叶下部；特殊脑区的损伤导致特定的语言功能障碍。• Wernicke 区 Carl Wernicke （德国） 1876年，卒中，可以讲话，但没有意义，不能理解书面语和口语；颞叶和顶叶的交界处；

• 脑损伤研究 Wernicke 失语症（ Wernicke’ s Aphasia ）颞上回后部的 1/3: 缘上回和角回的颞顶联合区

纯词聋（ Pure Word Deafness ）颞上皮质

PET 和 fMRI 研究一般的听觉回路：环绕颞横回并延伸至颞上回的听觉联合皮质。

语音感知模块：？

Jeffrey Binder, et al (2000)• fMRI ，比较不同声音刺激 :没有系统性频率的普通噪音频率在 50—2400HZ 的调频音调言语声音—颠倒的语音、假词、真词

• 与音调相比，对语音更敏感的区域偏向腹外侧，位于颞上沟内或附近；• 这些区域不涉及词汇 - 语义特征的加工（更偏左半球）

外侧切片内侧切片

双侧颞上回：调频音调 > 普通噪音言语声音 > 调频音调 > 普通噪音腹外侧：言语声音 > 调频音调

语音感知中的问题及相关解释语音感知的神经基础

言语感知模型3 a) 肌动论模型 Motor Theory Model

b) 踪迹模型 TRACE Model

c) 背景模型 Cohort Model

d) 样例理论 Exemplar Theory

e) 神经计算模型 Neurocomputational Model

f) 双通路模型 Dual Stream Model

肌动论模型 Motor Theory Model

• Liberman et al. （ 1957 ； 1967 ； 1985 ） in the Haskins Laboratories 。• “感知是与生成有关”，大脑中存在着独立于一般声音感知的语音模块，同时作用于语音感知和产生。听者借助于内隐的发音知识，也就是关于语音是怎样产生的知识，来进行语音听辨，因此有范畴化加工。从声学信号到有意的语音姿势（嘴唇张成圆形，抬高下颌等肌肉活动）的转化是通过特定的语音模块自动而迅速完成的。• Catford ,Jusczyk , Klatt, Liberman, et al. （ 1991 ）发现静默发音的方法有助于学生识别新的语音，因为这样可以使初学者更多地注意细微的肌动过程，否则他们更为留意听觉感知方面的信息。 McGurk 和 MacDonald(1976,1978)

• Pulvermuller F, et al. (2006)fMRI, 被试进行唇舌运动，发音（ p, t ），听音（ p, t ）时大脑额叶的激活情况

存在问题• 非语言的声音感知中也存在范畴化的现象，例如音乐；

• 丝毛鼠经过训练之后，也能够对带有 /t/ 和 /d/ 的音节进行范畴化感知。 (Kuhl & Miller, 1975)

踪迹模型 TRACE Model

• McClelland & Elman （ 1986; 1988 ）• 整合语音感知中的所有信息来进行识别；语言感知有三个加工水平，它们在语音感知的过程中同时活动并相互其作用； “口语输入留下的激活形式是在三种加工水平中每一个水平上对输入信息进行分析的踪迹”。• Mann & Repp （ 1981 ） Foolish capes Christmas capes

语音感知自上而下进行加工的证据，单词水平的激活对音位水平的激活有影响作用。区别性特征

音位

单词激活性联结抑制性联结

参考文献

（美）葛詹尼加等（著），周晓林，高定国等（译）（ 2011 ），《认知神经科学》，北京：中国轻工业出版社。

（美）卡罗尔（著），缪小春（译）（ 2007 ）《语言心理学（第四版）》，上海：华东师范大学出版社。彭聃龄，谭力海（ 1991 ）《语言心理学》，北京：北京师范大学出版社。Trevor A. Harley (2014) The Psychology of Language: From Data to Theory. New York: Psychology

Press.

THANKS!

语音感知的分析语音感知的特点语音感知的认知模式

Discussion

Speech Perception (Chinese)

Education

Prenatal Maternal Speech Influences Newborns’ Perception ...€¦ · Prenatal Maternal Speech Influences Newborns’ Perception of Speech ... sounds causes some property of the

The Perception of Speech

Speech Perception [ ] recognize speech wreck a nice beach ?

How visual cues to speech rate influence speech perception

Production and Perception of Pauses in Speech · Production and Perception of Pauses in Speech Kristina Lundholm Fors Production and Perception of Pauses in Speech Kristina Lundholm

Speaker normalization in speech perception

Speech perception Relating features of hearing to the perception of speech

Linking speech perception and neurophysiology: speech ...odedghitza.github.io/downloads/peer-reviewed articles/Ghitza_11.pdf · Linking speech perception and neurophysiology: speech

NEUROBIOLOGY OF SPEECH PERCEPTION

SPEECH PERCEPTION IN VIRTUAL ENVIRONMENTS

Cued Speech Enhances Speech-in-Noise Perception

Bringing back the voice: on the auditory objects of speech ... · Keywords Speech perception · Voice perception · Auditory objects 1 Introduction Speech perception is one of the

1996 1997 Speech Perception

Left premotor cortex and allophonic speech perception in ... · Left premotor cortex and allophonic speech perception in dyslexia: a PET study. Premotor cortex and speech perception

The two different parts of speech Speech Production Speech Perception

SPEECH PERCEPTION - Computer Science

SPEECH PERCEPTION - Indiana University

Reading & Speech Perception

Perception of the Speech Code Revisited: Speech Is

Speech Analysis Synthesis and Perception