对连续语音中语言层级结构的追踪



文献:Ding, N., Melloni, L., Zhang, H., Tian, X., & Poeppel, D. (2016). Cortical tracking of hierarchical linguistic structures in connected speech. Nature neuroscience19(1), 158-164. https://doi.org/10.1038/nn.4186

1. 背景 ¶

2. 方法 ¶

研究共招募了34名普通话母语者(19-36岁,平均年龄25岁,13名男性,接受过高等教育)和13名美式英语母语者(22-46岁,平均年龄26岁,6名男性,都不懂汉语),右利手。其中普通话母语者参加了5个实验,英语母语者参加了2个实验。每个实验包括8个listener(AMS实验5个),每个受试最多参与2个实验。每个实验的数量是根据之前连续语音神经追踪的MEG实验选择的。

所有音节均使用 Neospeech 合成器 (http://www.neospeech.com/, the male voice, Liang)独立合成,合成的音节持续时间范围在75–354 ms,通过截断或填充静音调整为250ms,每个音节的最后 25 ms由余弦窗口平滑。

四音节句子

共50个N+V四音节句子,双音节N由单音节形容词+单音节名词组成,双音节V由单音节动词+单音节名词组成。一个trial中由10个这样的句子无间隔的组成(下图a),异常trial与正常trial相同,只是交换了两个句子中的动词短语,形成了两个主谓不相容的无意义句子。

四音节动词短语

包括两种类型的动词短语,一种是50个单音节动词+加三音节名词;一种是50个双音节动词+双音节名词。正常trial中10个相同类型的句子无间隔连接(下图b,c),异常trial中两个动词交换位置以形成不兼容的动+名组合。

图1

双音节短语

一个正常trial中20个双音节动词(或名词)短语排列(上图d),异常trial中其中一个双音节短语换成两个不能组合成短语的随机音节。

随机音节序列

基于四音节句子构建,从所有句子中分别随机挑选第一个、第二个、第三个和第四个音节,以随机组成一个新的四音节序列。这样,如果句子中不同位置的音节之间存在任何一致的声学差异,这些声学差异将保留在随机音节序列中。正常trial中40个音节无间隔连接,异常trial中连续的音节4个音节替换成一个成语。

倒放4个音节序列

正常trial中播放10个四音节的句子,但是每个音节都倒放,异常trial中随机四个连续的音节替换成没有倒放的四个随机音节。

四音节成语

50个四音节成语,其中前两个音节组成一个名词短语,后两个音节组成动词短语。正常trial中10个成语无间隔连接,异常trial中交换了两个成语中的名词短语,从而创建了两个不存在且语义上无意义的成语。

长度不等的句子

句子长度为4到8音节,每种句子长度有40个句子,共200个句子,200个句子都混在一起。在正常trial中,10个不同的句子无间隔排列,在异常trial中其中一个句子换成一个句法正常,语义异常的句子。

长度不等的NP

所有的句子由名词短语+动词短语组成,其中一半句子是三音节的名次按短语,一半是四音节的名词短语,其中三音节名词短语+四音节动词短语,而四音节名词短语+三音节动词短语,这些句子混在一起。正常trial中无间隔依次播放10个不同的句子,在异常trial中,其中一个句子替换为句法结构1相同,但语义异常的句子。

AMS

选择了5套AMS(artificial markovian sentence),每个句子由C1,C2,C3组成,每个成分都从机会均等候选音节中挑选,因此P(C1) = P(C2) = P(C3) = P(C2|C1) = P(C3|C2) = P(C1|C3) = 1/3。音节以3.33Hz的速率播放,而句子以1.11Hz的速率播放。为了确保 AMS 的神经编码不会被一组特定音节的声学特性所混淆,创建了五组 AMS,所有的AMS都不具备汉语意义。

所有的英语材料由 MacinTalk Synthesizer (male voice Alex, in Mac OS X 10.7.5)合成。

四音节句子

60个四音节句子,每个音节都是一个单音节的词,句法结构为:形容词/代词+名词+动词+名词,每个音节都是独立合成,并把所有合成得音节通过末尾填充静音或阶段调整为320ms,每个音节的结束以25ms的余弦窗口平滑。正常trial中12个句子无间隔连接,在异常同trial中,随意位置三个连续词替换成三个随意的词,导致句子不合语法。

打乱的序列

打乱的序列被构建为一个无法理解的声音序列,它保留了句子序列的声学特性。四音节英语句子中的所有音节被分割成五个重叠的片段,每个片段的持续时间为 72 ms,并与相邻片段重叠 10 ms,除了第一个片段的开始和最后一个片段的偏移,每个片段的前 10 ms 和最后 10 ms 由线性斜坡平滑。打乱的序列是通过打乱四音节句子中同一位置的片段构建的。在正常trial中,依次播放 12 个不同的打乱句子,结果trial的持续时间与四音节英语句子的trial相同,异常trial中四个连续打乱的音节替换为四个随机选择的不构成句子的英语单词。

Markovian句

为了模拟更自然的英语,基于等时多音节“声学块”合成了英语句子,每个句子被分成三个持续时间大致相等的声学块。每个声学块由 1-2 个单音节或双音节词组成,并作为一个整体合成,独立于相邻的声学块,所有合成的声学快调成350ms。

共7个实验,实验1-4为普通话母语者听汉语材料,实验5是英语母语者听汉语材料,实验6是英语母语者听英语材料,是实验7是普通话母语者听AMS。

除了实验5,其他实验都要求受试监测异常trial,在受试按键反应后的800-1400ms之后开始下一个trial,在实验5中要求受试执行一个音节计数任务。

实验一

四音节句子,四音节成语,随机音节序列,倒放音节序列在不同的block中呈现,block的顺序在受试之间平衡。每个block20个正常trial和10个异常trial混合岁呈现。

实验二

四音节句子,第一种四音节动词短语,第二种动词短语,二音节名词短语,二音节动词短语在不同的block呈现,每个block20个正常trial个5个异常trial随机混合呈现。

实验三

长度不同的不同句法结构的句子以混合顺序呈现,每25个trial休息,总计80个正常trial和20个异常trial。

实验四

不同长度的NP句子呈现给被试,27个正常trial和7个异常trial,block的顺序和另外3个不同语言的block之间平衡。

每个声学块由 1-2 个单音节或双音节词组成,并作为一个整体合成,独立于相邻的声学块。

实验五

四音节句子,四音节成语,随机的音节序列和倒放的音节序列混合以随机顺序呈现,每种有20个正常trial,每个trial的其中一半最后一个音节序列删除,一半最后两个音节删除。指导被试以以循环方式计算每个trial中的音节数: 1, 2, 3, 4, 1, 2, 3, 4, 1, 2 … 最后一个计数只能是2或3,受试通过按键报告是2还是3。

实验六

四音节英语句,打乱序列,恒定预测性的Markovian句子和可预测性Markovian句子分别在不同的block中呈现,block的顺序在受试之间平衡。每个block中22个正常trial和8个异常trial混合随机呈现。

实验七

实验分为两部分,第一部分呈现10个trial(每个AMS中选2个体trial),每个trial中最后一个trial被删除的概率为50%,告知被试刺激是随机的音节序列,然后让被试以循环的方式计数:1, 2, 1, 2, 1, 2 …,然后通过按键反应报告每个trial最后一个音节数是1还是2。第一部分结束之后告知受试AMS的一般结构和例子是根据真实的中文句子给出的。实验第二部分,受试分别学习5套AMS。对于每组 AMS,在训练期间,受试依次听取 AMS 组中的 20 个句子,句子之间插入 300 ms的间隔以促进学习,然后,受试试听了来自同一个 AMS 集合的两个trial,他们在第一部分的时候也听到过这些句子。并要求他们做相同的循环计数任务,但是告知他们如果最后一个句子不完整计数为1,如果最后一个句子完整的话计数为2,在两个trial试听结束时,受试要报告 AMS 的语法,即哪三个音节可能是句子的第一个音节,哪三个音节可能是中间音节,哪三个音节可能是最后一个音节。

使用157通道的MEG在磁屏蔽室,采样率1000Hz,200Hz的在线低通滤波和60Hz的凹陷滤波,以及0.5Hz的离线高通滤波(延时补偿)。

只把正常trial纳入分析 频域分析 分析实验1,2,5,6中对语言层级结构的追踪情况的频域,窗口为声音开始呈现后的2s到声音呈现结束,使用傅里叶转换(DFT)将单次trial的反应转换到频域。

从五个癫痫患者处收集ECoG信息,3个右利手,2个左利手,都是英语母语者,语言中枢都位于左半球,这5个病人执行与健康人相同的任务。

3. 结果 ¶

在频域中分析脑磁图反应,并使用最佳空间滤波器提取每个频段中的反应功率,反应谱分别在音节、短语和句子呈现的速率处呈现峰值(图1c),假设短语和句子的节奏不是由相应频率的声音波动来传达的(图1b),短语和句子速率的皮层反应一定是内部在线结构构建的过程。源定位的反应显示,3个峰值处的反应都是双侧可见的。句子速率下显示出左边比右边更强的反应,而短语和音节速率下都没有。

图3

图4

当刺激是保持汉语句子声学特性的随机音节序列时,只显示出对音节层级的追踪反应(2a);当刺激序列是两个音节组成的短语组合而成时,显示出对音节和短语速率的追踪反应(2b)。当刺激是单音节动词+三音节名词短语时,刺激只显示出1Hz的神经反应(2c)。

图5

图6

当不理解汉语的受试听汉语句子时,只显示出对音节的反应(2d),而当给英语母语者呈现英语句子材料时也显示出对语言层级结构的追踪(2e,f)。

给被试呈现了结构不同,长度不同的句子,因此没有频率标记,将长度相同的句子平均在时域中分析MEG,为了集中于句子反应,对神经反应进行了3.5Hz的低通滤波,结果在句子边界之后,脑磁图反应(RMS)迅速增加,并在整个句子期间持续变化(4a)。

图7

图8