语言理解过程中语音信息的预测:来自ERP表征相似性分析(RSA)和汉语成语的证据



Wei, W., Huang, Z., Feng, C., & Qu, Q. (2023). Predicting phonological information in language comprehension: evidence from ERP representational similarity analysis and Chinese idioms. Cerebral cortex (New York, N.Y. : 1991), bhad209. Advance online publication. https://doi.org/10.1093/cercor/bhad209

成语;ERP;语音预测;表征相似性分析(RSA);

在语言理解过程中,理解者是否能预测即将出现的单词的意义甚至语音形式?越来越多的证据表明,语义表征是可以预测的,但语音预测的证据不太清楚,而且证据大都来自对表音文字的研究。 本研究旨在运用ERP表征相似度分析(RSA)对汉语成语加工过程中语音信息的预测进行了探讨。利用汉语四字成语,通过改变成语对之间成语末部的音节,使成语对共用一个音节(within-pairs)或不共用一个音节(between-pairs)来改变语音的重叠性。我们量化了两组成语的神经活动模式之间的相似性。RSA结果显示,成语在within-pairs组的神经活动模式比between-pairs组的相似度更高,关键的是,这种相似性效应比语音相似性表征更先观察到,为预测加工支持下的(阅读中即将出现的)语音信息的预激活提供了证据。

预测是语言理解中的关键一环,也是一种基础的计算原则。(Kuperberg and Jaeger 2016).这一概念假定:在语言理解的过程中,人们可以在不同表征层面上进行预测,包括较高层面的句法或语义表征,也包括细致的语音表征。已有大量研究证实了语言理解中语义及句法表征的存在,但是语音表征的证据明显不足。本研究将EEG与RSA相结合,致力于提供语言理解语音预测神经证据。

词形的预激活已由眼动追踪的视觉-世界范式所证实,该范式涉及呈现口语句子和视觉场景,并在听到目标单词之前分析预测眼球运动。但是不同研究者通过该范式得到的结果有所不一。

关于语音预测的实证研究,DeLong et al. (2005)运用了a/an 范式,证实被试对于名词和前冠词的语音有一个预激活,后人对其重复,结果不一。可能与这一范式的局限性相关,目前没有来自a/an范式的一致证据证明语言理解中存在语音预测。

词形预测有被相关的N400效应所证实。Ito et al. (2016b) 设计如下实验:“The student is going to the library to borrow a…” (book,hook,page,sofa). 结果显示:与sofa相比,词形相似的hook和语义相似的page所诱发N400波幅都要小很多。研究者将其解释为对语义和词形的预激活,但是是否意味着真正的prediction,存在争议。

近期,刺激前的脑电反应成为了预测的直接证据,比如一些研究所报道的 negative potential shift。更为关键的是,预测电位的皮层来源反应了可预测刺激的具体感知和语义特征。与本研究特别相关的是语音信息的预测如何与预测电位相关的问题。Griesoni和Pulvermüller(2022)最近的一项调查揭示了这个问题,表明对即将到来的语音的预测,可以由频繁重复的语音刺激激发,从而激发类似的ERP成分。

另一类研究采用RSA(Kriegeskorte et al.2008)来研究刺激前的可预测性大脑活动。RSA 能够衡量在遇到目标词之前或之后神经活动模式的相似性,并假设项目之间的相似性会引起大脑活动模式的相似性。 后人对RSA的研究: Wang et al. (2018):RSA+MEG -> 高限制句中的词预测 ->预测相同单词时的神经活动模式比预测不同单词时更相似。 Hubbard and Federmeier (2021):RSA+EEG -> 比较限制句中句末两个词之间的的相似性模式 -> 支持句末词语义预测。 不足之处在于RSA集中研究语义表征,很少研究语音表征。本研究,则针对这一不足开展。

研究目的:ERP+RSA -> 汉语成语阅读中的语音预测 其中,RSA所基于的假设是:刺激的相似性结构可以影响刺激加工所引发的神经活动的相似性。基于此,研究者预计语音上相似的刺激将诱导神经活动的更大相似性。 通过分析刺激呈现前神经活动的相似性,可以研究在语音相似刺激呈现之前,这种与语音相似性相关的神经相似性增加是否明显,从而为语音预测提供证据。

研究材料:汉语成语(词序规整,结构规范) 本任务中,呈现了四字中文成语,首先显示前两个字,然后显示后两个字。音韵重叠的处理是在成语中的第三个字上进行的,有些成语在第三个字上具有相同的声音(即“within-pairs” ,而另一些成语则没有(“between-pairs” )。研究者量化了第三个字出现之前和之后神经活动模式的相似性。字之间的语音相似性应该引起更大的神经相似性,因此在呈现语音相似性之后,相对于between-pairs,within-pairs的大脑活动模式的相似性应该更大。如果理解者预测即将到来的单词的语音信息,研究者预计在语音重叠出现之前(即第三个字出现之前)会出现更大的相似性值,因为第三个字符中更大的语音相似性应该引起更大的神经相似性。

29名普通话母语者,视力正常,无语言障碍史。

100个四字成语(2+2=initial part+final part),平均完形填空概率为97%,为高度可预测成语。 分为10组 ,每组第3个字除声调外发音相同,如图A。 [图A] 首先介绍包括两个字符的成语初始部分,然后是包含两个字符的成语结尾部分。在成对内条件下,成语中的成语在成语结尾部分具有相同的音节。在成对之间条件下,成语之间没有语音重叠。数字表示每个音节的音调。

每组含45 within-pairs(9+8+7+……+1=45) ,共计 450 within-pairs。 成语的组间配对来自不同的组,形成 4500个 betweenpairs。

选择结构相同的20个成语,打乱其前后部分,形成20种不同的组合。被试需要判断这是否为一个成语。 实验120trials (100成语+20非成语组合),分为2blocks(60=50+10),呈现顺序随机。

本研究的重点是测量即将到来的成语第三个字的语音信息预激活所引起的神经活动,并检查对内和对间神经活动的相似性。因此,实验基于这样的假设,即对内字符中的第三个字在语音上应该比对间字更相似。为了评估这一假设,研究者使用声音形状代码计算了所有可能的第三字符对之间的语音相似性值(Chen 等人,2018 年;王等人,2020a)。如图B所示。 图B: 基于模型的第三个字符的语音相似性值显示在100×100对称相似矩阵中,其中10个字符共享一个音节声音。对内线的语音相似值(对角线周围的值)大于对间(远离对角线的值)。

与成对之间相比,第三个字符之间的平均语音相似性确实明显更高(第三个字符:0.93 vs. 0.26;t = 63.38,P < 0.001)。此外,我们旨在确定神经相似性的任何差异不是由于前两个字符(即习语的初始部分)之间的语音相似性。统计分析表明,其他三个字符的语音相似性在对内和对间是相等的(第一个字符:0.16 vs. 0.16;t < 1,P = 0.921;第二个字符:0.16 vs. 0.16;t < 1,P = 0.885;第四个字符:0.16 vs. 0.16;t < 1,P = 0.491)。

本研究的目的是关注成语中字符之间的语音相似性。刺激均经过被仔细选择,以尽量减少一对内项目之间的语义相似性,以确保观察到的更大的神经相似性对内与对间参考的影响影响语音相似性而不是语义相似性。重要的是要验证四个字符和整个习语之间的语义相似性对于对内和对内匹配是否匹配良好。为了量化语义相似性,使用了HowNet,一个在线数据库,用于计算汉语词典的概念间和属性间关系(Dong et al. 2010)。所有可能的对的语义相似性值都是通过Wu和Palmer(1994)通过基于路径的方法测量的。统计分析表明,对内与对间字符之间和整个习语之间的语义相似度值没有显着差异(第一至第四个字符:0.45 vs 0.43;0.44 vs 0.45;0.41 vs 0.41;0.43 vs 0.44;ts < 1.49,ps > 0.14;整个成语:0.28 vs 0.28;t < 1)。此外,我们从一组 15 名母语中文参与者那里收集了所有 450 对成语的语义评分分数,以及从 4500 对之间随机选择的 450 对成语(1 = “完全不相关”,7 = “密切相关”)。对内和对间的平均语义评分分别为2.09和1.99,对内和对间无差异(P > 0.07)。因此,刺激在词对内和词对之间在语义上非常匹配,语义相似性不太可能有助于观察到的效果。

为了评估对内和对间项目之间的拼写相似性,我们利用了 Soundshape Code(Chen 等人,2018 年;Wang 等人,2020b)。结果表明,成语首字之间的拼字相似度值在成对内和成对间没有显着差异(第一个字:0.30 vs. 0.30;t < 1,P = 0.878;第二个字:0.32 vs. 0.31; t = 1.45,P = 0.146)。如上所述,我们操纵了第三个字符之间的音系相似性,使得对内比对之间具有更高的音系相似性。尽管在刺激选择过程中注意尽量减少语音相关项目之间的拼写相似性,但组内第三个字符的拼写相似性略高于配对间(第三个字符:0.37 vs. 0.31;t = 6.35,P < 0.001) 。第四个字符之间的正字法相似性在对内和对之间进行匹配(第四个字符:0.28 与 0.29;t =−1.28,P = 0.200)。因此,我们在数据分析中控制了第三个字符的拼写相似性(详细信息参见结果部分)。

E-Prime软件。 参与者被告知,他们将在电脑屏幕上看到带有两个字符的惯用语首字母和随后带有两个字符的惯用语末字母。实验要求参与者尽可能快速准确地判断前后两部分是否为成语,当这两个部分不能构成成语时,按指定的键盘按钮。 在每次试验中,参与者都看到了一个注视点(300毫秒),一个空白屏幕(500毫秒),一个成语首字母显示(600毫秒),一个空白屏幕(500毫秒)和一个成语最终显示(600毫秒)。在试验之间插入1,000毫秒的间隔。参与者在实验试验之前接受了四项实践试验。实验任务持续了20分钟,整个实验持续了大约60分钟。

使用Neuroscan软件从64个电极记录脑电图信号,并使用弹性帽收集。垂直和水平眼电图分别通过左眼上方和下方以及左右外眦的电极捕获。使用左乳突电极作为参考,所有电极阻抗保持在5 kΩ以下。信号被放大并使用0.05至70 Hz之间的带通滤波器进行滤波,采样率为1,000 Hz。

使用EEGLAB v2021.1(斯沃茨计算神经科学中心:http://www.sccn.ucsd. edu/eeglab)对EEG数据进行了预处理。数据被重新参考到两个乳突的平均值,并向下采样至250 Hz。使用0.1 Hz的高通截止点和30 Hz的低通截止点来过滤数据。不使用离线高通滤波器的附加分析产生了相同的结果模式,这表明该范围内的高通滤波器设置不会在相似性分析中产生失真(另见Wang等人,2018年;哈伯德和费德迈尔 2021)。使用infomax算法(Bell和Sejnowski 1995)进行独立成分分析(ICA),以消除眨眼和运动,肌肉和不良信道成分。当眼部成分在垂直或水平眼电极上显示出较大的活动性,以及当它们在眼睛下方或周围显示出相反的极性时,就可以确定眼部成分。当肌肉的地形非常集中时,肌肉成分被确定,包括帽边缘的一组局部电极,在高频(> 20 Hz)下具有高功率。不良信道组件的焦点拓扑仅限于不良信道(Chaumon 等人,2015)。平均而言,10.6% 的 IC(62 个组件中的 6.5 个)从每个参与者的数据集中被删除。振幅超过±120μV的历元被拒绝,约占所有历元的2.9%。其余时期平均每位参与者进行 117 次试验。 EEG 被分为 2,000 毫秒的时期,其中包括作为基线的 300 毫秒刺激前显示、600 毫秒惯用语初始显示、500 毫秒间隔和 600 毫秒惯用语最终显示。对历元进行基线校正,并从剩余 ERP 中减去基线期间的平均信号。

对于 RSA 分析,排除了不一致组合的试验,并且仅纳入了习语试验进行 RSA 分析,以排除不一致组合对神经活动相似性的影响。 Spatial RSA 专注于每个时间点头皮上神经活动的相似性,从而可以回答相似性效应的时间窗口。跨所有信道(62 个电极)计算每个项目的特定项目脑电图矢量,它代表神经活动的模式。对于每个个体参与者,我们量化了所有可能对之间的神经活动模式的相似程度,包括组内(即每组中 10 个习语有 45 个组内对,因此总共 450 个组内对)和组间(即总共 4,500 个对之间),通过计算项目神经活动模式之间的 Pearson r 值。对成对相关性 r 值进行平均,以得出每个参与者在每个时间点的组内和组间的平均相似性值。为了可视化两种条件之间的差异,我们对所有参与者在每个连续时间点对内和对间的相似性值进行了平均。这产生了每个条件随着时间的推移的总平均相似度(图1C)。

(C)空间RSA结果。图中显示了习语开始后,对内(蓝线)和对间(红线)相似性值的时间序列。idiom-initial(1,100到500 ms)、interval(500到0 ms)和idiom-final (0.600 ms)的显示在x轴上用灰框标记。在语音重叠开始前200毫秒左右,空间RSA开始显示出更多的相似性。柱状图显示了配对内(蓝柱)和配对间(红柱)的平均空间相似性值在200到0 ms之间的差异。

最近的几项研究报告了预测潜力的诱发,出现在可预测刺激开始前数十到几百毫秒内(Grisoni 等人,2017 年,2019 年;莱昂-卡布雷拉等人,2019 年。基于这些发现,为了研究刺激预测大脑活动,本研究的重点是成语最终发作前的最后200毫秒(-200至0毫秒)。通过计算每种条件获得的平均神经相似性值的平均值并对其进行t检验来检验对内与对间神经活动相似性的统计显着性。还对成语最终部分呈现后的时间窗口(0-600 ms)进行了相似性分析,以确认假设的语音相似性呈现后的相似性效果。

其次,进行了基于聚类的排列测试(Maris和Oostenveld 2007)以测试对内和对之间的相似性差异。在成语最终呈现(−1100–0 ms)之前对整个纪元运行聚类排列测试。这涉及在条件之间的每个时间点执行t检验,对t-test显着(P < 0.05)的相邻时间点进行分组以识别聚类,并通过对聚类内的t值求和来确定每个观察到的聚类的大小。对每个参与者随机引导条件标签,重复上述步骤1000次,形成聚类统计的H0分布。当观测到的总和 t 值超出分布的 95% 范围时,考虑显着观测值。

在成语最终呈现后(0 600 ms)进行单独的聚类排列测试,以检验语音相似呈现后的相似效应。

时间RSA专注于计算头皮上每个电极的两个时间串行的相似性,并确定与配对间相比,对内神经活动的时间模式更相似的大脑区域。具体来说,对于每个参与者,在每次试验的每个电极上,-1,100至0-ms间隔的EEG时间串行被用作神经活动的时间模式。对于每个电极,通过关联每对内试验之间的时间串行,然后平均每个电极上所有配对内试验的相似性值来获得时间相似性值。通过平均参与者的相似性值获得总平均时间相似性。所有电极的总平均相似性值创建相似性的大平均地形图(见图1D)。对配对条件重复该过程。

(D)时间RSA结果。它显示了时间相似性的地形图。对内和对间条件都显示出最大的相似性值。差异图显示,在中央-后部区域,对内比对间的时间相似性更大。这种差异在簇水平上显著的电极用黑色菱形标记。柱状图表示显著簇内(蓝柱)和对间(红柱)平均相似值的差异。

使用基于聚类的排列方法比较对内与对间时间相似性值,以控制电极的多重比较。在每个电极上,我们比较了平均时间相似性值,并计算了组内条件与组间条件之间的平均差。随后,通过在两个条件之间随机切换数据进行1,000次迭代来进行排列测试,并计算每个排列的平均差。然后,通过将观测到的平均差与从排列检验获得的平均差的分布进行比较来确定观测到的平均差的 P 值。P值小于或等于0.05的电极被认为具有统计学意义。相邻电极被视为邻居,重要相邻电极组成簇。为了评估聚类的重要性,我们按照相同的进程执行了 1,000 次排列测试,并生成了最大聚类的大小。通过将原始聚类的大小与聚类大小的分布进行比较,获得了聚类的 P 值。

被试被要求对不一致的组合做出反应,因此行为数据仅适用于不一致的试验。平均反应潜伏期为663 ms (SD = 195 ms),正确率为92.6%。

如图所示。1(C),正如预期的那样,在成语初始显示期间,对内和对之间的项目之间的神经相似性没有显着差异。在成语展示期间,对内物品的大脑活动模式比对间更相似。至关重要的是,对内条件的更大神经相似性在成语最终部分开始之前就已经出现,从语音相似性开始前 200 毫秒开始。统计分析证实,在呈现成语最终部分之前,相对于成语最终部分的神经相似性,观察到对内神经相似性更大[−200至0毫秒;P = 0.005],参考即将到来的成语最终部分的语音信息预测。此外,在从成语最终开始到600毫秒(0600毫秒;P < 0.001),通过语音相似性的处理引出。成语决赛前神经相似性的差异不太可能归因于用于计算平均时间相关性值的对内和对间相关性数量的差异,因为每个条件的试验次数会影响估计平均值的方差,但不会影响估计平均值本身的值。因此,不同数量的对内和对之间不应在参与者水平上影响统计推断(Thomas等人,2004年;格罗普等人,2011 年)。为了进一步验证这一结论,我们使用随机选择的与对内相关性数量匹配的对间相关性子集进行了额外的分析。该分析证实,在临界预测时间窗口[−200至0 ms]中,对内相关值仍然显着大于对间相关性(t = 3.84,P = 0.0003)。

为了测试其他变量(如语义相似性或/和第三个字符之间的拼写相似性)解释空间RSA效应的可能性,我们使用线性混合效应模型来预测预测时间窗口中的神经相似性值,具有语音相似性,语义相似性和拼写相似性在单次试验水平上第三个字符的拼写相似性。对于每个试验,提取从-200到0 ms得出的平均神经相似性。该模型包括受试者的固定因子和随机截距,以及受试者语音相似性的随机斜率。混合效应模型分析是使用R中实现的“lme4”包进行的,模型的固定效应的意义是使用包lmerTest中的anova()函数。即使包括语义相似性和正字相似性,第三个字符的语音相似性仍然是神经相似性的重要预测因子(F = 6.55,Pp = 0.011)。语义相似性未能达到显着性(F < 1),正字相似性达到显着性(F = 4.58;Pp = 0.032)。因此,语音相似性是RSA效应的一个重要变量,即使控制了其他变量也是如此。

在语音相似性开始(−1,100至0 ms)之前,对整个时间串行进行的基于聚类的排列测试证实了显着相似性效应的存在。结果揭示了两个重要的星团,一个从-140到-116毫秒(P = 0.008),另一个从-48到-12毫秒(P = 0.007)。应该注意的是,众所周知,基于集群的排列测试是保守的,并且可能低估了真实的效应大小(Maris和Oostenveld 2007)。此外,在呈现语音相似性(0-600 ms)后进行了基于集群的排列测试,以检查配对内和对间条件之间的神经相似性差异。正如预期的那样,确定了重要的集群(ps<0.05),证实了预期结果。

为了确定与配对间相比,对内神经活动的时间模式更相似的大脑区域,我们进行了时间RSA。如图所示。1(D),对内和对间条件在后部区域的相似度最大。当比较对内和对间时间相似性值时,基于聚类的排列检验结果显示,左中后区存在显着的聚类,对内神经活动的时间模式比对间更相似(P = 0.001)。

在本研究中,我们旨在调查使用ERP RSA阅读四字汉语习语时是否可以预测即将到来的语音信息。我们介绍了成语的前两个字符,然后是最后两个字符。在第三个字符的成语之间操纵语音重叠,以便成对的成语共享第三个字符(即对内)或不共享(对间)的相同声音。正如预期的那样,我们发现对内神经活动模式之间的相似性大于对间。至关重要的是,相似性效应在语音相似性呈现前 200 毫秒出现,并参考了对即将推出内容的语音信息的预测。

RSA的关键假设是,项目之间的相似性会引起大脑活动模式的相似性。基于这一假设,习语之间的语音相似性应该在大脑活动中产生更大的相似性。在讨论在呈现语音相似性之前出现的神经相似性效应(即RSA预测效应)之前,确认这一假设很重要。以前的研究主要研究了语义相似性如何影响神经相似性,并揭示了语义相似性确实会引起更大的神经相似性(例如 Devereux 等人,2013 年;王等人,2020a)。相比之下,很少有工作研究项目之间的语音相似性如何影响神经相似性。在本研究中,我们的结果证实了这一假设,证明与对间相比,共享语音信息的对内在大脑活动模式中产生了更大的相似性。

虽然理解者在语言理解过程中预测即将出现的单词这一点已得到充分证实,但理解者是否可以在各种语言级别或仅在特定的表示级别上进行预测的问题仍不清楚。理解者可以预测即将出现的内容的语音信息吗?正如引言中所回顾的,之前对语音预测的研究描绘了一幅相当复杂的图景,一些积极的发现与一些无效的发现形成鲜明对比。在这项研究中,我们证明了神经相似效应在习语之间的语音相似性变得可用之前约 200 毫秒开始出现,反映了语音信息的预激活。但这里报道的神经相似效应是否不是由语音相似性引起的,而是由其他潜在的混杂因素引起的,例如能够引发神经相似效应的习语的语义相似性?我们匹配了对内和对间条件之间的语义相似度,因此结果不太可能反映习语之间语义相似度的差异。此外,我们的结果表明,在习语开头部分的呈现过程中没有观察到 RSA 效应。相反,这种效果是在成语词首部分出现之后才出现的,这表明它不是由成语词首部分的处理引起的。

关于时间过程,本研究揭示了在呈现可预测单词之前进行语音预测的证据。这一发现与以前使用ERP措施的研究一致,这些研究已经证明了预测潜力的出现,以响应具有可预测结局的口语和书面句子片段。这种潜力通常在预测刺激开始前的最后几百毫秒内观察到(Grisoni 等人,2017 年,2019 年;莱昂-卡布雷拉等人,2019 年)。此外,哈伯德和费德迈尔(2021)最近的脑电图RSA调查显示,预测证据仅存在于紧邻可预测单词之前的单词,而不是单词之前。总的来说,这些结果表明(词形)预测是在与关键词的预期呈现非常接近的时间上生成的。

时间RSA显示出后脑区域的最大相似性值,这一观察结果与最近的研究一致,这些研究将时间RSA与语言预测进行了,并报告了枕部区域的峰值时间相似性(Wang等人,2018年;哈伯德和费德迈尔 2021)。此外,时间RSA显示,在左中后区,对内的时间模式比对间的时间模式更相似。由于脑电技术的空间分辨率有限,很难定位这种效应的来源。但目前关于相似性效应的左中后区域的发现与MEG结果一致,该结果证明了对特定单词形式特征的预测(Dikker和Pylkkänen 2013)。在该研究中,在预测目标词之前活动的MEG源定位揭示了左侧内侧时间和枕叶来源,时间活动略早于枕骨活动,这表明语言理解者可能会在时间上下文中预先激活词汇信息,然后预测感觉皮层中的特定单词形式。

理解者可以预测语言理解中的语音信息的发现不应该被过度解释为在语言理解过程中语音预测无处不在。在这方面,我们大致同意语言预测的动态观点,即理解者可以以动态的方式在预测的特异性上有所不同,这取决于上下文的限制、可用的处理资源等。除非上下文有足够的约束,否则语音预测不太可能(如果不是不太可能)发生,而语言处理系统可以做出更详细的预测,当上下文提供足够的约束时,例如在理解高度结构化和日常生活中广泛使用的习语时,指定精确的语音表示。我们的研究结果的范围是,它表明当上下文提供足够的约束时,语言处理系统可以执行语音预测。

总之,这项研究产生了神经证据,证实了语言理解过程中语音形式水平上语言预测的发生,从而强调了语音预测在语言处理中的存在,特别是在支持高确定性预测处理的情况下。