词汇、句法及语音信息在布洛卡区的序列加工



Sahin, N. T., Pinker, S., Cash, S. S., Schomer, D., & Halgren, E. (2009). Sequential processing of lexical, grammatical, and phonological information within Broca’s area. Science (New York, N.Y.), 326(5951), 445–449. https://doi.org/10.1126/science.1174481

单词、语法和⾳系在语⾔学上是不同的,但它们的神经基质在宏观⼤脑区域中很难区分。我们研究了它们是否可以使⽤颅内电⽣理学 (ICE) 在电路级别在时间和空间上分开,即通过在⼈们阅读时使⽤植⼊语⾔相关⼤脑区域的深度电极记录神经元群体的局部场电位 (LFP)单词逐字地或语法地改变它们(现在/过去,单数/复数)。布罗卡区内的相邻探针揭⽰了词汇(~200 毫秒)、语法(~320 毫秒)和语⾳(~450 毫秒)处理的不同神经元活动,在相同患者和任务中激活的区域中,名词和动词相同功能磁共振成像 (fMRI)。这表明基于计算基础预测的语⾔处理序列在⼤脑中以细粒度的时空模式活动实现(fine-grained spatiotemporally patterned activity)。

在认知神经科学中,对语⾔的理解远不如对感觉、记忆或运动控制,因为语⾔没有生物同系物,也没有适合⼈类的⽅法(功能性磁共振成像 (fMRI)、脑损伤患者研究和头⽪-记录的电位)在空间或时间上⽐神经回路中的潜在因果事件粗糙得多。此外,语⾔涉及多种难以独⽴操作的抽象信息(词汇、语法、语⾳)。这在语⾔学建议的语⾔计算结构与实现语⾔处理的神经回路之间的理解上留下了鸿沟。我们使⽤具有⾼空间、时间和⽣理分辨率的技术以及区分语⾔计算的三个组成部分的任务来缩⼩这⼀差距。

根据语⾔学分析,识别单词、在语法上组合它们以及发⾳清晰的能⼒涉及多种表⽰形式,它们之间具有逻辑依赖性 。例如,要在句⼦中发⾳⼀个动词,必须根据预期的含义和句法上下⽂确定适当的时态(例如,“walk”、“walks”、“walked”、“walking”)。必须识别特定的动词,它指定是使⽤规则(例如,“walked”)还是不规则(例如,“went”)形式。此外,必须解开动词和后缀的语⾳内容以实现三个额外的计算:⾳素序列中的语⾳调整(例如,在“patted”但不是“walked”中的动词和后缀之间插⼊元⾳),⾳素发⾳的语⾳调整(例如“walked”和“jogged”中的“d”之间的差异),以及将⾳素序列转换为发⾳运动指令。这种逻辑分解并不意味着每种表⽰都对应于⼤脑中不同的阶段或回路。在许多神经⽹络模型中,时态的选择、规则变形与不规则变形的区分以及语⾳输出的制定都是在单个分布式⽹络中以⼀个时间步⻓并⾏计算的。

其他包含循环和反馈连接,传播概率约束,并迭代地进⼊全局稳定状态,没有固定的操作顺序。甚⾄阶段模型也可能包含级联,其中来⾃⼀个阶段的部分信息在计算完成之前开始提供给下⼀个阶段。尽管如此,由 Levelt、Roelofs 和 Meyer (LRM) 开发的最全⾯的语⾳⽣成模型通过将语⾔操作实现为离散的有序阶段、避免反馈、循环、并⾏或级联,最⼤限度地提⾼了简约性和可证伪性。他们设定了词汇检索阶段(在刺激呈现后 150-225 毫秒与左侧颞中回相关联)、语法编码(轨迹和持续时间未知)、语⾳检索(后颞叶,200-400 毫秒)、语⾳和语⾳处理(布罗卡区,400-600 毫秒)、⾃我监控(上颞叶,从 275-400 毫秒开始,但持续时间变化很⼤)和发⾳(运动⽪层)。

然⽽,⽬前的证据对这些组件的本地化和时间安排存在相当⼤的不确定性,尤其是语法处理。尽管临床研究报告了双重分离,即患者的语法受损程度⾼于语⾳受损程度,反之亦然 ,但在⼤多数研究中,这两种能⼒都与左下前额叶⽪层的相似区域相关,尤其是布罗卡区 。尽管 Broca 区本⾝已被确定为语⾳学、语法甚⾄特定语法操作的所在地,但损伤和神经影像学研究已将其与⼴泛的语⾔和⾮语⾔过程联系起来。这种不确定性可能是电流测量的粗糙度的结果。在⼤脑的微电路中,语法和其他语⾔过程仍然有可能被清楚地、甚⾄是按照一定处理,但是在⼏秒钟和⼏厘⽶内求和的技术必然会使它们变得不够精确。

ICE(可以提供ms级的时间分辨率和mm级的空间分辨率)

3名右利⼿患者(年龄 38-51 岁;语⾔和认知能⼒⾼于平均⽔平)接触深度电极,当他们逐字阅读单词或将其转换为变形形式(过去/现在、单数)时,电极被置放于布罗卡区及其周围/复数)。

图1 A

图1 B

该任务涉及屈折形态,这就像根据语法规则组合有意义的元素的句法,但单元更短,语义更简单,对⼯作记忆和概念整合的要求更少,从⽽允许更⼤的实验控制。我们将 ICE 的⾼分辨率应⽤于区分三种语⾔过程的任务,以研究⼤脑中单词⽣成的时空模式。 在每次试验中,参与者要么看到指令“重复单词”(“阅读”条件),要么看到指⽰变形形式的提⽰(“Every day they ____”;“Yesterday they ____”;“That is a ”; “Those are”)。接下来他们看到⼀个⽬标词并暗自产⽣适当的形式(图 1A)。 240 个⽬标词在短语“a [名词]”或“to [动词]” 中以原形式呈现(图 1B)。⼀半⽬标是规则的(例如“链接”/“链接”),⼀半是不规则的(例如“思考”/“思想”),以确保参与者必须访问该词⽽不是⾃动附加规则后缀。

Null-Inflect (N) 条件需要动词(现在时)或名词(单数)的屈折形式,但这些形式没有明显标记,因此需要发出与 Read (R) 条件相同的输出。因此,这些条件之间的差异暗⽰了拐点的过程。相反,Overt-Inflect (O) 条件(过去式动词或复数名词)要求添加后缀(规则)或更改形式(不规则)。因此,它与 Null-Inflect 条件的不同之处在于需要计算不同的语⾳输出(图 1B;“语⾳”标签包含语⾳、语⾳和发⾳过程)。

该设计是完全交叉的,试验以伪随机顺序呈现。

为了评估这些患者的语⾔系统是否组织正常,并将 LFP 与 fMRI 相关联,我们在放置电极之前对其中两名患者进⾏了fMRI。

三个 LFP 组件显⽰了不同语⾔处理阶段的特征(图 1)。 ~200 毫秒的分量似乎反映了词汇识别。时间集中在视觉词形区域 (VWFA)中先前记录了特定单词活动的时间,以及 VWFA 已显⽰与 Broca 区域锁相的时间.此外,组件的⼤⼩变化与词频,索引词汇访问。具体来说,稀有词(频率 1-4)⽐常⻅词(频率 9 到 12)产⽣显着更⾼的振幅(t(204)=3.32, p < .001)(图 2A 底部;25)。

图2 A

词频与词⻓呈负相关,但⽬前的效果不是⻓度的结果:我们发现短词(2-4 个字符)和⻓词(6-11 个字符)之间在 ~200 毫秒没有差异(图 2A) ,也没有单语素和双语素反应之间的区别。后来的组件不受频率的影响。最后,与所有三个屈折变化条件都需要词汇识别的事实⼀致,~200 毫秒的分量在它们之间没有变化。初级词汇访问通常与颞叶⽪层⽽不是布罗卡区相关联,因此该组件可以索引将单词⾝份信息传递到布罗卡区以进⾏后续处理,这与这两个区域整合的解剖学和⽣理学证据⼀致.尽管在此潜伏期范围内的单词诱发活动之前已通过 LFP和 MEG定位到 Broca 区,但尚未证明它受词汇频率调制。

随后的两个 LFP 组件分别显⽰了预测的语法和语⾳处理活动模式(图 2B 和 C)。在 ~320 ms 分量中,2B)Overt-Inflect 和 Null-Inflect 条件与 Read 条件有显着差异,但彼此之间没有差异。因此,~320 ms 分量由变形的要求(Overt-Inflect 和 Null-Inflect 但不是 Read 要求)调制,但不是由语⾳编程的要求(Overt-Inflect 但不是 Null-Inflect 或阅读;回忆图 1C。相⽐之下,在出现在 ~450 ms 的组件中,OvertInflect 确实不同于 Null-Inflect 和 Read 条件,它们彼此没有差异(图1)。

图3

图4

2C)这种对⽐模式表明,~450 ms 分量反映了语⾳、语⾳和发⾳编程,通过其对⾳节数量的敏感性独⽴证实(图 4C)。所有患者的布罗卡区都记录了这两种成分(图 S1),特别是患者 A(图 1)来⾃额下沟深处的额下回三⻆部。 ~320 ms 分量记录在眼底附近; ~450 ms 分量在⾯向眼底的脑回褶皱内沿沟多横向 5 mm(图 3I,图 S1a)。该区域通常被认为是区域 45 的⼀部分。

空间中相邻双极通道的符号反转模式(图 2A 上部)表明 LFP 组件的⽣成器是本地的(图 S3),并且组件之间的时间反转差异表明它们的⽣成器不相同(图 3I 和 J)。因此,整体 LFP 模式表明在单词⽣成过程中布罗卡区内的词汇、语法和语⾳处理的细粒度时空进展。

所有患者的三相模式仅在布罗卡区发现(图 4A 和 B)。在 Broca 区之外,其他模式盛⾏:例如,颞叶部位在 500-600 毫秒时显⽰出缓慢和晚期的单相成分(图 4A 底部;图 S4f 和 g)(31),可能反映了⾃我监控每个组成部分的条件差异在患者之间也是⼀致的,复制了语法(~320 毫秒)与语⾳(~450 毫秒)处理的时间隔离(图 S1)。词频对 ~200 ms 分量的影响在患者 A 和 B 中显着,⽽在患者 C 中边缘 (p=0.06)

(图 S2)。 ~200、~320 和~450 毫秒分量在不同患者的时间上是⼀致的,尽管需要⾃我监控过程的按键反应时间因患者和条件⽽异(图 S6)。

fMRI: 被试的激活模式确实类似于 18 个健康对照(图 2A-C)(其他 fMRI 结果⻅ 19)。我们(跨患者)记录的 168 个双极通道中的⼤部分位于 fMRI 活跃区域(图 2A-G)。与任务显着相关的 LFP(p<.001,已校正;参⻅ 16)记录在⼤约⼀半 (86/168) 的通道中(患者 A 19 个通道,B 37 个通道,C 30 个通道)。在这些通道中,49 个 (57%) 位于布罗卡区或前颞叶内(A 中 16 个,B 中 19 个,C 中 14 个)。在 49 个通道中,有 26 个在 Broca 区内,⼤多数 (20/26) 产⽣了强烈的三相(3 分量)LFP 波形(患者 A 中有 9 个,B 中有 8 个,C 中有 3个)。平均峰值出现在⽬标词开始后约 200、约 320 和约 450 毫秒(图 2A),并且该时间在所有患者中都是⼀致的。

尽管名词和动词在语⾔学和神经⽣物学上有所不同,但它们引起的神经元活动是相似的(图 4B)。此外,名词和动词的屈折变化模式是相同的 (34)。这些相似之处表明,来⾃不同词汇类别的词提供了⼀个共同的词形变化过程。

LFP 模式反映屈折计算的进⼀步证据是,它们是由⽬标词的呈现触发的,⽽不是提⽰,即使提⽰包含更多的视觉和语⾔元素(图 4D)(35)。此外,由提⽰引起的活动对拐点条件⼏乎没有敏感性。

LFP 模式与任务的计算性质⼀致,并与其⼦过程的时间独⽴估计。在识别单词之前不能发⽣屈折处理(尤其是关于它是规则的还是不规则的),并且在确定屈折形式的⾳素之前不能计算语⾳、语⾳和发⾳处理。单词识别已显⽰发⽣在 170-250 毫秒(8、29、36),与 ~200 毫秒的成分⼀致,⾳节化和其他语⾳过程发⽣在 400-600 毫秒,与 400-500 毫秒的语⾳成分⼀致(8).在命名任务中,语⾳开始出现在⼤约 600 毫秒,这与我们记录的⾃我监控⾏为反应⼀致(图 S6)。⾃我监控已定位于颞叶,我们在此处记录了反应后潜伏期范围内的 LFP,这可能对应于先前描述的头⽪ ERP (37)。从 600 毫秒开始倒推,我们注意到运动神经元命令发⽣语⾳前 50-100 毫秒,将它们放在我们发现峰值为 400-500 毫秒的语⾳成分之后 (38)。总之,布罗卡区神经元活动成分的位置、⾏为相关和时间表明它们分别体现了词汇识别(~200 毫秒)、语法变形(~320 毫秒)和语⾳处理(~450 毫秒), 在产⽣名词和动词时都⼀样。

尽管语⾔处理流作为⼀个整体确实表现出并⾏性、反馈和交互性,但当前的结果⽀持基于简约的模型,例如 LRM (7),其中该流的⼀部分由与语⾔计算级别相对应的时空不同过程组成。这些⾼分辨率数据识别的过程中有语法计算,这在以前的粗粒度调查中⼀直难以捉摸。因此,结果也与最近的提议⼀致,即布罗卡区不是专⽤于单⼀类型的语⾔表⽰,⽽是被分化成相邻但不同的电路,这些电路处理语⾳、语法和词汇信息。