1.参考文献 ¶

McPherson, M. J., & McDermott, J. H. (2017). Diversity in pitch perception revealed by task dependence. Nature Human Behaviour, 2(2018), 52-66. https://doi.org/10.1038/s41562-017-0261-8

2.研究背景 ¶

音高表示声音从高到低变化，也是周期性声音重复率的感知相关性，这种重复率被称为声音的基频（F0）。在音乐中，F0变化以产生旋律和谐波（harmonies）。在语音中，F0变化强调重点，以及声调语言的词汇内容。其他日常声音（鸟鸣、警笛、铃声等）也部分由F0识别。因此，音高被认为是一个关键的中间感知特征，并且一直是研究人员非常感兴趣的话题。

质疑音调感知基础的一个原因是音调感知任务似乎必须对F0进行编码，但在许多情况下，我们反而会判断F0随时间变化的方式——通常称为相对音高。相对音高可能涉及首先估计声音不同部分的F0，然后记忆F0如何随时间变化，而无需首先评估F0的高低。因此，不同刺激和任务中的音调感知可能涉及不同的加工。

使用非谐波刺激（inharmonic stimuli）来探索音高计算，通过随机变化谐波声音（harmonic sound）的频率，使刺激变得不具有周期性。非谐波的声音应该会破坏感知F0的机制并损害依赖于这些机制的音高任务的表现。这种非谐波缺乏正常意义上的音高，但是当顺序播放时，仍然会引起音高变化的感觉。非谐波的影响在音高任务之间存在很大差异，这表明音高感知可能分为多种机制。

因此，此项研究检查了非谐波对音高相关任务的影响。结果表明，依赖于音程或语音感知的能力受到非谐波的严重影响，这些任务需要进行F0估计。然而，依赖音高变化方向感知的任务，不受非谐波的影响。

3.结果 ¶

a.实验1 ¶

使用成对的合成语音进行音高辨别。被试听到两个声调，并问被试第二个声调是高于还是低于第一个声调。比较了三种条件的表现：谐波条件和两种非谐波条件。通过向谐波的每个部分的频率添加随机数量的“抖动”（在任一方向上高达原始F0的50%），使刺激变成非谐波。这种操纵旨在破坏恢复原始F0的能力。对于两种非谐波条件，应用了不同的随机抖动模式。例如，对于第一个声调，第二个谐波可以上移30%，在第二个声调中，第二个谐波可以下移10%。

如果任务表现是由基于估计F0来调节的，那么两种非谐波条件下的表现应该会明显更差。如果表现是通过检测频谱变化来调节的，在谐波和非谐波条件下的任务表现应相似。最后，如果jitter操纵不足以破坏F0，则三个条件的表现应该相似。

为了避免谐波结构的影响，应用了固定带通滤波器。该滤波器旨在防止听者追踪F0 的频率（将F0过滤掉）。低通噪声被添加到刺激中以掩盖失真。实验刺激见补充材料，http://mcdermottlab.mit.edu/Diversity_In_Pitch_Perceptioh.html。

与区分音调取决于F0的想法相反，如果音高差异很小（半音或更小），则谐波和非谐波的任务表现是无法区分的（F(1,29)=1.44，P=0.272）。谐波和非谐波条件的表现在两个半音时略有不同（t(29)=5.22，P<0.001），。相比之下，非谐波变化条件有更差的表现 (F( 1,29)=92.198，P<0.001)。这一结果表明谐波和非谐波条件的类似表现不是由于F0。结果共同表明，任务表现不依赖于估计F0，而是通过追踪频谱中的变化。

b.实验2 ¶

用乐器刺激重复了实验1。重新合成了钢琴、单簧管、双簧管、小提琴和小号演奏的录音刺激，保留每个刺激的频谱时间包络，但改变了基频。对实际乐器刺激的操纵结果与实验1的合成音调相似。谐波和非谐波条件下的表现无法区分（F(1,29)=2.36，P=0.136 )，但在不和谐变化条件下明显更糟(F(1,29)=41.88, P<0.001)。结果证实了这样一种观点，即在许多情况下，通过追踪频谱变化而不是估计声音的F0来检测音高变化。

c.实验3 ¶

检查在实验1中观察到的效果是否会扩展到多音符。被试听两首五音旋律，包括谐波、非谐波或非谐波变化的音符。第二个旋律被向上移调了半个八度，具有与第一个旋律相同的音高轮廓或不同的音高轮廓。被试判断旋律是相同还是不同。谐波和非谐波试验的表现无法区分（t(28)=0.28，P=0.78）；在这两种情况下，表现都远远高于机会水平。相比之下，非谐波变化条件的表现是偶然水平的（t(28)=-0.21，P=0.84），表明即使对于中等长度的旋律，音高轮廓感知也不依赖于提取F0，而是可以通过检测音符之间的频谱变化来实现。

d.实验4 ¶

测试实验1结果是否会扩展到语音中的音高轮廓，使用语音分析/合成工具（STRAIGHT37-39）来处理录音的音高轮廓。在每次试验中，被试听到同一秒语音标记的三种变体。在其F0音高轮廓中添加了随机频率调制 (FM)，并且要求被试识别与中间刺激的音高轮廓不同的刺激。谐波和非谐波刺激的表现没有不同（F（1,29）=1.572，P=0.22），表明语音韵律的感知也不依赖于提取F0。

e.实验5 ¶

普通话声调感知。声调语言中的音高轮廓除了表示强调、情感外，还可以承载词汇意义。为了探究词汇声调感知背后的机制，进行了一个开放集词识别任务（open-set word recognition task），使用谐音、非谐音或噪声载波信号重新合成的汉语词。噪声载波模拟耳语中呼吸噪声，用作控制条件。被试（汉语母语）被要求打出他们听到的内容来识别单词。谐波和非谐波的声调识别表现相似（t(31)=1.99，P=0.06），但在噪声条件下的识别表现不好（t(31)=22.14，P<0.001）。表明声调理解取决于声调的音高轮廓，其感知似乎不需要F0估计。听者会跟踪刺激的频率轮廓，而不管频率是谐波还是非谐波。

f.实验6 ¶

尽管在音高轮廓识别的任务中缺乏非谐波的影响，但基于F0的音高可能在自然的音乐环境中更重要。因此，我们测量了听众识别用谐波或非谐波刺激呈现的熟悉旋律的能力。除了之前实验中的谐波、非谐波和非谐波变化条件之外，我们还包括了其他谐波和非谐波条件，其中每个刺激的每个音程（音高的大小变化）改变了一个半音，同时保留了轮廓（音符到音符变化的方向）和韵律。这些条件旨在测试非谐波对音高音程编码的影响程度。被试听 24 种刺激一次并输入歌曲名称。与谐波旋律相比，非谐波的旋律识别略有受损（P<0.001，via bootstrap）。相比之下，当音程改为不正确的值时，谐波和非谐波条件下的表现无法区分 (P=0.50)。这与音高轮廓有助于熟悉旋律识别并且在很大程度上不受非谐波影响的观点一致。

g.实验7 ¶

检查音高间隔感知是否依赖于F0，评估了非谐波对不在调上的音符（sour note）检测的影响。Sour note只能通过它们与旋律中其他音符的音程关系来识别。在一半的试次中，旋律中的一个音符被修改了两个半音而不在调上。被试判断刺激中是否包含sour notes（向被试解释为旋律中的“错误”）。再次测量了谐波、非谐波和非谐波变化条件下的表现。与音高轮廓辨别的结果（实验 3）相反，与谐波条件相比，非谐波条件下的sour notes检测明显受损（t(29)=4.67，P<0.001）。这个结果进一步符合破坏F0会特别损害音乐中音高间隔估计的想法。

h.实验8 ¶

为什么非谐波会特别削弱对音高音程的感知。听者有时将非谐波描述为听起来像和弦，似乎包含不止一个F0，这可能会引起混乱。然而，如果轮廓（音符到音符变化的方向）可以通过检测频谱的变化从非谐波刺激中得出，也应该可以检测音符间的这种变化（音程）。因此，非谐波对音高轮廓和音程表征的不同影响似乎支持音高感知有不同的机制。为了更明确地分离出非谐波对音高间隔感知的影响，进行了一项实验，要求被试感知两个带有谐波或非谐波音符的三音符旋律之间的音程差异。在一半的试验中，第二个音符改变了一个半音以保持轮廓，但同时改变旋律中的间隔。这项任务很困难，但谐波音符的表现再次优于非谐波音符（t（17）= 4.59，P < 0.001）。结果表明，在非谐波条件下，音程编码不太准确，这表明F0在表示音高变化幅度中的作用。

i.实验9 ¶

为了更好地理解音程感知缺陷（音高步长通常相对较大）与实验 1结果之间的关系（其中步长很小），进行了第二个音高区分实验，音高步长覆盖了更大的范围。结果复制了实验 1 的结果，但一旦音高变化超过半音，谐波和非谐波条件下的表现就会有所不同。一种解释是，对于较大的步长，音调的频谱模式之间的匹配偶尔会不明确，导致非谐波条件下的表现下降（尽管被试平均成绩仍高于 85%）。谐波条件没有类似的下降，表明基于F0的音高可在这些条件下提高表现。

相比之下，非谐波变化条件下的表现随着音高差异逐渐提高（F(6,168)=80.30，P<0.001）。该到六个半音时，非谐波和非谐波变化条件产生了相似的表现（t(28)=0.45，P=0.66）。总体而言，结果表明，音调之间的音高变化是通过各种线索传达的，并且听者在一定程度上利用了所有线索。然而，F0传达的音高似乎只在特定条件下发挥相对较弱的作用。

j.实验10 ¶

语音识别。音高被认为是语音识别的线索。语音在平均F0和F0变化的范围和方式上都可能不同。首先通过测量音高变化条件下的语音识别来确定音高在语音识别中的作用。

要求被试从演讲录音中识别名人（图8a）。演讲者包括政治家、演员、喜剧演员和歌手。被试输入他们的回答，由第一作者事后打分（naive）。刺激的音高上下移动，在所有情况下都保持和谐。语音识别表现在原始F0条件下最好，并且随着音高远离原始F0降低。这个结果表明说话者的平均绝对音高是他们身份的重要线索，被听者用于语音识别。

为了探究背后的机制，测量了非谐波条件下对名人的识别。非谐波语音的识别效果要差得多（P<0.001），这表明熟悉语音识别的音高表征依赖于估计F0。

k.实验11 ¶

为了进一步测试语音感知中的机制，测量了非谐波对识别陌生语音的影响。向被试展示了三个演讲刺激，并且必须确定哪个演讲者与其他两个演讲者不同。与名人语音识别一样，非谐波条件下的表现显着较差（t(29)=3.88，P<0.001）。这些结果也与F0在语音身份表征中的作用一致。

4.讨论 ¶

为了探索音高感知的基础，进行了一系列与音高相关的音乐和语音任务，使用谐波和非和谐刺激。非谐波刺激会破坏预测F0的机制。涉及检测音高变化方向的任务，无论是旋律轮廓、口语韵律还是单个音高步长，谐波和非谐波刺激下会有相似的表现。相比之下，需要判断音调间隔或声音身份的任务在非谐波刺激下明显受损。这些结果表明，传统上认为的“音高感知”是由几种不同的机制介导的，并非所有机制都涉及估计 F0。