一、文献名称 ¶

Hadley, L. V., Fisher, N. K., & Pickering, M. J. (2020). Listeners are better at predicting speakers similar to themselves. Acta Psychologica, 208, 103094. https://doi.org/10.1016/j.actpsy.2020.103094

二、研究概况 ¶

大多数关于说和听的研究都集中在孤立个体的语言使用上，尽管语言使用的主要场所是会话(Clark, 1996;Pickering & Garrod, 2004）。与他人交谈是一项非常复杂的任务，需要对话者在说与听之间快速转换。如此快速的交替给对话者提出了一个独白中不会出现的问题——他们如何确定他们的同伴何时要结束讲话，以便他们能够接管对话?

理解者会做出两种类型的预测:说话者会说什么，以及他们什么时候会说(Corps, Gambi， & Pickering, 2018)。大量的研究集中在前者，并发现它们预测意义(Altmann & Kamide, 1999)，语法(Van Berkum, Brown, Zwitserlood, Kooijman，& Hagoort, 2005)，和声音(DeLong, Urbach，& Kutas, 2005)。

通过模拟的预测可能是言语预测的基础(Pickering & Garrod, 2013;参见Dell & Chang, 2014)。许多证据表明，人们可以利用自己的运动系统预测他人的行为(Wolpert & Kawato, 1998)。换句话说，他们使用一些他们自己用来执行这些行为的机制(Wilson & Knoblich, 2005)，秘密地模仿他们所观察的人的行为，并将这种模仿作为他们基于动作的预测的基础。

听者的默认模型是基于他们自己的讲话，但要想做出恰当的预测，必须对其进行调整，以解释自我-他人差异(Pickering & Gambi, 2018);这意味着用最少的时间来建模一个新的说话者，听众应该更善于预测与他们自己的风格相似(因此与他们的默认模式相似)的讲话，而不是与他们自己的风格不同(因此与他们的默认模式不同)的讲话。

三、研究过程 ¶

a、研究目的 ¶

该文章研究了模拟(simulation)在预测说话人的反应结束和开始反应中的作用。参与者录制了一组包含一个陈述和一个问题的话语，每隔三个月进行两次录音。大约三个月后，他们再次回来，听自己的录音，分别是与自己风格相似的录音和与自己风格不同的录音。在这个环节中，他们参加了两个任务。在按按钮任务中，当他们预测轮到演讲者时，他们按下了一个按钮。在口头回答任务中，他们对问题做出口头回答。根据模拟预测，理解者应该更善于预测与自己的话语更相似的话语的时间，而不是那些与自己的话语不太相似的话语。

b、被试 ¶

31名参与者参与了这项研究(17名女性，28名以英语为母语)。

c、材料、刺激和程序 ¶

120个两句话项目。如

a. I like watching different sports on the TV. Do you like to watch football?

b. I love travelling. Have you ever visited the city of Paris?

每个条目由一个陈述和一个问题组成，长度为7-37个单词。在60个项目中，问题的最后一个单词是高度可预测的;在60个项目中，它是中度可预测的。

在第1和第2阶段，参与者记录了两组项目，间隔90天(±14天)。在第3阶段的90天后(±17天)，参与者听并预测60个话语的结束(按下按钮的条件)，听并产生对其他60个话语的口头回应(口头回应条件)。此外，在每一种按下按钮和口头回应的条件下，以每一种录制的演讲者的风格呈现相同数量的刺激(即，他们自己的演讲中有20个,自我状态;20个相似的演讲者,相似的情况; 20个不同的说话者,不同的条件)。

两名独立的评判员(一名实验者，一名自愿助理)使用第一阶段的录音，选择一名与每个参与者相似的发言者和一名与每个参与者不同的发言者。为了评价参与者的相似度，我们随机选择了5个话语(在补充材料中用星号表示)，并让评价者听每个人说出这些话语的过程(即31 × 5 = 155个话语)。评价者的任务是根据音量、口音和语调，选择五个最相似和最不相似的演讲者。例如，对于说话者1的话语1，评价者选择最相似和最不同的说话者(即其他参与者)的话语1。他们对说话者1的其他四次发言重复这个过程。

为了阐明被选择的相似和不同的说话人与被试的相似或不同之处，我们分析了五种用于评级的话语，包括平均基本频率(Hz)、说话频率(音节/秒)和强度(dB)。通过比较每个参与者的语音属性与被选为最相似者的语音属性和被选为最不相似者的语音属性的差异，我们发现评分至少部分是基于基本频率信息的。换句话说，被识别为最相似的伙伴比被识别为最不同的伙伴在音调上更接近被试。

d、任务 ¶

1、按键任务 ¶

参与者被告知:“当你认为问题将结束时，按下按钮(用惯用手)。不要等到演讲者问完了问题并停止说话之后才按下。相反，只要你认为说话者讲完的时候你就应该按下按钮。”如果被试在刺激结束后5秒内没有按下按钮，试验就被记录为错过。然后重复这个过程。

2、口头反馈任务 ¶

参与者被要求“尽快回答。不要等到说话者问完问题并停止讲话之后才回答。相反，你应该在你认为说话人能回答完问题的时候马上回答。”

被试还被特别要求“回答时不要只用一个词，就像在交谈一样”

每个任务采用3(录音者:自我，相似，不同)× 2(录音时间:1 = 6个月前，2 = 3个月前)设计。

四、研究结果 ¶

对于按钮按压条件，刺激偏移后的平均响应为234 ms，标准差为655 ms。对于口语反应条件，刺激偏移后的平均反应时间为1272 ms，标准差为898 ms

Fig-1

按键反应任务：

Fig-2

Tab-1

录制时间有主效应：参与者对6个月前记录的刺激比3个月前记录的刺激反应快125 ms。同时录制的说话者也有主效应，表明被试的回答受到说话人身份的影响。更具体地说，参与者对不同的演讲者的反应要晚于他们自己的演讲，对不同的演讲者的反应也要晚于相似的演讲者

Response Initiation task

同样见图2和表1

有录制时间的边际marginal效应,参与者对三个月前记录的刺激的反应趋势比六个月前记录的更快。

根据研究表明，如果声音是由被试自己发出的，或者是由与他们评价相似的说话者发出的，那么他们按下按钮的速度会更快。当他们做出口头回答时，没有类似的效果。

研究测试了理解者模拟说话人的话语的理论，然后用这个模拟来预测说话人的时间。具体来说，就是他们偷偷地模仿说话者的话语，并构建他们自己在说话时所使用的表征。这样，如果他们是说话者，他们就可以预测停止说话的时间(也就是结束发言的时间)。但当然，如果被理解者的说话方式与说话者不同，比如他们的音高不同，这种预测就不那么好了。

总之，文章调查了听者如何预测说话者何时会完成他们的话语。文章发现，当听者听到自己的话语或与自己相似的说话者的话语时，比听到与自己不同的说话者的话语时，听者更善于做出这样的判断。这是因为他们通过秘密地制造话语来模拟话语，并使用这种秘密的生产来提前运行话语，这种模拟受到它们与说话人的相似性的影响。

五、讨论及其他 ¶

在这项研究中，虽然使用了相似度的主观判断来识别相似和不同的说话人，但通过对语音参数的分析表明，这些评级至少部分基于基频的差异。鉴于评判者做出相似判断的信息有限(即五种发音)，一种可能性是，声音的声学参数与说话者的身体特征相关，如大小(Kreiman & Sidtis, 2011)最初是最显著的。然而，也有可能是说话的频率或强度没有足够的可变性，无法根据这些参数轻易区分说话者。