预测一个口语单词的产生



一、文献名称 ¶

Roy, B. C., Frank, M. C., DeCamp, P., Miller, M., & Roy, D. (2015). Predicting the birth of a spoken word. Proceedings of the National Academy of Sciences, 112(41), 12663–12668. https://doi.org/10.1073/pnas.1419773112 论文原文

二、研究背景 ¶

​ 成年人每天能毫不费力辨认并产生成千上万的词汇。孩子们从出生起就开始接触,在他们最初的几年里获得了驾驭语言的专业知识。他们的技能在日常生活中数百万次的小互动中逐渐增长。这些经验如何结合起来支持新知识的出现? 学习单词需要孩子们进行综合推理,将他们新兴的语言理解和他们对世界和世界上的人的知识结合起来。许多因素都有助于单词学习,包括关于说话人意图的社会信息。然而,个体因素的贡献通常是在实验室中测量单个单词或儿童词汇量的水平。在实验室中使用注视时间、指指点点或事件相关电位的方法,可以对幼儿的理解能力进行可靠而详细的测量,但通常只能对少数单词进行测量。对于整体词汇量的系统评估,3岁以下儿童唯一标准使用的方法是父母报告核对表和通过词汇样本进行生产评估。

​ 尽管有一些研究试图在实验室之外预测个体词汇的习得,但它们通常仅限于对单一因素的分析:尽管综合synthesis对理论和语言干预等应用都很重要,但在这一领域,几乎没有研究将跨因素联系起来去回答哪些因素对学习最具预测性。

三、研究过程 ¶

​ 研究方法:文章采用第二种方法(通过词汇样本进行生产评估)。通过利用极其密集的数据集,可以通过识别第一次产生单个单词的实例,对孩子的生产性词汇做出精确和客观的估计。虽然这种方法不能估算出理解性词汇量,但产出可以被认为是一种保守的测量方法:如果一个孩子能够恰当地使用一个单词,通常也能理解它。

对一个典型发育中的男孩的日常生活进行纵向观察,孩子从9个月一直记录到24个月,从他第一个单词(9个月时的“妈妈”)到出现一致的单词组合。

数据收集:数据收集涵盖了孩子出生后3年。通过在被试家里安装相应的摄像头和录音机等来收集所说的话。根据数据,最终确定了679个孩子会说的独特单词。但有341个单词出现在麦克阿瑟-贝茨交际发展量表的单词和句子形式中。检查了这些单词后,他在词汇方面的得分约为第50百分位。在研究结束时,当孩子25个月大时,他开始频繁地组合单词,他的平均发音长度(MLU)达到了2.5个单词。

​ 在最初的比较中,关注三个变量:产生一个词的容易程度、出现这个词的句法环境的复杂性和接触这个词的程度。每种情况都使用一个非常简单的度量:目标词的长度(在成人音素中);目标词出现在孩子第一次说出之前的照顾者话语的平均长度(用单词表示);和目标词每天出现的平均频率的对数(again before the child’s first production)。

​ 这三个预测因子均与AoFP(age of the first production)有显著的独立相关性。长单词和长句子中听到的单词往往产生得更晚,而那些听到得更频繁的单词往往产生得更早。

Fig-1

​ 这种分析的一个值得注意的方面是预测因素predicitive在不同语法类别中所扮演的角色。出现频率最能预测名词的产生,尽管它对谓词或封闭类词没有什么影响。较高的使用频率可能会让儿童通过增加上下文共现来对名词的含义做出更准确的推断,相反,谓词词汇出现的句法语境的复杂性似乎更能预测它们获得的年龄。与谓词一样,封闭类词汇学习的时间也较晚,MLU比频率更能预测出封闭类词汇。那些出现在简单句中的封闭类词汇(如“here”、“more”)学得较早,而那些出现在长句中的封闭类词汇学得较晚(如“but”、“if”)。

Fig-2

当向模型中加入音素的数量时,预测像“breakfast”、“motorcycle”或“beautiful”这样长的单词会在以后学习;如果加入MLU,那些经常单独出现或出现在短句中的单词,比如“no”、“hi”和“bye”,预计会更早学会。

​ 根据Jerome Bruner假设的”互动模式“,他认为,在一些易于理解、连贯的活动中,孩子可以更有效地推断单词的意思。据此文章开发了一套正式的方法来衡量这些独特时刻在词汇学习中的作用。我们考察了单词出现的语境的三个维度:它在物理空间中的位置,它在一天中的时间,以及在对话中出现在它附近的其他单词。

​ 对于每个维度(时间、空间和语言),我们创建了一般语言使用环境的基线分布,并测量了偏离它的偏差。一个单词与特定活动的联系越紧密,它在这三个方面就越有特色,也就越容易学习。与这一假设一致的是,情境的特殊性(无论是在空间、时间还是语言上)是孩子生产能力的一个强大的独立预测因子。这三个预测因子中的每一个都比频率、MLU或单词长度与孩子的生产更紧密地相关,更大的背景差异导致更早的生产。

Fig-3

差异预测因子之间高度相关。三种显著性测度均是AoFP的显著预测因子,其中空间显著性和时间显著性是最显著的预测因子。对于谓词,频率基本上没有影响,但所有三个特殊性预测因子仍然具有显著的影响。在一些封闭类词汇的模型中,频率甚至是AoFP(更高的频率导致更晚的产生)的一个正预测因子,这大概是因为最频繁的封闭类词汇是最抽象的,最不依赖于具体语境的细节(例如,“the”、“and”、“of”)。

四、研究结果 ¶

​ 这三个区别性变量彼此之间显示出很强的相关性,并且作为预测单词首次产生的年龄的指标具有惊人的一致性。这种一致性支持了这样一种假设,即每一个词都代表着一个单一的潜在模式:有些词用于连贯的活动,如吃饭或玩耍时间(如早餐、踢腿),而其他词则更广泛地用于许多上下文中。这些差异可能是词汇学习的强大驱动力。

​ 孩子们通过日常生活中的对话来学习单词。从单词和单词类别来看,那些在更独特的环境中经历的单词更早出现。由于差异测度,尤其是空间差异,比语言暴露量更能预测学习,我们的研究结果支持探索词汇使用的语境,并为多模态数据集的重要性提供了有力的论据。语言习得的因果结构是复杂的、多因素的。孩子的流利程度越高,父母的语言就越复杂,孩子知道的单词越多,就越能猜出别人的意思。

​ 面对这种复杂性,实验采用简单的线性回归,这种保守的选择可能低估了实验感兴趣的主要预测因素对孩子早期词汇的影响程度,因为模型没有考虑到孩子在第二年学习能力的日益多样化。而且所有的数据都来自于一个孩子,要确定这些技术的普遍性还需要更多的证据。未来工作的另一个重要方向是对词汇学习中语境差异的因果重要性进行更严格的实验测试。