密码语义表征:汉语拼音在网民中的作用



一、文献名称 ¶

Han, G., Yu, Y., Li, X. X., Chen, K. F., & Li, H. (2016). Characterizing the semantics of passwords: The role of Pinyin for Chinese Netizens. Computer Standards & Interfaces, S0920548916301222. http://doi.org/10.1016/j.csi.2016.10.006

二、研究背景 ¶

存储在云端的敏感数据的安全性问题频发,用户身份验证是当前部署的安全基础设施的核心组件。其中,基于知识(通常是基于密码)的模式有很长的历史,是当前在线服务的主要身份验证方法。密码的使用和特征上已经有很多的研究,但在收集真实数据进行分析方面始终存在困难,同时,理解人们选择的密码背后的予以模式也不是一项容易的任务。文中关注中国网民的密码,并设法研究由于拼音结构明确的密码的拼音语义。

三、研究过程及方法 ¶

​ 文中的数据源来自于自已部署身份验证系统的真实文本密码(有许多密码集属于被黑客攻击的网站,密码列表随后被泄露给公共领域)。本研究的数据总共有141,854,840个密码,如:

​ 1、电子邮件服务(email services)

mail.163.com和www.126.com两个数据源。从上述电子邮件系统的密码数据集中提取11,203,094个密码。

​ 2、CSDN(中国软件开发者网络)

CSDN用户主要是IT专业人员、计算机工程师和科学家,他们的安全意识比一般人强。我们从CSDN数据源获得6,427,428个密码。

​ 3、其他(网络论坛,游戏等)

从新浪、天涯、7k7k等网站获取了124,224,318个密码。

Tab-1

拼音是将中文文本输入电脑的主要方法

Tab-2

Tab-3

Tab-4

表2-4总结了汉语音节的声母韵母组合和汉语拼音拼写。在中文中,我们要考虑中文名字(姓和名)对于密码来说意味着什么。把姓和名结合起来看,中国人的名字通常为两个字或三个字,这些有良好定义的结构,可以帮助我们进行密码分析。

密码中除了有拼音语义模式之外,还有一些其他的:

Fig-1

占主导地位的密码长度在6-11个字母之间,因为在type2注册的用户有更好的安全意识,我们期望type2的密码应该比type3的强,分布可以证实。

频率计算:某个字母在数据集中出现的数量/数据集中所有字母的数量

Tab-6

表6表明密码中大写字母的数量

Tab-7

表7表明密码中每个小写字母的数量

Tab-8

表8显示了整个数据集的字母频率。高频字母依次为aA、iI、nN、eE、oO、hH、lL、gG。而在英语中频率较高的字母是E、T、A、O、I、N、S、H

Fig-2

图2显示了type1、2、3的密码比较。三条曲线比较相似,意味着中国用户通常遵循相同的特征来选择密码。

Tab-9

表9显示了包含特殊符号的密码的数量。与预期相符,类型1和类型2的百分比比类型3的百分比高,因为电子邮件帐户可能会传递敏感信息,CSDN的用户有更好的安全意识。

Fig-3

特殊符号更可能出现在中间,而不是出现在开头或结尾。

Fig-4

图4显示了密码中使用的特殊符号分布。”. @ _ + * - ! “是用户选择密码中最常用的特殊密码。如分隔符“-”和“.“通常用于分隔日期的元素。

在检查密码中的拼音特征时,我们把所有的密码分为四组:

Fig-5

组1:密码纯数列

组2:检查用户使用拼音或姓名作为密码的情况,分为六类:

​ 1)纯拼音类:woaini

​ 2)拼音+日期:woaoni20140101

​ 3)拼音+非日期数字:woaini0

​ 4)纯姓类:只考虑单字姓氏,不考虑双字形式。四种情况:姓氏后接名的第一个字母,lixx/ yu y(包括姓名全拼);名的首字母后接姓氏的全拼,xx li/y yu;名的全拼后接姓氏首字母;姓氏的首字母后接全名。

​ 5)姓名+日期类:xiexinyu20140101

​ 6)姓名+非日期数字:xiexinyu5

组3:需要特殊符号: # $ % & ’ () * +,-. /:; < = > ? @ [⧹] ^ _ ‘ {|}

组4:其他类别,不在以上三种。

Fig-6

图6展示了组1和组2的模式可以涵盖76%以上的密码设置。

Fig-7

图7展示了6-11个字母占主导地位

Fig-8

图8显示,超93%的用户选择对应两个、三个或四个汉字的拼音全拼作为密码,是为了方便和助记。

因为大多数用户都知道英语是第二语言,所以我们比较了一些常用的密码。这些密码是拼音和同义的英文单词。

Tab-10

表10表明,中国人更倾向于用母语作为密码,即使他们很懂英语。

Tab-11

解释了这些密码。不要将密码建立在正在访问的网站或应用程序的名称之上。同时,在最常使用的前25个密码中,没有一个英语单词,同时某些数字拥有特殊含义。

四、讨论及其他 ¶

理解密码中的语义模式可以帮助我们更好地理解人们如何选择他们的密码,这有助于提供可用的密码策略和密码创建指南。终端用户往往是信息安全链条中最薄弱的环节,因此终端用户往往是攻击者利用的第一个调用点也就不足为奇了。密码所有者越容易记住,通常意味着攻击者也越容易猜出密码。

从语言学的角度,如何加强密码的保护性?