论文部分内容阅读
随着互联网的不断普及,人们的通信方式也发生了巨大的改变。即时通信,作为一种现代化的通信方式迅速得到了普及,成为了人们在工作和生活中进行交流的一种主要方式。然而,它给人们带来方便的同时安全隐患问题也随之而来,人们在进行聊天的时候往往都会忽略对方的身份,这样就让很多不法分子有了可乘之机,他们盗取别人的账号密码,以朋友的身份和我们聊天,这样我们在毫无防备的情况下就会将自己的个人信息泄漏出去,以及造成金钱上的损失。本课题的主要研究内容就是:如何杜绝这种安全隐患让人们可以安全放心的去进行交流。现如今有很多比较流行的即时通讯工具,比如MSN、AOL、QQ等,。虽然这些工具也在一定程度上设置了安全检测,但是一般都是通过一些敏感词汇的方法,比如银行、账号、买、卖等。然而,很多情况下那些不法分子是想获取我们的个人信息获取额外利润。因此,准确的识别出对方的真实身份才是解决问题的根本所在。大家都知道,我们在进行聊天的时候大多数都是以文本的形式进行交流的,虽然其中也会有一些图片、表情等,但文本还是占据了大部分的信息量。因此,本课题的主要研究对象就是人们聊天时候的文本信息,即聊天记录,通过聊天记录分析人的说话方式和语气,然后通过说话方式的差异来判断聊天者的真实身份。本论文的主要贡献有一下几点:第一,考虑到即时信息的特殊性,我们只提取了文本中的语气词、标点符号、助词等一些没有实际意义的词,而不考虑名词,形容词等实词。第二,在提取特征的时候,不再采用基于词频的统计方法,而是提出将主题特征模型应用到该问题上。第三,对提取出的主题特征进行了筛选,删除那些对分类影响不大的主题,只保留对分类结果影响较大的的那些主题。第四,鉴于这种主题模型只考虑了文本内部的特征,我们又将结构特征融入到主题模型中去,最后利用主题特征和结构特征来进行最终的身份识别。通过实验得出了以下几条结论:第一,主题模型完全适合与身份验证这个问题;第二,经过主题筛选之后的特征能够提升识别的正确率;第三,文本的长度,主题的数目,不同的特征提取方式,都能够对最终的身份验证产生不同的影响。