基于LDA的聊天者身份验证

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wwkuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断普及,人们的通信方式也发生了巨大的改变。即时通信,作为一种现代化的通信方式迅速得到了普及,成为了人们在工作和生活中进行交流的一种主要方式。然而,它给人们带来方便的同时安全隐患问题也随之而来,人们在进行聊天的时候往往都会忽略对方的身份,这样就让很多不法分子有了可乘之机,他们盗取别人的账号密码,以朋友的身份和我们聊天,这样我们在毫无防备的情况下就会将自己的个人信息泄漏出去,以及造成金钱上的损失。本课题的主要研究内容就是:如何杜绝这种安全隐患让人们可以安全放心的去进行交流。现如今有很多比较流行的即时通讯工具,比如MSN、AOL、QQ等,。虽然这些工具也在一定程度上设置了安全检测,但是一般都是通过一些敏感词汇的方法,比如银行、账号、买、卖等。然而,很多情况下那些不法分子是想获取我们的个人信息获取额外利润。因此,准确的识别出对方的真实身份才是解决问题的根本所在。大家都知道,我们在进行聊天的时候大多数都是以文本的形式进行交流的,虽然其中也会有一些图片、表情等,但文本还是占据了大部分的信息量。因此,本课题的主要研究对象就是人们聊天时候的文本信息,即聊天记录,通过聊天记录分析人的说话方式和语气,然后通过说话方式的差异来判断聊天者的真实身份。本论文的主要贡献有一下几点:第一,考虑到即时信息的特殊性,我们只提取了文本中的语气词、标点符号、助词等一些没有实际意义的词,而不考虑名词,形容词等实词。第二,在提取特征的时候,不再采用基于词频的统计方法,而是提出将主题特征模型应用到该问题上。第三,对提取出的主题特征进行了筛选,删除那些对分类影响不大的主题,只保留对分类结果影响较大的的那些主题。第四,鉴于这种主题模型只考虑了文本内部的特征,我们又将结构特征融入到主题模型中去,最后利用主题特征和结构特征来进行最终的身份识别。通过实验得出了以下几条结论:第一,主题模型完全适合与身份验证这个问题;第二,经过主题筛选之后的特征能够提升识别的正确率;第三,文本的长度,主题的数目,不同的特征提取方式,都能够对最终的身份验证产生不同的影响。
其他文献
高效的查询执行效率是数据仓库管理系统开发时最大的关注点。最近的研究表明,底层数据以列存储的方式进行组织,能够更好地适应数据仓库管理系统面向查询的特征,能够在执行过
近年来,复杂网络得到了越来越多的关注。复杂网络研究的最终目标是为日常生活设计出鲁棒性高的系统。但是日常生活中的系统经常会遭受一些无意的破坏甚至恶意的攻击。因此,研究
目前,无线传感器网络由于其低功耗、低成本、分布式和自组织等优点在各种应用环境中都得到了使用,但是由于需要大范围的布置在露天或者野外环境中,传感器节点很容易受到攻击者挟
随着计算机和网络技术的发展和普及,人们对于计算和存储的需求越来越大,TB级别数据以及PB级别的数据需求已经越来越普遍。因此,基于计算机网络技术的分布式存储系统成为研究热点
全自主智能机器人要求信息处理和控制决策完全由板载芯片处理完成,所以大部分由嵌入式系统设计完成的,而全自主智能机器人采用的嵌入式系统的处理速度以及存储能力相对于普通PC
众所周知,随着互联网用户数量的急剧增加,互联网的核心技术 IPv4的缺陷已经暴露明显,如IP地址匮乏,安全性不足等,这些缺陷将严重制约未来互联网应用和规模的发展,互联网急需
传统机器学习方法从训练数据中学习得到的数据模型能够在测试数据中取得良好效果的前提是:有充足的训练数据且训练数据与测试数据同分布。然而,这种强约束性的前提往往难以得到
The countries of the world also develop the documents using many kinds of scripts in differentlanguages. Most countries use standard fonts for recognizing the t
随着社会的发展,计算机技术越来越深入人们生活,使得人们对计算机应用软件的需要在提高,对于软件的质量的要求也逐渐增长。但是应用软件的开发效率却没有跟上这一步伐。这一方面
随着商业竞争的加剧,商业智能系统开始在各种商业领域中扮演越来越重要的角色。商业智能是基于数据仓库、ETL、OLAP、数据挖掘和前端数据展现等技术发展起来的技术,其实质是从