在线社会网络下的垃圾信息过滤技术的研究

被引量 : 0次 | 上传用户:tjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,社交媒体成为了最活跃的社交平台,为广大网民提供了快捷、良好的沟通方式。虽然社会网络的迅速发展给用户的互相沟通带来了便利,但是另一方面,弊端也随之而来,网络上大规模出现的垃圾信息阻碍了人们的正常交流。垃圾信息不但会被一些投机取巧的分子利用来传播虚假的消息、恶意的链接,而且会消耗大量的网络资源,损害了网络用户的利益。随着垃圾信息的迅速膨胀,迫切需要一种技术来净化网络空间,创造健康良好的社交体系,因此,垃圾信息过滤技术的研究成为了学者们普遍关注的问题。在垃圾微博信息过滤方法中,机器学习技术因为准确率高、成本低的特点,受到了广大研究者的青睐,成为了解决垃圾信息过滤的主要方法。但是考虑到使用机器学习时,需要大量的训练数据,而这些需要人工去标注,是一项耗时耗力的工作。基于此项,本文提出了通过匹配建立好的动态垃圾词库来标注微博信息。本文的工作主要包括:1、详细介绍了社会网络平台下的垃圾信息过滤状况,对社会网络进行了概述,主要包括社会网络的定义、发展和分类,介绍了国内外垃圾信息过滤的现状以及常用的垃圾信息过滤的方法,对垃圾信息的种类和垃圾微博的定义进行了简单的介绍2、基于统计学的机器学习方法过滤成为现在主流的垃圾信息过滤方法。基于机器学习的特点,有监督学习的机器学习需要大量的标注好的训练数据,所以在本文中,我们提出了基于动态垃圾词库的微博信息标注模型,对所提出的模型画出了流程图、对各个子模块进行了详细的介绍,最后提出了一个基于贝叶斯定理的建立垃圾词库的算法3、详细的介绍了垃圾词库建立中所要用到的技术,在文章的最后我们应用建立好的垃圾词库去标注微博信息,通过实验证明了基于提出的垃圾词库构造的标注模型具有很好的效果文中主要创新工作包括:(1)提出了基于动态垃圾词库的微博信息标注模型,通过该模型可以对未知的微博信息自动进行标注,省去人工标注的时间和精力(2)提出了基于贝叶斯定理建立垃圾词库的算法,并通过实验验证了算法的可行性和正确性(3)在提出的算法基础之上加入了校验环节,使得通过改进的算法建立的垃圾词库具有更好的准确性
其他文献
浅埋暗挖法大跨度地铁车站具有埋深浅、开挖断面大、围岩稳定性差、施工技术复杂等特点,施工过程稍有不慎便会产生过大的地层变形甚至坍塌,加之地铁车站一般位于城市交通繁忙
村镇信息化已经成为现阶段国家信息化发展战略和社会主义新农村建设的重要组成部分,特别对我国而言,农村主要分布在县级市域之内,探索和总结县域村镇信息化工作的模式和经验
<正>产业政策、货币政策、财政政策是国家进行宏观经济调控的重要工具。要使经济社会朝着宏观调控预期的目标发展,必须注重三者的协调配合。为此,国家金库衡阳市中心支库以衡
目的探讨2型糖尿病合并冠心病病人冠状动脉造影特点。方法对68例2型糖尿病合并冠心病病人和62例非糖尿病冠心病病人冠状动脉造影资料进行统计分析。结果冠状动脉造影结果显示
目的:探讨中药名方泽泻汤对动脉粥样硬化过程中氧化型低密度脂蛋白(ox-LDL)诱导动脉血管内膜平滑肌细胞基质金属蛋白酶抑制剂-1、3(TIMP-1、TIMP-3)及基质金属蛋白酶-2、9(MMP-2、M
目的观察天灸治疗过敏性鼻炎的临床疗效。方法将260例过敏性鼻炎患者随机分为2组,治疗组160例采用天灸治疗,对照组100例采用穴位注射治疗,每周1次,连续治疗10次;天灸组采用中
幽门螺杆菌(简写Hp),是许多慢性胃病发生发展中的一个重要致病因子。Hp与慢性胃炎、消化性溃疡、胃癌和胃黏膜相关性淋巴样组织(malt)淋巴瘤密切相关。目前通用的三联及四联
<正>4月20~22日,第21届中国国际花卉园艺展览会在上海新国际博览中心举办。中国花卉协会副会长王兆成,国际园艺生产者协会(AIPH)秘书长提姆·布莱尔克里夫(Tim Briercliffe),
<正>瘙痒是皮肤病最常见的症状,很多皮肤病都可能出现瘙痒,如:荨麻疹、湿疹、结节性痒疹、神经性皮炎等,此外它也可以作为一个独立的病名存在。皮肤瘙痒在临床上易诊难治,有
作为一名一线教师,我们都期望在教学中能够最大程度地发挥教学功能,能和学生在教育教学过程中共同学习和成长。现在教育界普遍提出高效务实的目标,其实就是在有限的教学时间