博客数据特征提取与基于分类的垃圾博客过滤

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yyyypolo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,博客成了继Email、BBS、QQ/ ICQ之后的新一代网络交流方式,并以极快的速度融入到人们的日常生活中,成为基于互联网的基础服务。随着博客空间的急速增长,垃圾博客也迅猛蔓延到博客空间的各个角落;而大量垃圾博客的存在,严重影响了信息检索的准确性,从而使得用户体验变得越来越差,如何精确地判断垃圾博客成为信息检索领域亟待解决的难题之一。在信息安全领域,博客内容倾向性分析成为新的研究热点之一,但大量垃圾博客的存在将严重影响倾向性分析的结果,大大降低其正确性和可信性。因此,必须对博客进行垃圾过滤,以便进行进一步的分析和检索。本文在已有的垃圾博客特征提取基础上,提出了采用词性分析手段对博客特征进行进一步提取的方法。首先考虑到在中文的语法结构中,一个句子由主谓宾构成,尤其在口语话的语句中,还会有很多省略句,这些句子通常只有主语和谓语或仅仅只有谓语。而且博客作者大都在博客文章中记录一些关于自己感兴趣的事情,或者记录自己的心情和近况,会在博客正文中使用丰富的形容词和语气词来表达自己。而垃圾博客通常只是为了提高用户的点击率,或者希望通过增加链接和关键词的方式来提升某个网页在搜索引擎中的重要程度,因此在文章中会出现大量的名词,尤其是跟行业相关的专有名词。所以,对博客文章进行词性分析,提取出跟词性相关的一些特征会大大增加特征之间的互补性,提高垃圾博客分类与过滤的效果。进一步,本文设计了一种针对垃圾博客过滤的动态组合分类算法。该算法首先构造出一种树状组合分类器结构来支持分类,并进一步利用了一种动态调整策略来训练组合分类器。与已有的基于单一分类器或简单集成分类器的方法相比,该方法可以根据样本的分布特点,自适应地调整分类器的组合结构,从而有效缓解样本特征稀疏和样本高度不均衡对分类性能的影响。基于垃圾博客过滤的测试实验表明,该算法在用于垃圾博客过滤时,可以获得较好的准确率和召回率。最后,本文设计并实现了一个基于博客内容的信息检索原型系统,并将垃圾博客过滤算法用于该系统,取得了较好的效果。
其他文献
一个网站由许多个网页组成,网站上的信息分布在这些网页上,而不同用户对不同网页上的信息感兴趣,现在随着网络技术的高速发展,网络上的信息呈指数增长,所以人们要想在众多的信息资
随着Web技术的发展,互联网上出现了一系列基于内容的图像检索应用,即“以图找图”。石材图像检索系统是为石材行业开发的一个基于Internet环境的实用信息系统,该系统可通过石
随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效地获取有用的信息,已经成为研究的热点。目前文本聚类的方法主要有
社交网络作为互联网最热门的应用之一,随着流行和普及,人类的沟通交流已不再局限在相同的时间和空间内。快速发展的社交网络不仅是用户展示自我价值、表达利益诉求和维护人际关
运动对象分割是图像分割的一个重要分支。图像分割就是把图像分割成具有相同信息的子区域,运动对象分割是在图像分割基础上把视频图像或图像序列按照一定的标准分割成不同的
在各种临床诊断,治疗中使用的医学影像,都具有高分辨率、大存储量的特点,随着数字化影像技术的发展,进一步减少医学图像所占的存储空间,提高其在网络上的传输速度,就显得十分
深网是相对于表层网而言的,随着互联网信息的不断扩充和加深,越来越多的信息资源通过动态网页技术与数据库技术相结合的方式提供给人们。但是,传统的搜索引擎受技术等各种限制,无
进化非选择算法是通过借鉴生物免疫进化机制与免疫非选择机制而提出的,具有较好的全局搜索能力。可满足性问题是六个基本的NP完全问题之一,其他NP完全问题均可在多项式时间内
近几年来,以网络为载体的各种应用的研究和开发受到了广泛的关注。其中点对点通信系统作为其中一个重要的应用有着飞速的发展。这类系统涉及到网络组织架构、信道编码、网络
随着科学技术的发展,人们对信息传播和检索的要求越来越高。传统的纸质文献资料虽然是不可或缺的,但是已经不适应信息的快速传播。OCR技术实现了从纸质文献到电子文档的转换,