基于粗糙集的Web文本分类技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hjjytsfsdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网产业的飞速发展,网络上聚集了海量的数字信息资源,越来越多的研究人员把如何有效处理这些海量数据作为自己的研究课题,同时,企业界也在这一领域做了大量的工作。目前处理Web信息的主要手段是使用一些由厂商开发的互联网搜索引擎,这在一定程度上解决了人们面对海量数据时无可奈何的情况。从海量数据中检索自己需要的信息只是对Web数据进行处理的一个方面,如果能够只在使用者所需要的类别中进行检索,则可以去除那么明显不必要的信息从而进一步提高搜索引擎的检索效率和准确度。这就要涉及到Web数据资源的分类技术,在Web数据的分类技术当中,使用最普遍的则是Web文本的分类。Web文本分类技术可以根据网页的文本内容自动对网页进行分类,这一技术主要依靠人工分类所得的训练文本来学习获得分类依据,通过这些训练文本再结合相应算法就可以构造一个Web文本分类系统。当然,对网页分类不同于普通的文本分类,在对网页进行分类之前还要进行相应的预处理程序。目前已经有很多方法应用到文本分类当中,其中使用最普遍的主要有SVM方法,K-近邻方法,决策树方法,以及朴素贝叶斯方法等等。粗糙集理论作为处理不确定性数据的数学工具,在文本分类中也有其独到之处。利用粗糙集进行文本特征的属性约简可以极大的降低特征向量的维数,从而更有效的进行后期的文本分类操作。本文主要研究通过粗糙集对Web文本进行分类的理论和方法,首先,我们对Web文本进行预处理,包括除噪、分词、词频统计、去停用词等;然后通过特征提取方法进行特征项的提取,并使用改进的TF-IDF函数进行特征项权重计算;之后将得到的特征词集合作为Web文本的属性集,特征词的权值和文本所属的类别分别作为属性值和决策属性,再通过粗糙集属性约简得到分类规则;最后根据分类规则对测试文本进行分类,验证分类结果的准确性,并与基于SVM的分类方法进行比较。我们可以发现,通过这样设计的分类器的性能和效率有了较大的提高。
其他文献
随着世界信息化的飞速发展,网络中总数据量呈现出爆炸式的增长。同时,随着科技的不断发展,多数据终端时代也在加速到来的脚步。所有的这些现状,都使得软件研发面临严峻的考验
本文主要研究基于z/OS平台的海量实时交易系统的仿真,并对其进行DB2性能优化的研究。我们将设计开发一个基于z/OS平台的交易系统,生成高仿真的海量数据,利用TPNS进行大规模并