基于VSM的文本分类系统的设计和实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zxzcmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,网络信息技术发展的速度相当惊人,信息增长速度越来越快,人类面临的信息量已经十分庞大,怎么样在这样巨大的数据量中找到人类需要的信息,满足人类的需求,成为了人类面临的一大问题,使用计算机对文本进行自动化分类的技术能够在很大程度上帮助人们解决这个问题。文本分类技术是自然语言处理领域和模式识别领域的一大课题,它诞生于20世纪50年代末,最初被使用于图书管理领域,经过好几代学者的研究到今天,这门技术已经从青涩变得成熟。近年来文本分类技术已经应用到信息检索,信息推送,信息过滤等多个领域,并且为人类提供了更好的信息化的服务。研究文本分类技术对我们有着很大的意义,它可以帮我们减少信息获取的时间,更好的取得信息,同时也有利于我们对信息更好地分类整理。本文完成了一个使用向量空间模型(VSM)的文本分类系统,在文本分类预处理阶段,使用了基于隐马尔科夫模型(HMM)的分词方法将文本转化成为词袋的表示形式。在文本特征项选取过程中,采用了开方测试(CHI统计量)和互信息法进行特征项选取。在特征项特征权重赋值方面,本文参考了众多论文对改进的TF-IDF的特征权重赋值方法的描述,探讨并且采用了TF-IDF的改进版本作为本文涉及的文本分类系统的特征权重函数。在分类器选择方面,本文借鉴了比较成熟,高效的支持向量机技术,支持向量机是向量空间模型的一种实现,并且使用台湾大学林老师的LIBSVM对文本进行分类,同时本文深入探讨了支持向量机技术。本文所涉及的文本分类系统从工程实际角度出发,利用并行化计算平台Hadoop进行模型训练,实现了文本分类的任务,分类效果达到了预期。
其他文献
目前幼儿单纯性肥胖正成为严重的儿童健康问题。其中80%儿童期肥胖将发展为成人期肥胖,导致相关性疾病。我园肥胖儿占总人数的9.7%,通过园内、家庭干预方案的有效实施发现,家长
单一物探方法的多解性是地球物理勘探的基本问题,而综合多尺度、多物理场的地球物理资料联合反演方法研究已经成为地球物理界研究的热点之一。论文利用数学物理方法将瞬变电磁
本文概述了21世纪初我国几个典型的"神医"事件,初步分析了21世纪初我国"神医"的基本特征,并在法律层面和科技工作者层面上提出了相关对策,指出:在法律层面上,应进一步完善相
劳动派遣是《劳动合同法》在相关理论还没有完全的情况下展开的立法实践。从表面看,《劳动合同法》对劳动派遣进行了十分严格的规定,但是理论的缺陷导致被派遣劳动者的合法权