论文部分内容阅读
众所周知,网络信息技术发展的速度相当惊人,信息增长速度越来越快,人类面临的信息量已经十分庞大,怎么样在这样巨大的数据量中找到人类需要的信息,满足人类的需求,成为了人类面临的一大问题,使用计算机对文本进行自动化分类的技术能够在很大程度上帮助人们解决这个问题。文本分类技术是自然语言处理领域和模式识别领域的一大课题,它诞生于20世纪50年代末,最初被使用于图书管理领域,经过好几代学者的研究到今天,这门技术已经从青涩变得成熟。近年来文本分类技术已经应用到信息检索,信息推送,信息过滤等多个领域,并且为人类提供了更好的信息化的服务。研究文本分类技术对我们有着很大的意义,它可以帮我们减少信息获取的时间,更好的取得信息,同时也有利于我们对信息更好地分类整理。本文完成了一个使用向量空间模型(VSM)的文本分类系统,在文本分类预处理阶段,使用了基于隐马尔科夫模型(HMM)的分词方法将文本转化成为词袋的表示形式。在文本特征项选取过程中,采用了开方测试(CHI统计量)和互信息法进行特征项选取。在特征项特征权重赋值方面,本文参考了众多论文对改进的TF-IDF的特征权重赋值方法的描述,探讨并且采用了TF-IDF的改进版本作为本文涉及的文本分类系统的特征权重函数。在分类器选择方面,本文借鉴了比较成熟,高效的支持向量机技术,支持向量机是向量空间模型的一种实现,并且使用台湾大学林老师的LIBSVM对文本进行分类,同时本文深入探讨了支持向量机技术。本文所涉及的文本分类系统从工程实际角度出发,利用并行化计算平台Hadoop进行模型训练,实现了文本分类的任务,分类效果达到了预期。