论文部分内容阅读
信息时代的到来,Imemet上出现了爆炸式增长的信息资源。为了让人们能够驾驭信息,而不是被信息所淹没,需要有一种方法来对信息资源进行分类管理。面对这项让传统的领域专家再也不能够胜任的任务,自动文本分类技术的出现让人们看到了希望。在我国信息化大潮汹涌澎湃的今天,亟需开发适合中文的自动文本分类系统。本文就中文自动文本分类系统进行了一些研究。
研究的主要内容包括:
1.基于N-gram的模型的中文文本表示。对主流的文本表示模型进行了分析比较;研究了N.gr锄模型的参数N选取、平滑算法、特征选择算法等内容。
2.中文自动文本分类系统的结构。对系统的各个功能进行讨论,对系统的核心功能分类器进行了详细论述。本文选择了一种链状朴素贝叶斯分类器,这种分类器通过与N-gram模型相结合,弱化N-gram模型的独立性假设。实验表明,这种方法能够取得良好的分类效果。
3.中文自动文本分类系统的实现。给出了系统关键类的设计,并对某些关键点进行了展开;总结了开发过程中采用的主要软件开发技术;提供了系统的截图。
4.通过实验研究了语料库对分类系统的影响。通过建立不同的语料库、对语料库进行调整等方法,对语料库的规模与质量对分类系统的影响进行了研究。实验结果给出了语料库所要遵循的标准。
论文的组织如下:首先指出了本研究的意义,介绍了该领域研究的发展概况;随后在第二章和第三章对统计语言模型、文本分类系统的结构设计及若干关键问题进行了阐述;第四章在前面的基础上给出了系统实现,对系统实现过程所遇到的问题与解决方法作了展开;第五章介绍了研究过程中实验所采用的评价标准、BaseLine系统、语料库以及实验结果,并对实验结果进行了分析;最后是总结和展望。