基于统计语言模型的中文自动文本分类系统

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:yyy123yy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的到来,Imemet上出现了爆炸式增长的信息资源。为了让人们能够驾驭信息,而不是被信息所淹没,需要有一种方法来对信息资源进行分类管理。面对这项让传统的领域专家再也不能够胜任的任务,自动文本分类技术的出现让人们看到了希望。在我国信息化大潮汹涌澎湃的今天,亟需开发适合中文的自动文本分类系统。本文就中文自动文本分类系统进行了一些研究。 研究的主要内容包括: 1.基于N-gram的模型的中文文本表示。对主流的文本表示模型进行了分析比较;研究了N.gr锄模型的参数N选取、平滑算法、特征选择算法等内容。 2.中文自动文本分类系统的结构。对系统的各个功能进行讨论,对系统的核心功能分类器进行了详细论述。本文选择了一种链状朴素贝叶斯分类器,这种分类器通过与N-gram模型相结合,弱化N-gram模型的独立性假设。实验表明,这种方法能够取得良好的分类效果。 3.中文自动文本分类系统的实现。给出了系统关键类的设计,并对某些关键点进行了展开;总结了开发过程中采用的主要软件开发技术;提供了系统的截图。 4.通过实验研究了语料库对分类系统的影响。通过建立不同的语料库、对语料库进行调整等方法,对语料库的规模与质量对分类系统的影响进行了研究。实验结果给出了语料库所要遵循的标准。 论文的组织如下:首先指出了本研究的意义,介绍了该领域研究的发展概况;随后在第二章和第三章对统计语言模型、文本分类系统的结构设计及若干关键问题进行了阐述;第四章在前面的基础上给出了系统实现,对系统实现过程所遇到的问题与解决方法作了展开;第五章介绍了研究过程中实验所采用的评价标准、BaseLine系统、语料库以及实验结果,并对实验结果进行了分析;最后是总结和展望。
其他文献
期刊
本论文主要研究了基于离散余弦变换和离散小波变换的两个数字灰度图像水印算法。随着网络技术和多媒体技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,并成为人们
目前,随着生物特征在个人身份验证、安全监控等方面的应用,我们对人脸识别的要求十分的迫切。计算机人脸识别技术是利用计算机对人脸图像进行分析,进而从中提取出有效的识别信息
随着计算机网络技术的飞速发展,数字产品正逐渐取代传统媒体服务,但数字产品易修改、易复制的特点使得版权纠纷层出不穷。因此,安全的数字水印协议已成为数字产品版权研究领