基于自然语言处理与非负矩阵分解的中文文本分类研究

被引量 : 1次 | 上传用户:etzhenghao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本自动分类就是根据待判文本的内容,让计算机自动将其判别为预先定义好的若干类别中的某一类或者是某几类的过程,它是中文自然语言处理中的一个重要研究方向,有着极其重要的现实意义。中文文本分类的难点就是文本经向量空间模型表示后,特征空间维数很高,这样一方面会增加文本分类的计算复杂度,导致分类时间过长,另一方面这些特征中可能含有冗余特征,导致分类精度降低。另外,在选择“词”作为文本表示的特征项时,分词的精度对分类效果有着一定的影响,而目前的分词系统中存在着分词词典过于陈旧、领域相关性过强的缺点,会直接影响分词精度而导致不满意的文本分类效果。针对以上两个问题,本文提出了基于自然语言处理与非负矩阵分解的中文文本分类算法。针对目前分词词典过于陈旧、领域相关性过强的缺点,提出了基于统计的用户词典生成算法,该算法首先对最新的大规模语料库进行分词,然后利用新词发现算法,经过适当人工干预,形成一个只包含新词的用户词典,在分词时,与原词典采用一体化方法来提高分词精度。针对中文文本分类中特征空间维数较高的问题,结合非负矩阵分解的独特优点——分解结果的非负性,提出了基于非负矩阵分解的中文文本分类算法。分类时,首先利用非负矩阵分解方法进行特征提取,然后进行分类识别。对上述算法,本文从四个方面进行了比较实验,实验结果表明,上述算法提高了文本分类的F1值,证实了所提算法的有效性,文章最后设计并实现了一个中文文本自动分类系统。
其他文献
分组密码是密码学的重要内容,是实现信息保密的核心体制,其安全性分析也一直是密码研究中非常活跃的课题。随着集成电路和智能卡技术的发展,以及嵌入式系统的大规模应用,单纯
突发公共事件是指突然发生,造成或者可能造成重大人员伤亡、财产损失、生态环境破坏和严重社会危害,危及公共安全的紧急事件。随着经济的发展,我国已经进入了一个突发事件高
本文运用文献资料法、问卷调查法、访谈法、实地调查法、逻辑分析法、比较分析法、数理统计法等研究方法,以福建省社会体育指导员人才市场需求和高校社会体育专业培养社会体
供应商质量管理作为企业整个质量管理链条的开端,它的成功与否直接决定了整个质量过程的成败。供应商质量管理水平的高低,对企业的产品质量有着至关重要的影响。质量成熟度模
计算机图形行业可以说是一个新兴的行业,其历史并不像很多其他行业那样悠久,它是基于电脑技术而衍生出来的一个新行业。但是它的发展速度却是惊人的,它给人们的生活和工作都
工程项目管理工作应当贯穿工程建设的始终,管理是否完善影响着工程造价以及工程成本。为了保证工程造价以及成本都能够被控制在合理的范围内,管理人员应当对项目管理工作予以足
高性能混凝土具有强度高、性能优良、结构使用寿命长、节约资源,利于环境保护等优点,因而在工程中得到广泛应用。本文依托齐泰公路—嫩江特大桥项目,结合国内外高性能混凝土
目的关于高龄高血压患者采用厄贝沙坦氢氯噻嗪片干预疾病的临床价值探究。方法选取80例来我院诊断及治疗疾病患者进行研究,待确诊为高血压后,分组给予患者厄贝沙坦(对照组)、
采用文献资料法、访谈法、问卷调查法、数理统计法对湖南省高职院校排球运动的教学情况进行调查分析,结果显示:湖南省高职院校排球课教学中班级参与人数较多;湖南省高职院校排球
近年来,在快速城市化进程和经济发展的影响下,城市交通需求迅速增长,交通问题成为困扰许多大城市发展的通病,交通拥堵成为制约城市经济和社会发展的“瓶颈”。停车换乘系统作