论文部分内容阅读
在飞速发展的当今社会,科学技术是第一生产力。作为科技载体的专利—已经成为衡量一个国家和企业创新能力的重要因素。专利文档是一个重要的资源,它能够用来保护个人、组织和公司的权益。因此,专利数据的研究、处理、分析、挖掘具有重要意义,而这些分析处理中首要的就是专利分类。尽管专利的挖掘在最近几年取得了突飞猛进的进步,文本分类和专利分类技术取得了进步。但是专利的分类研究仍然有待提高。本文在对文本分类的基本框架和基本原理进行系统梳理的基础上,研究了基于向量空间模型和词向量的方法,并设计了中文专利自动文本分类系统,该系统的主要内容如下:(1)首先下载专利摘要文本作为本研究的数据集,对专利文本进行处理,得到专利文本的形式化表示。(2)接着通过处理后的专利文本训练得到专利领域的词向量,结合词向量,建立文本向量模型;本文提出了两种方法:基于词向量做特征选择和基于词向量和空间向量模型结合的方法。(3)最后运用机器学习的方法进行建模和分类,得到分类的准确率。为了验证本论文设计方法对于专利文本的自动分类的有效性,本文运用标准的数据集SST进行测试,对于得到的模型分别运用支持向量机算法(SVM)和随机森林算法(RF)等经典算法进行对比。实验表明本文设计的方法是对于中文专利文本的分类是有效的。