融合属性抽取的多粒度专利文本聚类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:nufjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,科技研究成果的保护越来越受到国家和企业的重视。专利作为一种知识产权保护形式,同样受到人们越来越多的关注。由于中国经济起步较晚,与外企相比,国内大部分企业在发展初期对于专利保护的认识存在不足。因此,提高专利保护意识,加强专利分析能力,对于国内企业的发展显得越来越重要。专利文本内容包含两种形式,结构化数据和非结构化数据。非结构化数据主要包含专利标题、专利摘要、专利权利要求书和专利说明书等。专利标题常常描述了专利关注的关键技术,专利摘要主要是对专利内容的概括,这两部分非结构化数据包含丰富的专利相关信息。因此,本文选择专利标题和专利摘要作为研究对象。本文以中文专利摘要作为研究对象,提出一种基于条件随机场的信息抽取方法。该方法将属性和属性值视为命名实体,利用训练语料训练得到条件随机场模型,利用模型预测得到专利摘要的属性和属性值,再利用挖掘的关联规则完成属性与属性值匹配。实验结果的准确率、召回率和F值分别是80.8%、81.2%和81.0%,结果证明该方法能够有效地抽取属性和属性值。同时,在抽取结果的基础上,完成了对专利的分析和同类专利的比较,体现了本文方法的实用价值。本文以中文专利标题和摘要作为研究对象,提出一种专利文本聚类方法,具体的研究工作是:基于序列标注相关技术,完成专利摘要属性和属性值的自动提取;将专利摘要信息表示为摘要文本、属性和属性值对两种粒度;利用词向量完成专利摘要和标题的向量表示;通过设置不同的权重系数,将专利标题、专利摘要和专利的属性值对进行线性加权融合。基于谱聚类算法框架,本文完成了中文专利文本聚类。与已有研究相比,实验结果的准确率、召回率和F值均有提高,证明了本文方法的可行性和有效性,体现了本文研究工作的价值。
其他文献
足球视频影响着人们的日常生活,人们对足球视频的关注更多地体现在对其中进球,射门,罚牌等精彩事件的关注。然而用人工的方法从大量的比赛视频数据中查找人们感兴趣的精彩事件是
当今互联网高速发展,人类社会迈入网络信息爆炸时代,这带来了网络上农业知识信息的激增,给农业从业者带来了农业信息查找的便利。知识意味着财富,农业从业者从这些农业信息中
随着信息技术与计算机技术的快速发展,消费者对企业的服务质量也提出了更高的要求。作为现代化的高等学校,更加注重生源市场及服务质量。因此,在高校招生办公室设立招生电话语音
随着互联网的急速膨胀,万维网上信息的增长远远超过人们的应付能力。难以定位、难以获取成为阻碍互联网信息利用的巨大障碍。搜索引擎作为一种方便易用的互联网检索工具致力
本文对基于ARM9的嵌入式Linux驱动程序开发与应用进行了研究。文章分析了ARM处理器和嵌入式Linux系统的显著特点和广泛应用,介绍了嵌入式Linux系统的开发过程包括交叉编译环境
随着基因组测序的完成,生物学研究进入到了后基因组时代,其关键领域之一是对揭示生命活动现象极为重要的蛋白质组学的研究。蛋白质是细胞主要组成成分,其承担着生物体的生命
现代远程教育是随着现代信息技术的发展而产生的一种新型教育形式,远程教育教学系统是远程教育的重要组成部分。目前的远程教学系统的设计与实现都基于C/S(B/S)技术。近来P2P
本文主要通过市场调研,结合电子商务专业特点,修订教学大纲,对课程进行整合,形成电子商务实践课程体系,同时为了配合课程改革需要,实现学生课堂与校内实习、实训基地一体化建设,课题
随机森林算法(Random Forest)是机器学习领域中一种普适性良好的数据挖掘方法。它在决策树算法的理论之上结合bootstrap重采样方法,集合多个单树型分类器,最后结果通过投票的
数据通信是目前发展最迅速的通信业务之一,SDH/SONET光通信网络以其高速率高性能,在当今的通信网络中被广泛采用。CPOSRouter数据接入设备是专为用于利用STM-1 SDH信号中的低