面向专利文献数据的文本分类若干关键技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:llllljjjjjxxxxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今全球化经济的时代,专利技术已成为国家或地区竞争力的核心,专利知识产权越来越受到企业的重视。随着企业竞争越来越激烈,企业用于专利开发的力度不断加大。因此,近年来的专利申请量迅速增大,但是目前专利分类的方法是采用传统的手工分类方法,这种分类方法效率低下,存在许多弊端。专利申请量的激增一方面增加了对快速、自动文本分类的迫切需求,另一方面又为数据挖掘技术的文本分类方法准备了充分的资源。因此,计算机辅助专利分类成为大势之所趋。 中文文本分类技术已趋成熟,在相关领域有着很好的应用,这为专利自动分类系统的实现提供了有力的技术支持。虽然该技术目前还没有实际应用在专利信息上,但是专利信息与其他文本信息有着很多相同的特点,而且更加具有类别的可分性,因此本文提出了将该技术应用在专利文本上的新应用。 本文介绍并分析了文本分类的若干关键技术。结合专利数据的特点提出了一种基于后缀数组的领域词汇抽取方法,并在此基础上利用词典和统计相结合的方法来进行中文分词。本文基于向量空间模型,将文本表示为以特征项权重为项的向量集合,并在权重计算公式中加入了位置信息,使得计算出的特征项权重能够更好地表示文本内容。对于文本分类算法,在结合分类准确度最好的分类算法KNN算法和分类速度最快的分类算法Rocchio算法的基础上,设计了一个层次分类算法,并给出了面向专利文献数据的文本自动分类系统的框架模型。实验表明,该系统具有较好的分类精度与效率。
其他文献
随着互联网应用的日益普及,网络已成为主要的数据传输和信息交换平台,网络安全和信息安全是保障网上业务正常进行的关键。在构建安全网络环境的过程中,防火墙作为第一道安全
随着多媒体和网络技术的不断发展,数字视频信息越来越丰富。如何对这些海量数据进行组织以便于高效的检索成为当今人们迫切需要解决的问题。因此,一方面基于内容的视频信息检
基于全景视觉的动态目标检测与跟踪,在安防监控、辅助驾驶、现场监测、车载巡检、飞行器制导及空间机器人等方面都有直接或潜在的应用前景,其相关检测与跟踪技术具有重要的研究
随着网络技术和存储技术的不断发展,网络存储孕育而生,弥补了单一存储设备在性能和功能上的不足。数据的复制和容灾是网络存储中的重要研究课题。三地数据容灾技术一方面通过
随着信息技术的飞速发展,企业信息化建设逐渐被社会各界所关注,并开始在企业的管理运作中发挥着越来越重要的作用。在企业级开发领域中,使用基于J2EE的三层架构将是绝大多数
随着互联网的普及和多媒体技术的发展,多媒体信息在生活中的作用越来越大,人们对图像等多媒体数据的需求也越来越强烈。然而,传统的文本检索技术已经不能够适应多媒体信息的
最近几年,微博由于其便捷性与开放性,迅速成为信息传播的主力军。为了把握网络舆情动向,快速响应突发网络舆情事件,如何从海量的微博文本流中准确快速地检测出趋势话题也成为
由于互联网具有很高的开放性和共享性,使得数字媒体产品的传播和分享变得非常方便,同时这些产品也更容易遭到非法版权侵犯和恶意信息篡改等攻击。常见的一种情况就是当一部电影
无线传感器网络由部署在检测区域内的大量廉价微型传感器节点组成,通过无线通信方式形成的自组织网络系统,其综合了传感器技术、嵌入式技术、分布式信息技术和无线通信技术,能够