大数据处理技术在专利数据分析中的应用研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:yxws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文献具有数据量大、类型复杂,蕴含信息丰富的特点。但是,目前常用的专利文献处理信息化平台对海量专利文献数据的处理能力不足,缺乏对专利文献进行系统分析与深度信息挖掘的能力。为了解决这些问题,本文课题围绕大数据技术在专利数据分析中的应用展开了研究开发。  作者调查了专利审查工作,尤其是专利数据审查质量分析与低质量专利分析的应用需求;研究了大数据处理与分析的相关技术;设计了专利大数据处理平台的体系结构(主要包括应用系统、Spark大数据框架、数据源三大组成部分)。研究了K-近邻算法、关联规则算法,以及聚类算法在专利数据分析处理中的应用方法。  在理论研究的基础上,基于Linux操作系统、Spark2.1.0、R3.3.2构建了专利大数据处理平台,基于Spark R与Mlib环境,应用基于R的W e b交互界面的应用框架软件包Shiny、可在Spark中进行数据分析的R语言包Sparklyr,以及R语言开发实现了低质量专利数据聚类分析软件。  本软件以外观专利申请中的低质量案件为对象,获取其主分类号等数据集,存储在分布式文件系统h d fs中;应用R语言调用Sparklyr连接Spark计算框架;通过K均值聚类软件进行聚类输出,获得数据分析结果,再通过R程序进行可视化;使用shiny与用户进行Web交互。  目前,低质量专利数据聚类分析软件已在某公司正常运行,可对低质量专利数据进行聚类分析;可根据颜色,位置,聚合程度来直观显示聚类效果。运行结果表明,本软件对于辅助专利机构提高审查效率与专利服务水平,推进专利处理信息化具有很好的实用价值。
其他文献
实时系统经常被用在飞机、军事以及交通控制等安全攸关的领域,因此保证其正确性和安全性至关重要。建模、仿真及验证语言(MSVL)是一种基于投影时序逻辑(PTL)的时序逻辑程序设计语
近几年,一种动态自适应流(MPEG Dynamic Adaptive Streaming over HTTP,MPEGDASH)技术逐渐兴起,该技术根据网络环境的变化可以在多种码率的多媒体资源中进行动态选择。但这种
车辆牌照自动识别技术是智能交通系统的关键技术之一,是计算机视觉与模式识别技术在现代化智能交通管理领域中的一项重要研究课题。在城市智能交通系统中,车辆牌照自动识别系统
我们处在一个信息高度发达的时代,信息安全也随之成为人们十分关注的问题,各种身份识别技术应运而生。其中生物特征识别技术在众多的身份识别技术中,以其独特的优越性脱颖而出,广
信息技术迅猛发展使电子文档的应用日渐普及,部门的大量敏感数据和涉密信息存在的形式均是电子文档,因此,电子文档成为当今信息存储ǐ传输和发布的主要载体但是电子文档易被修改
随着社会经济的不断发展,人群密集的公共场所越来越多,如何对人群进行有效的监控已经成为公共安全中的突出问题。智能视频监控采用计算机视觉、图像处理和模式识别等技术对人
图像分割是多媒体领域中的一项关键技术,至今仍未提出一个通用的方法以及标准,对图像分割的研究将是个不断发展和进步的过程。目前很多结合图像底层信息的分割方法,已经不能满足
随着计算机和互联网技术的快速发展,各种软、硬件系统已经广泛渗透到人类生产和生活中,如何保证计算机系统严格按照人类设计的方式进行工作已经成为当前计算机相关研究课题之一
在付出了惨痛代价之后,人们才发现承载在互联网上的多媒体数据的内容保护问题刻不容缓。互联网为多媒体信息交流及交易提供了平台,却没有有效解决安全保障问题。与文本数据不同
互联网的快速发展和广泛应用,为人们提供了丰富全面的教育资源,极大的改变了人们的学习方式,促使越来越多的人们通过网络来施展教育和获得教育。然而网络教育资源数量的爆炸式增