论文部分内容阅读
专利实质性审查是对专利的实用性、创造性和新颖性进行评估,以判定其是否具备创新性的过程。实质审查是专利申请中最耗费时间与资源的一个环节,如何有效地提高专利审查的效率,降低专利申请创新性评估的误判率,缩短专利申请受理的周期就成为专利审查工作的一个关键问题。
本文首先简要介绍了专利审查的任务和数据挖掘技术在专利分析方面的发展现状。接着阐述了构建专利文本分析系统的常用文本挖掘概念和算法,以及开发开放性挖掘系统涉及的Web services技术。最后提出一个基于文本挖掘技术的专利文本自动审查的设计方案,实现了一个原型系统,并且对该系统进行了详细的测试和性能分析。
专利创新性审查原型系统由专利文本网络爬虫、数据清洗、实用性与创新性文本分类、TFIDF统计器、三性相似度计算服务模块、阀值训练模块和查询客户端组成。系统将文本挖掘技术应用到专利审查的过程中,对专利申请进行文本相似度计算,获得申请文本的量化的实用性、创造性和新颖性指标,最后进行创新性判定。
方案首先提出一个局部文本空间分类模型,根据语句语义性质将段落划分成不同主题焦点的语句集,排除非焦点语句对当前主题的相似度计算的噪声干扰。然后考虑词汇词性对特征抽取算法的影响,区分。