论文部分内容阅读
机电产品创新设计需要深厚的专业知识和丰富的设计经验,是以知识为基础的创造过程。《中国制造2025》指出打造具有国际竞争力的制造业是我国提升综合国力、保障国家安全和建设世界强国的必由之路,并强调我国机电产品制造业存在自主创新能力不强、信息化水平不高、工业基础薄弱和发展方式低效四大问题。机电产品创新设计是一项需要深厚的背景知识和丰富的设计经验的创造性智力过程,是以知识为基础的创造过程,其核心是创新思维,需要将多种创新设计知识综合运用于一体,完成低成本、高效率的创新设计过程,实现机电产品自主创新设计。机电产品制造企业研发过程中,约80%的设计活动可以通过重用以往设计知识实现当前的创新设计要求,设计知识资源的获取与重用,能使现代制造企业快速开展创新设计活动,提高研发效率,缩短开发周期,降低研发成本。本研究在国家自然科学基金面上项目“基于隐性知识的复杂系统创新设计系统关键技术研究”(项目编号:51475097)的支持下,围绕机电产品创新设计的知识获取与重用这一基础问题,以专利文档为具体研究对象,研究智能化的知识获取、处理和重用方法,对于提高产品创新设计活动的研发效率与创新性水平、降低研发成本、丰富知识获取与重用方法相关的理论等具有重要意义。主要工作及创新点如下:在扼要介绍专利文本表示方法的基础上,总结了面向创新设计的专利文本关键词抽取方法。综述了专利命名实体识别技术,阐述了案例推理和规则推理、知识模板、知识组件、以及基于本体的设计知识重用技术的内涵与特点。为了实现多标签机械领域专利的精准归类,基于两类深度学习算法建立了混合特征提取方法(HFEM)。该方法采用卷积神经网络的n-gram特征提取器进行局部词间特征提取,利用双向长短期记忆神经网络模型的长依赖特征捕获能力获取全局词间的特征。HFEM在解决多标签机械专利分类问题时,无需依赖复杂的特征工程、额外的外部语言知识库和复杂的预处理过程。HFEM与三类基准线神经网络模型的实验结果表明,HFEM的准确率、召回率和F1值的均值分别为81%,55%和64%,比对比算法提高了约3%,分类效果优于比较的深度学习模型。为了准确抽取专利文档中的可解释性关键词,提出了基于分布式表示模型的专利文本关键词抽取算法(PEKA)。此算法应用Skip-gram模型对训练语料进行词向量训练,然后利用k-means算法生成当前的质心向量,将每个候选关键词进行向量转换后利用余弦相似度函数计算每个候选关键字与质心向量的相似值,通过对Keywords Dict的值进行排序,获得每个专利文档的前n个关键字。将PKEA与词频、TF-IDF、Text Rank和RAKE四种算法应用在美国专利商标局下载的2500条专利数据集上的对比实验结果表明,PKEA表现优于对比算法。此外还分别基于信息增益和交叉验证分类方法,设计两组关键词抽取质量评价方案,能在专利文档未被人工标注关键词的情况下,分别从微观和宏观角度对算法抽取的关键词进行质量评估。针对机电产品创新设计的知识获取中命名实体识别问题,设计了Bi LSTM-CRF命名实体识别方法。此方法采用一种无监督的方法进行字向量的训练,利用Bi LSTM网络自动捕获语句上下文间的特征,使用CRF方法进行条件序列的预测。实验结果表明,在衡量命名实体识别性能准确率、召回率和F1值方面,所提出的Bi LSTM-CRF命名实体识别方法优经典的CRF方法和神经网络方法LSTM。为解决机电产品设计过程中知识的表示、高效存取、遍历、推理、重用等问题,设计了一种基于深度神经网络的端到端实体间关系抽取模型,将专利文本中的实体间的关系进行高效抽取;研究了专利实体的图数据建模,采用Neo4j图形数据代替传统的关系数据库存储和文件存储方式,实现了将半结构化的专利文本转化成结构化的关系数据。将理论成果进行应用,研发了机电产品创新设计知识获取与重用原型系统。此系统包括知识图谱模块、知识库模块、知识重用模块、项目管理模块以及必要的支撑模块。最后,论文给出了所研制系统在异型烟分拣系统中的码垛机械手创新设计中的应用案例,验证了系统的有效性。