论文部分内容阅读
随着我国科技计划项目申报数量和经费的逐年递增,项目重复申报现象日益突出,人工形式审查难以有效解决项目查重问题。论文针对科技项目申请书的特征,主要研究项目申请书关键词提取、知识表示模型构建以及基于内容项的语义相似度计算方法,并实现科技项目相似性检测分析系统,从而为科技项目查重提供自动的、高效的、公正的决策支持。论文主要研究工作包括:1科技项目分词及未登录词识别算法研究。针对科技项目申请书特征,提出一种基于字符串匹配及语义相结合的分词方法;同时提出一种改进的互信息语言统计模型来识别未登录词。2科技项目关键词提取算法研究。利用《知网》知识结构计算词语之间的语义相似度,然后依据社会网络理论构建词语语义相似度网络并通过计算词语关联度来提取关键词,最后与提取的未登录词合并构成项目的所有关键词。3科技项目知识表示模型研究。通过研究分析向量空间及物元模型,对它们进行结合与扩展来构建项目知识表示模型及相应的知识索引库。4研究提出一种基于项目申请书内容项的语义相似度计算方法。该方法以项目名称、主要研究内容、技术指标等内容项作为相似度计算单元,分别计算项目内容项之间的语义相似度,然后对相似度进行加权平均求得项目相似度。基于上述研究成果实现的科技项目相似性检测分析系统已应用于浙江省科技计划项目申报管理系统中。应用表明系统能有效检测出相似项目,验证了论文研究成果的可行性,为解决科技项目查重提供了良好的信息化平台。