基于语义的科技项目相似度计算研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:sxz123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国科技计划项目申报数量和经费的逐年递增,项目重复申报现象日益突出,人工形式审查难以有效解决项目查重问题。论文针对科技项目申请书的特征,主要研究项目申请书关键词提取、知识表示模型构建以及基于内容项的语义相似度计算方法,并实现科技项目相似性检测分析系统,从而为科技项目查重提供自动的、高效的、公正的决策支持。论文主要研究工作包括:1科技项目分词及未登录词识别算法研究。针对科技项目申请书特征,提出一种基于字符串匹配及语义相结合的分词方法;同时提出一种改进的互信息语言统计模型来识别未登录词。2科技项目关键词提取算法研究。利用《知网》知识结构计算词语之间的语义相似度,然后依据社会网络理论构建词语语义相似度网络并通过计算词语关联度来提取关键词,最后与提取的未登录词合并构成项目的所有关键词。3科技项目知识表示模型研究。通过研究分析向量空间及物元模型,对它们进行结合与扩展来构建项目知识表示模型及相应的知识索引库。4研究提出一种基于项目申请书内容项的语义相似度计算方法。该方法以项目名称、主要研究内容、技术指标等内容项作为相似度计算单元,分别计算项目内容项之间的语义相似度,然后对相似度进行加权平均求得项目相似度。基于上述研究成果实现的科技项目相似性检测分析系统已应用于浙江省科技计划项目申报管理系统中。应用表明系统能有效检测出相似项目,验证了论文研究成果的可行性,为解决科技项目查重提供了良好的信息化平台。
其他文献
许多患者都患有神经症状或神经退行性疾病,扰乱了大脑至脊髓及其最终目标即肌肉的正常信息流,进而影响人的行动意图。基于脑电的脑—机接口(Brain-Computer Interface, BCI)作为
输出的路径集合在所有的可能解中具有最小的长度之和。现有的分布式寻找连接s和t的多条不相交路径的方法既不能保证答案正确性也不能保证结果最优性。虽然有一些集中式方法可
随着互联网技术和多媒体信息技术的飞速发展,计算机已经走进了千家万户。互联网使信息交换的形式多种多样同时不受空间限制,使得数字多媒体信息在网上传播越来越便捷,给人们
齿轮形状复杂,测量参数较多,使得齿轮测量一直成为几何测量中的难点。传统的齿轮参数测量方法,往往带有测量人员的主观误差,且存在劳动强度大、检测效率低等一系列缺点,尤其是模数
德国Wille教授于1982年首次提出了形式概念分析理论,它是一种能够从形式背景中进行数据分析和规则提取的工具。对于形式概念分析理论,现有的研究主要集中在形式背景知识的获
WSN的应用中,无论是硬件设计还是软件层面,都将节省能量放在研究工作的第一位。路由机制作为WSN的关键技术,必须将降低能量开销和延长网络生存期放在设计工作的首位。本文选取PE
相似字符串查找在现实生活中的应用非常广泛,例如相似网页检测、数据清洗、电商网站的推荐功能、蛋白质功能预测等。相似字符串查找多是用一个给定的相似性函数来判断两个字
模式分类是数据挖掘的一个重要研究分支,其任务是根据给定的特征集与类标集训练一个数学函数,该函数也被称为分类器,以便对新出现的对象进行类别预测。自上世纪六七十年代以
学位
虚拟化技术的出现改变了管理计算机操作系统、存储以及应用程序的方式,它提供了共享物理资源的能力,使得物理资源能够在同一时间内被多个不同的虚拟机使用,消除了操作系统对物理