基于唯一性特征的中文论文作者姓名消歧实证研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:watertnt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
姓名消歧指的是消除多文档中的人名歧义性,把相同的人名按照现实世界的不同实体进行区分。姓名歧义是导致搜索引擎以及文献数据库中人物检索效率低下的原因之一,用户需要花费大量时间从重名人物中筛选出自己感兴趣的人物信息。姓名消歧是科技评价、信息检索等领域急需但是尚未解决的问题之一,在数据挖掘、自然语言处理、人工智能等领域具有广泛的应用。  本文着重研究中文论文作者姓名消歧,在广泛调研国内外姓名消歧算法基础上,根据数据库的特点有针对性的选择成熟机器学习算法并进行改进,研究设计姓名消歧方案。  首先,根据切入点国际唯一学术识别符Researcher ID、ORCID等引申出email可以代表唯一真实作者,设计唯一性特征辨识法进行初步消歧形成论文种子集合。唯一性特征辨识法综合了单一性唯一性特征Email以及复合相对唯一性特征研究机构:将Email出现两次以上论文记录视为同一个作者;对于研究机构,创新性地利用网络搜索引擎资源PageRank来识别机构的唯一性,即标识为官网的网页域名是否一致来判别是否为同一机构。一级机构相同但二级或三级机构不相同的研究机构识别为不同实体。将两者识别出的唯一真实候选作者群交叉合并后得到具有唯一性的真实作者以及论文种子集合。  其次,对比各种聚类算法思想和优缺点,采用凝聚的层次聚类方法AGNES算法进行下一步的消歧研究。将特征文本表示为向量空间模型,通过计算相似度比较论文与论文之间的相似性。针对层次聚类中聚类次数难以判定,衡量聚类效果较难的情况,设计聚类停止节点决策方法。聚类停止节点的判断与聚类结果的评价验证是同一个问题的两个方面,选择一个合理的召回率作为聚类停止节点的决策值,得到消歧结果。比传统方法相似度阈值的设定更加合理。  最后,开展实证研究,测试集选取科研之友上所有王伟的论文,样本集选择与科研之友标题相同的论文在万方数据上的映射后的作者信息和论文信息。在唯一性特征辨识法基础上进行层次聚类,得到最终消歧结果。选取准确率,召回率,F值对姓名消歧实验结果进行评价。设置两组实验:A组使用合作者,机构,关键词和标题,B组使用合作者,机构,关键词和摘要。结果中B组准确率,召回率,F值都比A高,F值达到了0.96。原因在于摘要字段长,更能丰富表征一篇论文的主题内容。由此,选择B组实验特征与方案,能获得较好的实验效果,可将其应用到其他重名情况严重的单一姓名消歧中,具有广泛的应用价值。
其他文献
为配合各级党组织和广大党员学习党的十五届六中全会精神的需要,本刊特约请中央有关部门的同志撰写了本辅导。《辅导》注重理论与实践相结合,对《中共中央关于加强和改进党的作
【摘要】语文课堂本应以学生为本、以儿童为中心的,理应是简朴和诚实的,这就是归真返璞,遵守常识。回归常识,无需太多热闹,无需太多喧嚣,但现实中许多课堂仍存在重形式、重表演的现状,何谈语文素养的形成?  【关键词】小组合作;文本;回归常识;语文素养  【中图分类号】G623 【文献标识码】A  这学期,我有幸参加区优质课语文学科镇级层面初选听课活动。  两天连续十四