论文部分内容阅读
姓名消歧指的是消除多文档中的人名歧义性,把相同的人名按照现实世界的不同实体进行区分。姓名歧义是导致搜索引擎以及文献数据库中人物检索效率低下的原因之一,用户需要花费大量时间从重名人物中筛选出自己感兴趣的人物信息。姓名消歧是科技评价、信息检索等领域急需但是尚未解决的问题之一,在数据挖掘、自然语言处理、人工智能等领域具有广泛的应用。 本文着重研究中文论文作者姓名消歧,在广泛调研国内外姓名消歧算法基础上,根据数据库的特点有针对性的选择成熟机器学习算法并进行改进,研究设计姓名消歧方案。 首先,根据切入点国际唯一学术识别符Researcher ID、ORCID等引申出email可以代表唯一真实作者,设计唯一性特征辨识法进行初步消歧形成论文种子集合。唯一性特征辨识法综合了单一性唯一性特征Email以及复合相对唯一性特征研究机构:将Email出现两次以上论文记录视为同一个作者;对于研究机构,创新性地利用网络搜索引擎资源PageRank来识别机构的唯一性,即标识为官网的网页域名是否一致来判别是否为同一机构。一级机构相同但二级或三级机构不相同的研究机构识别为不同实体。将两者识别出的唯一真实候选作者群交叉合并后得到具有唯一性的真实作者以及论文种子集合。 其次,对比各种聚类算法思想和优缺点,采用凝聚的层次聚类方法AGNES算法进行下一步的消歧研究。将特征文本表示为向量空间模型,通过计算相似度比较论文与论文之间的相似性。针对层次聚类中聚类次数难以判定,衡量聚类效果较难的情况,设计聚类停止节点决策方法。聚类停止节点的判断与聚类结果的评价验证是同一个问题的两个方面,选择一个合理的召回率作为聚类停止节点的决策值,得到消歧结果。比传统方法相似度阈值的设定更加合理。 最后,开展实证研究,测试集选取科研之友上所有王伟的论文,样本集选择与科研之友标题相同的论文在万方数据上的映射后的作者信息和论文信息。在唯一性特征辨识法基础上进行层次聚类,得到最终消歧结果。选取准确率,召回率,F值对姓名消歧实验结果进行评价。设置两组实验:A组使用合作者,机构,关键词和标题,B组使用合作者,机构,关键词和摘要。结果中B组准确率,召回率,F值都比A高,F值达到了0.96。原因在于摘要字段长,更能丰富表征一篇论文的主题内容。由此,选择B组实验特征与方案,能获得较好的实验效果,可将其应用到其他重名情况严重的单一姓名消歧中,具有广泛的应用价值。