论文部分内容阅读
当前,研究者在科学探索中不断产生科研成果并向社会发表,进而产生了大量的科研数据。数据的发展导致科研数据的检索、管理和分析变得越来越具有挑战性。因此,如何在庞大的科研数据中准确地检索出所需的数据,并从数据中提取有效信息进行分析已经成为研究者密切关注的问题。本文针对科研数据中同名作者和论文的对应关系以及作者间的合作关系进行探索研究。第一,本文针对论文的作者署名与现实生活中的作者实体对应关系中存在的同名歧义问题,提出了一种基于异质网络和聚类的同名消歧算法。首先,本文将科研数据背景下的同名消歧研究转化为同名论文的聚类研究,设计了论文间的语义相似度和离散特征相似度,并将其作为论文聚类的依据。随后,为了表征论文间离散特征的关系,本文采用了在异质网络中基于元路径进行随机游走的网络表示学习方法。进一步地,本文通过实验确定了语义相似度和离散特征相似度对最终论文相似度的贡献比例以及构建异质网络使用的连边类型组合。最后,实验结果证明了本文提出的同名消歧算法中各个步骤的有效性以及整体算法的有效性。第二,本文通过改进社区发现中的标签传播算法来获得关系紧密的圈子,挖掘作者间的潜在合作关系。首先,为了设计有效的属性,本文对一个特定的科研合作网络进行了特征分析。接下来,针对传统标签传播算法中存在的问题进行了分析,并就节点更新顺序和标签选择规则进行了改进。继而,本文提出了结合多层邻域重叠率和历史标签相似性的标签传播算法(Label Propagation Joint Multi-Layer Neighborhood Overlap and Historic Label Similarity,NOHLPA)。进一步地,本文通过实验确定了 NOHLPA中使用的参数值。最后,实验结果证明了 NOHLPA中各个步骤的有效性以及整体算法的有效性,继而使用NOHLPA对特定的科研合作网络进行划分,证明了 NOHLPA可以获得关系紧密且较为准确的合作圈子。