论文部分内容阅读
随着互联网的普及,网上的信息呈爆炸式增长。除了数量的膨胀,信息的类型也呈现了越发多样化的趋势。在多种多样的数据类型中,有一类数据可以被称作"个人档案",例如简历、个人主页、在线百科上的人物介绍页等等。这类数据为推测人物之间的社交关系提供了可能。举例而言,如果两个人曾在重叠的时间段内在同一所大学学习,则他们很有可能是同学。通过这种分析所得到的社交网络蕴含巨大的价值,可以被应用于多个问题领域,如社交网络分析中常见的最具影响力分析、社区发现等。本文介绍了一个针对个人档案数据进行信息提取和可视化分析的系统,并详细阐述了系统涉及的主要算法。该系统主要包含两大功能:对个人档案进行信息提取,构建基于实体的关联网络,并借此预测人物之间的社交关系;基于此网络,通过计算PageRank对人物的重要性或影响力进行浅层分析。我们将建立上述网络的过程分成了两步。首先,建立由多种类型实体共同构成的关联网络,这可以视作针对特定领域的一个异构的信息网络。这个步骤涉及到对个人档案数据的结构化处理,包括实体识别、事件提取等过程。我们针对数据特点,选择了基于句法解析树相似度进行聚类并结合规则提取的方法实现事件提取。第二步是基于已构建的关联网络,通过路径分析建立人名节点之间的关系。在此之前,我们需要补充其他类型节点之间的关系以便得到较为全面的路径信息。考虑到异构网络的特点,我们使用了不同的方法构建不同类型节点之间的关系。对上述信息网络的可视化分析主要是通过计算PageRank对人物的重要度或者说是影响力进行排名。在可视化的环境下,限于人的认知能力以及显示设备的精度等因素,我们认为节点的排名顺序比实际的PageRank值更为重要。因此,PageRank的计算应当在保证节点相对顺序基本不再发生变化时就提前停止。现有针对PageRank进行改进的研究有两个分支。一类研究倾向于从数学角度加快传统的Power方法的收敛速度;另一类基于Monte Carlo方法来近似PageRank的计算结果。然而,他们都不适合用来近似节点的排名顺序。第一种方法致力于在维持准确率的前提下加快收敛速度;而第二种方法虽然效率很高,但它更擅长高排名节点的识别,对高排名节点之间的顺序近似不够理想。因此,文章第二部分提出了 Early-stop算法。该算法可以分为两个步骤:Grouping和Parallel Updating。Grouping通过模拟随机游走确定节点顺序的大致范围;Parallel Updating通过并行更新的方法在小范围内调整排名临近的节点的顺序。实验结果证明Early-stop算法有效地提高了高排名节点顺序近似的准确性。本文的贡献主要有以下几点:提出了一个基于个人档案进行数据抽取和分析的系统,完成了从信息提取到可视化分析的整个过程;指出可视化分析降低了对计算结果的精度要求,进而提出了快速近似PageRank的Early-stop算法;通过大量实验证明Early-stop算法在近似节点排名方面的准确率高于当前最新的随机模拟算法。