基于个人档案的信息提取和可视化分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:lanangel1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,网上的信息呈爆炸式增长。除了数量的膨胀,信息的类型也呈现了越发多样化的趋势。在多种多样的数据类型中,有一类数据可以被称作"个人档案",例如简历、个人主页、在线百科上的人物介绍页等等。这类数据为推测人物之间的社交关系提供了可能。举例而言,如果两个人曾在重叠的时间段内在同一所大学学习,则他们很有可能是同学。通过这种分析所得到的社交网络蕴含巨大的价值,可以被应用于多个问题领域,如社交网络分析中常见的最具影响力分析、社区发现等。本文介绍了一个针对个人档案数据进行信息提取和可视化分析的系统,并详细阐述了系统涉及的主要算法。该系统主要包含两大功能:对个人档案进行信息提取,构建基于实体的关联网络,并借此预测人物之间的社交关系;基于此网络,通过计算PageRank对人物的重要性或影响力进行浅层分析。我们将建立上述网络的过程分成了两步。首先,建立由多种类型实体共同构成的关联网络,这可以视作针对特定领域的一个异构的信息网络。这个步骤涉及到对个人档案数据的结构化处理,包括实体识别、事件提取等过程。我们针对数据特点,选择了基于句法解析树相似度进行聚类并结合规则提取的方法实现事件提取。第二步是基于已构建的关联网络,通过路径分析建立人名节点之间的关系。在此之前,我们需要补充其他类型节点之间的关系以便得到较为全面的路径信息。考虑到异构网络的特点,我们使用了不同的方法构建不同类型节点之间的关系。对上述信息网络的可视化分析主要是通过计算PageRank对人物的重要度或者说是影响力进行排名。在可视化的环境下,限于人的认知能力以及显示设备的精度等因素,我们认为节点的排名顺序比实际的PageRank值更为重要。因此,PageRank的计算应当在保证节点相对顺序基本不再发生变化时就提前停止。现有针对PageRank进行改进的研究有两个分支。一类研究倾向于从数学角度加快传统的Power方法的收敛速度;另一类基于Monte Carlo方法来近似PageRank的计算结果。然而,他们都不适合用来近似节点的排名顺序。第一种方法致力于在维持准确率的前提下加快收敛速度;而第二种方法虽然效率很高,但它更擅长高排名节点的识别,对高排名节点之间的顺序近似不够理想。因此,文章第二部分提出了 Early-stop算法。该算法可以分为两个步骤:Grouping和Parallel Updating。Grouping通过模拟随机游走确定节点顺序的大致范围;Parallel Updating通过并行更新的方法在小范围内调整排名临近的节点的顺序。实验结果证明Early-stop算法有效地提高了高排名节点顺序近似的准确性。本文的贡献主要有以下几点:提出了一个基于个人档案进行数据抽取和分析的系统,完成了从信息提取到可视化分析的整个过程;指出可视化分析降低了对计算结果的精度要求,进而提出了快速近似PageRank的Early-stop算法;通过大量实验证明Early-stop算法在近似节点排名方面的准确率高于当前最新的随机模拟算法。
其他文献
随着互联网的不断发展,网络信息量日益增加,面对海量的信息,人们对搜索引擎在查全率,查准率以及个性化方面的要求越来越高。查询扩展是个性化智能搜索引擎中的关键技术,它在搜索引
随着时代的发展,网络技术和多媒体技术也迅速的发展起来。通过简单的网上操作,人们可以轻易地获取、发布和传输多媒体数字信息。然而,由于数字作品具有容易篡改、仿造和操作难以
人体动作识别是计算机视觉领域研究的热点问题,在智能机器人、视频监控等智能化系统中有着广泛的应用。由于人体运动本身以及运动场景的复杂性,人体动作识别仍然面临着诸多困
microRNA (miRNA)是一类长度为22nt左右的内源性非编码RNA,通过碱基序列互补配对的方式对靶标mRNA的表达进行调控,从而控制基因的表达。基因的异常性表达成为多种疾病发生的重
随着医学影像技术的迅速发展,医学影像逐渐成为临床医疗的一种主要辅助手段,很大程度上提高了医生的确诊率。当前针对医学图像的分割主要将重点置于核磁共振图像(MRI)。脑部
信息产业的高度融合与快速发展,特别是嵌入式技术及网络通信技术的蓬勃发展,推动了远程监控技术的革新。这些发展与革新为现代社会的生产生活能够实施数字化的网络监控提供了有
最优化是目前科学计算中较为重要的研究分支,随着科技的发展,工程技术领域诸如通讯系统、自动控制、电力系统、机械工程、土木工程、生物工程、化学工程等产生了诸多复杂的最优
随着移动互联网的发展,虽然传统的TCP/IP网络已经能够在大范围内满足信息传输的需求,但是仍然有一部分地区的网络基础设施不是很完善。在这样的情况下使用传统的TCP/IP网络则不
随着科学技术的进步,互联网已经成为人们获取信息的主要手段。一方面,对于某一话题事件,相关的信息出现在互联网的各个分散的角落,通过人工的手段无法获知话题事件完整信息;另一方
粗糙集理论作为一种处理不确定、不精确或噪声数据的重要工具已经在多个领域,如数据挖掘、模式识别、人工智能、认知科学等得到广泛应用。近年来,基于粗糙集的属性约简成为一个