基于Web的社会网络搜索中人名同一性判断方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chenmingak47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学与互联网技术的不断进步,人们彼此之间可以通过各种各样的软件和方式进行在线交互,不再受到时间和地域的限制。随着人们在互联网上的行为日益丰富,互联网上的社交行为和关系逐渐的接近传统的客观世界的社交网络,并能够真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热点,互联网中的丰富信息大都包含在Web中,可以从Web中获取关于某个人的社会网络信息,然而多个人会具有一个相同的名字,那么如何对每个Web进行人名同一性判断就称为了社会网络搜索的关键技术。为了能准确地进行社会网络搜索,研究了人名同一性判断技术的实现。介绍了信息检索领域中的向量空间模型。为了从文本中抽取准确的特征并降低向量维度,给出一个基于C ? value和词频IDF的特征向量权值计算方法。实现了基于余弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法的研究,给出一种改进的层次聚类算法来实现人名同一性判断;为了提高聚类算法的收敛速度,给出一种聚类中心的计算方法。为了实现社会网络搜索,设计了一种基于Web的社会网络搜索系统框架。为了能获取包含社会网络信息的Web文档,给出一种Web下载器的实现方法;通过使用ICTCLAS-API完成对Web的中文分词处理;根据C ? value和词频IDF计算词项权值,并根据特征选择条件选择特征词项作为向量;通过使用聚类算法进行Web文档分类完成人名同一性判断;给出人物关系强度定义,通过使用现有商用搜索引擎,设计并实现了人物关系获取和关系强度计算的具体算法。为了说明使用C ? value *IDF权值计算方法和改进的层次聚类算法对人名同一性判断性能的影响,以搜索引擎的人名检索结果进行测试。说明了基于改进的层次聚类算法的人名同一性判断能有效降低人名判断的时间,但是以损失部分准确率为代价。
其他文献
随着无人车(UGV)研究的逐渐深入,越来越多的智能移动机器人产品问世。各式移动机器人在千差万别的环境中自动行驶,满足人们方方面面的需求。环境感知能力是移动机器人研究的
稀疏表示是一种高效的信号处理技术,符合人类视觉系统感知外界信息的原理,在计算机视觉的各个研究领域中具有良好的表现。其中,视频中的人体动作识别在智能监控、人机交互和
在开放的、分布式环境下,网络化、智能化、人性化是自动化计算发展的总体趋势,多Agent系统的发展正是此历史进程中必然的发展趋势。多Agent协作技术作为多Agent系统的主要研究
软件项目已经成为现代社会最为重要的一类工程项目,但是在开发过程中却存在大量的风险造成项目不能顺利完成。虽然软件开发的技术在不断的提高,也有众多的风险管理方法和模型
三维重建技术是计算机应用的一个重要领域,已经在工业生产以及社会生活中得到广泛的应用。根据应用领域与应用特点,三维重建技术在算法难度、工作量或者信息源获取方式等方面
近年来,智能视频监控技术是计算机视觉的一个热点并引起了广泛的关注。多摄像机人体跟踪是智能视频监控的重要组成部分。在多摄像机跟踪中,关键的两个问题是:效果较好的跟踪
随着信息化建设的持续深入,高校的各个职能部门都有了自己的应用系统。这些应用系统在很大程度上方便了广大师生,提高了工作人员的工作效率。但是这些应用系统的大多是由不同
实时系统不仅要保证任务运行逻辑上的正确性,而且还要保证在限定的时间内能够完成指定任务。否则,错过了截止期的实时任务会造成像任务运行出错时一样严重的后果。实时调度算
加强农村现代流通体系是建设社会主义新农村的重要组成部分,而农产品的配送是农村现代流通体系中的重要环节,有效降低农产品配送过程的损耗是当前需要解决的重要课题。一条科学
链路预测(Link Prediction)问题是数据挖掘领域的研究方向之一,因其有重要的理论研究意义和广泛的应用价值而受到各个领域的关注。链路预测指如何根据已知网络的节点属性和网