基于Web的社会网络搜索中人名同一性判断方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：chenmingak47

【摘要】

：

随着计算机科学与互联网技术的不断进步,人们彼此之间可以通过各种各样的软件和方式进行在线交互,不再受到时间和地域的限制。随着人们在互联网上的行为日益丰富,互联网上的

【作者】

：

庞永杰

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2011年期

【关键词】

：

社会网络向量空间模型同一性判断层次聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机科学与互联网技术的不断进步,人们彼此之间可以通过各种各样的软件和方式进行在线交互,不再受到时间和地域的限制。随着人们在互联网上的行为日益丰富,互联网上的社交行为和关系逐渐的接近传统的客观世界的社交网络,并能够真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热点,互联网中的丰富信息大都包含在Web中,可以从Web中获取关于某个人的社会网络信息,然而多个人会具有一个相同的名字,那么如何对每个Web进行人名同一性判断就称为了社会网络搜索的关键技术。为了能准确地进行社会网络搜索,研究了人名同一性判断技术的实现。介绍了信息检索领域中的向量空间模型。为了从文本中抽取准确的特征并降低向量维度,给出一个基于C ? value和词频IDF的特征向量权值计算方法。实现了基于余弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法的研究,给出一种改进的层次聚类算法来实现人名同一性判断;为了提高聚类算法的收敛速度,给出一种聚类中心的计算方法。为了实现社会网络搜索,设计了一种基于Web的社会网络搜索系统框架。为了能获取包含社会网络信息的Web文档,给出一种Web下载器的实现方法;通过使用ICTCLAS-API完成对Web的中文分词处理;根据C ? value和词频IDF计算词项权值,并根据特征选择条件选择特征词项作为向量;通过使用聚类算法进行Web文档分类完成人名同一性判断;给出人物关系强度定义,通过使用现有商用搜索引擎,设计并实现了人物关系获取和关系强度计算的具体算法。为了说明使用C ? value *IDF权值计算方法和改进的层次聚类算法对人名同一性判断性能的影响,以搜索引擎的人名检索结果进行测试。说明了基于改进的层次聚类算法的人名同一性判断能有效降低人名判断的时间,但是以损失部分准确率为代价。

其他文献

移动机器人嵌入式平台的障碍检测与跟踪研究及优化实现

随着无人车(UGV)研究的逐渐深入,越来越多的智能移动机器人产品问世。各式移动机器人在千差万别的环境中自动行驶,满足人们方方面面的需求。环境感知能力是移动机器人研究的

学位

移动机器人环境感知障碍检测目标跟踪性能优化

面向动作识别的稀疏表示改进算法研究

稀疏表示是一种高效的信号处理技术,符合人类视觉系统感知外界信息的原理,在计算机视觉的各个研究领域中具有良好的表现。其中,视频中的人体动作识别在智能监控、人机交互和

学位

稀疏表示动作识别特征融合元素判别性RGB-D特征

MAS中Agent的知识表示推理

在开放的、分布式环境下，网络化、智能化、人性化是自动化计算发展的总体趋势，多Agent系统的发展正是此历史进程中必然的发展趋势。多Agent协作技术作为多Agent系统的主要研究

学位

多Agent系统协作机制模糊理论合同网模型知识表示推理

基于贝叶斯网络的软件风险管理模型研究与实现

软件项目已经成为现代社会最为重要的一类工程项目,但是在开发过程中却存在大量的风险造成项目不能顺利完成。虽然软件开发的技术在不断的提高,也有众多的风险管理方法和模型

学位

风险管理软件项目贝叶斯网络管理模型

基于SEM图片的粘性土壤微观结构三维重建技术研究

三维重建技术是计算机应用的一个重要领域,已经在工业生产以及社会生活中得到广泛的应用。根据应用领域与应用特点,三维重建技术在算法难度、工作量或者信息源获取方式等方面

学位

三维重建土壤微观结构扫描电镜从阴影恢复形貌

基于多摄像机的人体目标跟踪技术实现

近年来,智能视频监控技术是计算机视觉的一个热点并引起了广泛的关注。多摄像机人体跟踪是智能视频监控的重要组成部分。在多摄像机跟踪中,关键的两个问题是:效果较好的跟踪

学位

多摄像机人体跟踪跟踪速度特征点检测描述子的生成KCF算法

基于业务驱动的数据交换平台的设计与研究

随着信息化建设的持续深入,高校的各个职能部门都有了自己的应用系统。这些应用系统在很大程度上方便了广大师生,提高了工作人员的工作效率。但是这些应用系统的大多是由不同

学位

数据交换业务驱动数字化校园消息传递面向服务的架构

多处理器系统实时调度EDZL算法的研究

实时系统不仅要保证任务运行逻辑上的正确性,而且还要保证在限定的时间内能够完成指定任务。否则,错过了截止期的实时任务会造成像任务运行出错时一样严重的后果。实时调度算

学位

多处理器系统实时调度EDF算法LLF算法EDZL算法可调度性判定

基于GoogleMaps的农产品配送路径优化方法研究与系统实现

加强农村现代流通体系是建设社会主义新农村的重要组成部分，而农产品的配送是农村现代流通体系中的重要环节，有效降低农产品配送过程的损耗是当前需要解决的重要课题。一条科学

学位

农产品配送多约束权条件数学模型优化策略仿真实验

基于信息熵的复杂网络链路预测算法研究

链路预测(Link Prediction)问题是数据挖掘领域的研究方向之一,因其有重要的理论研究意义和广泛的应用价值而受到各个领域的关注。链路预测指如何根据已知网络的节点属性和网

学位

复杂网络链路预测信息熵并行计算

基于Web的社会网络搜索中人名同一性判断方法研究

其他学术论文