论文部分内容阅读
随着计算机科学与互联网技术的不断进步,人们彼此之间可以通过各种各样的软件和方式进行在线交互,不再受到时间和地域的限制。随着人们在互联网上的行为日益丰富,互联网上的社交行为和关系逐渐的接近传统的客观世界的社交网络,并能够真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热点,互联网中的丰富信息大都包含在Web中,可以从Web中获取关于某个人的社会网络信息,然而多个人会具有一个相同的名字,那么如何对每个Web进行人名同一性判断就称为了社会网络搜索的关键技术。为了能准确地进行社会网络搜索,研究了人名同一性判断技术的实现。介绍了信息检索领域中的向量空间模型。为了从文本中抽取准确的特征并降低向量维度,给出一个基于C ? value和词频IDF的特征向量权值计算方法。实现了基于余弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法的研究,给出一种改进的层次聚类算法来实现人名同一性判断;为了提高聚类算法的收敛速度,给出一种聚类中心的计算方法。为了实现社会网络搜索,设计了一种基于Web的社会网络搜索系统框架。为了能获取包含社会网络信息的Web文档,给出一种Web下载器的实现方法;通过使用ICTCLAS-API完成对Web的中文分词处理;根据C ? value和词频IDF计算词项权值,并根据特征选择条件选择特征词项作为向量;通过使用聚类算法进行Web文档分类完成人名同一性判断;给出人物关系强度定义,通过使用现有商用搜索引擎,设计并实现了人物关系获取和关系强度计算的具体算法。为了说明使用C ? value *IDF权值计算方法和改进的层次聚类算法对人名同一性判断性能的影响,以搜索引擎的人名检索结果进行测试。说明了基于改进的层次聚类算法的人名同一性判断能有效降低人名判断的时间,但是以损失部分准确率为代价。