面向个性化主题搜索的用户—查询词语义本体构建

来源 :西华大学 | 被引量 : 0次 | 上传用户:whq59
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,由于用户输入的查询词的简短以及表达语义的模糊性,大多数搜索引擎都面临查询词理解的问题。主题检索系统如何能够准确的理解用户输入的信息需求,同时具有关于检索信息源的语义知识?“不同的用户输入相同查询关键词”和“同一用户输入不同查询关键词”时怎样自动有区分的为每个用户返回准确的相关信息?这是本文研究的主要问题。大多数搜索引擎搜集了大量的用户查询日志,这些数据记录了用户历史查询点击信息,不同程度地反映了用户的兴趣和领域知识。用户记录越多,对用户领域知识的刻画越准确。而本体(Ontology)具有良好的概念层次结构和对逻辑推理的支持,具有通过概念之间的关系来表达语义的能力,能较好的为语义检索和概念检索提供知识基础。形如WordNet这样的词库中拥有大量的反映领域专家知识的同义词、近义词、词与词之间的is_a、part_of关系。因此利用丰富的用户查询日志信息和WordNet词库中的语义关系来为主题检索提供一个本体结构的语义背景,为开发新一代个性化主题信息检系统提供了广阔的天地。研究历史知识库中用户查询词与点击网页间的关系,建立用户查询词之间反映用户个性化知识的语义关系模型显得格外重要。本文的主要研究内容如下:首先,本文提出了一种新颖的个性化查询词语义聚类方法,该方法将用户查询词按用户个性化兴趣和知识背景进行主题分类。搜索引擎用户查询日志包含了丰富的用户历史访问记录,这些记录不同程度的反应了用户兴趣和领域知识。本文首先提出了基于用户查询日志的三种用户查询词语义相似关系,如基于查询词本身的相似关系,基于用户查询点击序列的相似关系和基于用户点击文档内容的相似关系,通过分析这三种语义关系,提出了一种新颖的计算用户查询词语义相似度的方法,基于这种用户查询词语义相似度得到聚类相似函数,利用层次凝聚聚类算法,从而将用户查询词根据用户查询日志中所反映的主题进行语义主题聚类,以基本消除了用户查询词的语义模糊性。其次,本文提出了一种利用用户查询词语义主题聚类结果和WordNet词库中词与词之间的关系建立一个用户查询词兴趣主题领域知识模型,即用户—查询词语义本体(User-Query Semantic Ontology,UQSO)的方法。UQSO具体描述了一个用户兴趣所在领域,形成了个性化主题检索的基础。该本体表达了用户兴趣偏好,将来可以由此产生用户群和用户群偏好,然后将其应用于主题搜索引擎,进而可以把信息采集从基于关键词的相关度匹配技术层面提高到基于语义层面的查找,以便为用户提取出更适合其潜意图的信息,从而实现个性化主题搜索的目的。最后,本文利用Porotégé2000本体构建工具,和C++进行了实验验证,对一个用户的查询词集进行了查询词聚类并借助WordNet词库构建了该用户的用户—查询词语义本体(UQSO)。实验表明,通过本文本体构建方法,用户查询词能更好的根据用户兴趣和知识背景来区分其真实语义,消除其语义模糊性。因此,UQSO为实现个性化主题搜索奠定了基础。
其他文献
随着计算机技术的发展和现实需求,三维重建技术成为国内外研究的一个热点问题。三维重建就是利用二维图像中的基元(点、线、面等)恢复三维场景。由于特征点检测和匹配的结果
在普适服务概念的背景下,本文通过对Context Logic与Context Fabric两种推理方法的分析研究,发现这两种情境信息计算方法都不能完全满足我们的普适服务下的情境信息推理计算的
知识表示是人工智能研究中的一个重要问题,也是制约人工智能学科发展和专家系统应用的瓶颈。适当选择和正确使用知识表示方法将极大地提高人工智能问题求解的效率。作为一种
报警监控系统作为安全防范系统的重要组成部分,是一门把计算机技术、网络技术、图象处理技术,工程控制为一体综合学科。一个完整的安防系统是视频监控设备与视频监控软件共同
富媒体技术(Rich Media)是一种新型的,比音视频多媒体更能带来丰富的用户体验的媒体类型。它通常含有多种媒体元素,例如多媒体流,文本,矢量图等等,能够将这些元素组合起来展
随着移动通信技术的不断发展,移动计算机网络成为最新发展方向,无线通信的最大特点就是通信终端在移动中具有保持与外部世界的通信能力。无线传感器网络作为无线通信网络的一
如今我们生活在信息化的社会,而在计算机与网络技术高速发展的今天,教育也逐步转向信息化。教育信息化是一个利用信息技术促进教育变革进而推动教育现代化的过程,它不仅创建
视觉系统伴随信息科学技术等的快速发展,在场景的捕获和处理中发挥的作用越来越重要,然而在空气中弥漫着水滴、烟雾等颗粒的状况下,由于微小粒子的散射作用,成像系统所捕获的
随着计算机应用领域的不断拓展,特别是图形图像理论的日臻成熟,用计算机对中国书法进行仿真模拟已成为非真实感图形学的研究热点之一。非真实感绘制(Non-Photorealistic Rend
近年来电信重组和全业务运营,打破了中国移动在个人客户市场的长期垄断地位,中国联通和中国电信也加入到个人客户市场的角逐中来。在运营重组之后,三家运营商越演越烈的竞争,