论文部分内容阅读
随着互联网信息的爆炸式增长,搜索引擎在网络信息查找中起到至关重要的作用。而对海量数据,传统搜索算法存在应用局限性。首先,面向关键词的搜索方式,对用户构建查询的能力要求较高。其次,利用用户的简短查询与海量信息进行相关性匹配,准确率和召回率较低。最后,通用的搜索算法无法提供个性化检索服务。为解决上述问题,本文以Session信息为对象,研究基于Session过程的搜索优化。Session过程是指用户为满足其预先设定的搜索需求,在搜索过程中,进行的一系列查询词的修改以及与搜索结果的交互行为,包括对搜索结果页而的点击行为、浏览时间等信息。本文以Session信息为依托,提出了基于马尔可夫随机场的Session检索模型,以实现搜索优化的目的。本文的主要研究包括以下几方面。第一,以马尔可夫随机场为理论基础,构建而向Session过程的检索模型。通过对用户搜索行为模式的分析,从Session过程的时序特性出发,构建动态演进的Session检索模型。第二,以语言学特性分析为基础,研究词关联性假设在Session检索过程的优化作用。本文从词完全独立模式FIP及词序列关联模式SDP出发,构建了FISM和SDSM两类Session检索模型,进而探讨词关联性假设在Session检索过程中产生的影响。第三,以Session信息的类别划分为基础,研究Session各类信息在检索中的影响力。本文将Session信息划分为两类:历史查询HQ和历史点击网贞HC。通过Session检索模型的定义,以E(Qi),E(Ci),E(Qi+Ci)以及E(WAFi)四种查询元素的构建方式,实现各类历史信息与检索过程的有效结合。第四,以词激活力为理论基础,结合Session信息进行查询扩展,研究基于词激活力的Session检索模型的有效性。针对上述研究点,本文进行了Session检索模型的分类实验设计及实现。实验结果表明,基于马尔可夫随机场的Session检索模型能够实现搜索优化的作用。