论文部分内容阅读
搜索引擎的出现,成为互联网发展史上又一个重要的里程碑。越来越多的互联网用户开始选择搜索引擎作为其获得网络资源的首选工具。但是搜索引擎的表现并不总是尽如人意,很多时候当用户输入一个查询,搜索引擎返回成千上万个搜索结果,然而很少有用户愿意浏览三页以上的搜索结果。此外,由于用户的水平存在较大差异,不少用户构造的查询并不能完全表达其搜索意图。对搜索日志的挖掘能够有效的解决这一系列问题。本文着眼于搜索日志的分析和应用,主要对用户搜索行为模型、搜索行为分类、网页排序算法的优化、异常搜索行为的检测等问题进行研究,论文工作主要包括以下几个方面:(1)对搜索日志进行基本分析,包括搜索日志各个属性及其相互之间的关系,发现了大规模中文搜索引擎用户的一些基本搜索特征。首次引入了中文分词算法,使关于查询词的分析结果更接近中文搜索引擎实际情况。首次分析了网页URL深度和被点击次数的关系,并根据对不同时期搜索日志的分析,发现了中文搜索引擎用户的搜索行为变化趋势。(2)分别从抽象和具体的角度对用户的搜索行为进行了分类。首次从搜索日志中提取用户搜索行为模型,并从抽象的角度概括用户搜索行为的各种表现形式。通过网页分类的相似性及网页向量的相似性对模型进行了校正。为基于搜索行为的相关研究提供了基础。引入了历史查询分析,并计算了历史查询的影响因子。(3)提出了一种基于预定义类别的搜索分类算法,将基于朴素贝叶斯理论的网页分类技术和用户搜索日志相结合,使搜索分类能够体现用户的搜索意图,并且克服了因查询词过短以及词语多义性导致的分类误差。将实时搜索历史应用于搜索分类,提高了分类的准确率。(4)提出了一种网页排序优化算法。该算法在原有网页排序结果的基础上,结合用户搜索同志,采用混合频繁模式树算法,能够有效发现搜索事务的关联规则,并对查询词进行扩展。选择对原排序结果的前N个网页进行优化排序,既保证了搜索结果的相关性和覆盖率,同时使排序结果更能够体现用户的搜索需求。此外,将用户搜索行为模型应用于网页排序优化算法,通过计算历史查询词的影响因子,使排序结果能够实时体现用户搜索意图。(5)分析了异常搜索行为潜在的安全威胁,并根据不同异常搜索行为的特征对其进行了分类,包括基于内容的异常搜索及基于流量的异常搜索。提出了一个异常搜索行为检测框架,并采用优化的决策树算法对不同异常搜索行为进行检测。