论文部分内容阅读
移动搜索引擎用户查询词分类是指将用户在使用手机进行查询所用的关键词归入一个事先定义好的类别中,它要求对用户的查询词进行分析,通过一定的规则或策略挖掘出用户的意图,并根据用户查询词的类别提供相应的结果提高用户的体验,由于国内相关技术研究较晚,加上中文语言的复杂性,国内对用户查询词的研究相对落后。
本文分析了对用户查询词进行分类的意义,介绍了目前有关查询分类的研究现状,介绍了有关移动搜索引擎的知识,因为查询词可以归为文本,所以这里也介绍了有关文本分类的知识和算法。
本文通过对目前在移动搜索引擎领域占有主导地位的宜搜搜索的日志进行分析,总结出了目前移动搜索引擎用户查询的主要类别和特征,这些类别约占整个用户查询范围的89%。在确立类别后,本文设计出一个完善合理的分类模型,其中设计词表模板匹配、基于LDA模型的特征扩展和基于SVM的分类等三大模块,每个模块单独实现并进行实验查看效果,最后将模块集成起来形成一个完善的分类模型并进行综合实验,实验数据来自移动搜索引擎的用户搜索日志,具有很强的代表性。实验结果显示该分类系统取得了较好的效果。