论文部分内容阅读
传统的搜索引擎的搜索方式是基于倒排索引的全文检索,也就是根据搜索语句查询索引库中的检索方式,并没有很好地利用搜索语句所表达的含义,这样就不能准确识别出用户的具体需求,势必会给用户带来更大的搜索成本。垂直搜索的引入解决了传统搜索引擎的这一不足,而实现垂直搜索首先就是要识别用户搜索语句的含义,这也是自然语言处理所要解决的问题。 本文设计了基于模板匹配的需求识别算法,并在这个需求识别算法的基础上针对股票垂直类目词典挖掘的具体应用进行了设计与验证,提出了相关的数据结构和算法。为了设计需求识别算法和股票垂直类目词典挖掘方案,本文研究了相关词典查找技术,并介绍了本文中使用的机器学习分类技术和海量数据处理技术。 首先,本文研究与讨论了需求识别算法以及股票垂直类目词典挖掘的常用的相关技术,包括相关数据结构与算法、常用机器学习算法以及本文中使用的海量数据处理相关技术,包括MapReduce分布式编程模型。 其次,本文在前面介绍的相关技术的基础上,设计了基于模板匹配的需求识别算法,介绍了具体的设计思路,设计了相关数据结构和算法。在设计的基于模板匹配的需求识别算法的基础上,本文针对一个具体应用场景—股票类目Query需求识别,设计股票垂直类目相关词典挖掘方案,主要关注于特征的选择,并应用机器学习经典算法逻辑回归进行分类。 最后,本文基于前面的设计,针对具体的应用对实验环境、实验数据和实验过程进行了详细的介绍,并对本文挖掘出的股票类目模板词典、专名词典的召回率和准确率进行了评估。 实验结果表明,本文设计的需求识别算法可以很好地识别用户的搜索语句的具体需求,并且本文设计的股票需求识别挖掘方案具有很好的召回率和准确率。