基于模板匹配需求识别的方法研究与应用

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:silent511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的搜索引擎的搜索方式是基于倒排索引的全文检索,也就是根据搜索语句查询索引库中的检索方式,并没有很好地利用搜索语句所表达的含义,这样就不能准确识别出用户的具体需求,势必会给用户带来更大的搜索成本。垂直搜索的引入解决了传统搜索引擎的这一不足,而实现垂直搜索首先就是要识别用户搜索语句的含义,这也是自然语言处理所要解决的问题。  本文设计了基于模板匹配的需求识别算法,并在这个需求识别算法的基础上针对股票垂直类目词典挖掘的具体应用进行了设计与验证,提出了相关的数据结构和算法。为了设计需求识别算法和股票垂直类目词典挖掘方案,本文研究了相关词典查找技术,并介绍了本文中使用的机器学习分类技术和海量数据处理技术。  首先,本文研究与讨论了需求识别算法以及股票垂直类目词典挖掘的常用的相关技术,包括相关数据结构与算法、常用机器学习算法以及本文中使用的海量数据处理相关技术,包括MapReduce分布式编程模型。  其次,本文在前面介绍的相关技术的基础上,设计了基于模板匹配的需求识别算法,介绍了具体的设计思路,设计了相关数据结构和算法。在设计的基于模板匹配的需求识别算法的基础上,本文针对一个具体应用场景—股票类目Query需求识别,设计股票垂直类目相关词典挖掘方案,主要关注于特征的选择,并应用机器学习经典算法逻辑回归进行分类。  最后,本文基于前面的设计,针对具体的应用对实验环境、实验数据和实验过程进行了详细的介绍,并对本文挖掘出的股票类目模板词典、专名词典的召回率和准确率进行了评估。  实验结果表明,本文设计的需求识别算法可以很好地识别用户的搜索语句的具体需求,并且本文设计的股票需求识别挖掘方案具有很好的召回率和准确率。
其他文献
本文根据目前高校学分制的特点,并结合中国海洋大学教务管理工作的实际情况,运用基于神经网络模型的专家系统理论进行中国海洋大学本科教学运行新体系专业识别模型的建立及应用
固定费用运输问题是一种特殊的线性规划问题。与线性运输问题的特征相似,固定费用运输问题也需满足供应与需求约束,且具有运输网络特征,但固定费用的出现使得目标函数出现不
随着电子商务的快速发展,带来的巨大经济利益的推动下,使得推荐系统的关注度日益升高,推荐系统逐渐成为一个专门的研究领域。推荐系统的主要构成包括两个方面,推荐算法的设计
随着人们对互联网信息检索要求的不断提高,传统的基于检索关键词字符匹配的搜索技术已不能满足人们的需求,由于这种单纯的字符匹配技术忽视了关键词本身所含的语义信息,使得传统
随着集成电路设计、制造技术的进步和软件开发手段的日益成熟,DSP在通信、多媒体等领域都得到了广泛地应用。在这些产品中,DSP往往作为可重用IP核,与其它IP核一起构成了复杂的So
随着互联网技术应用的迅速发展,网络与信息安全问题,尤其是来自终端的网络安全问题,日益成为威胁互联网健康发展的因素。在对终端的各种危害之中,可执行恶意代码引起的安全问题尤
数据广播是近年来所兴起的信息服务的新领域,它整合了互联网和广播电视网,它可以取所有网站作信源,取数字电视做信道,把网站内容整体推送到家。随着数据广播业务的开展、广播
动态心电图自投入使用以来,就以其简单、方便、无创的特点在临床中得到广泛的应用。其主要价值是用于发现并记录在通常短暂心电图检查中不易发现的,及日常生活时发生的心电图
嵌入式实时系统主要面向现实世界中与时间因素相关的应用需求,在工业控制、航空航天和军事设备等众多领域里有着广泛的应用,它所关注的不仅是计算结果在逻辑上的正确性,而且
科技文献中存在着大量的信息资源。如何让科研工作者在研究过程中有效地利用、发现、获取、组织和管理这些信息资源是摆在信息服务工作者面前的难题。知识的高速增长迫切需要