基于统计特征的语义搜索引擎的研究与实现

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:aszxc1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
资源搜索是资源管理中不可或缺的关键技术,其根据用户请求返回相应资源集。传统的资源搜索采用基于关键字匹配的方法,通过匹配的结果返回精确的资源。但是,自然语言中存在多词同义、一词多义等不确定性因素,相同概念可以有多种不同的表述方式,因此传统的资源搜索存在以下两个问题:一是用户很难用关键词或者关键词串来表达真正需要查询的内容;二是简单依据包含相同词的多少来判断两篇文档的语义相似度可信度低。本文基于神经网络语言模型从统计特征角度挖掘词和文档的潜在语义特征,在词方面提出基于词向量的中文同义词提取算法,在文档方面引入文档语义特征训练模型,结合NBSVM-bi算法在情感分析领域提高了准确率。针对由于查询输入偏差而导致信息丢失的问题,本文提出基于神经网络语言模型中的CBOW和Skip-Gram模型提取词向量,结合随机森林分类器算法实现中文同义词提取的算法,通过同义词拓展有效解决了由于用户查询输入偏差导致信息丢失的问题。针对文档相似度计算问题,本文引入文档向量改进CBOW模型和Skip-Gram模型,将文档向量和词向量联合输入神经网络模型进行训练,最终得到的文档向量可视为文档的语义特征。基于语义特征的文档相似度计算解决了基于共同出现词个数的文档相似度计算方法可信度低的问题。最后,本文在词向量和文档特征向量的研究基础上,实现了针对电视节目的语义搜索引擎。利用同义词提取算法得到同义词及其相似度,用于查询拓展,提高了文档的查全率;利用基于离线数据训练得到的文档语义特征作为离线特征,改进文档的搜索排序,将语义相关度更高的文档优先返回给用户。
其他文献
摘要:在初中化学教学中,教师要按照素质教育的基本要求开展教学工作,要在教学过程中,将学生的创新能力培养放在重要的位置上。教师要不断突破自身现有的水平,用创新的理念指导教学,用创新的方法指导学生的学习。为了更好的促进学生创新能力的发挥,教师需要与学生进行密切的沟通,了解学生的情况,为他们的创新能力发展扫平障碍,提高效能。  关键词:初中化学;创新教学;化学教学  通过初中化学这门学科的教学,来培养学
玫烟色拟青霉(Paecilomyces fumosoroseus)是一种能感染多种类型害虫的昆虫病原真菌,在害虫尤其是刺吸式口器害虫的微生物防治中的应用潜力很大。为了筛选获得针对叶螨的生防
本文通过对荣华二采区10
期刊
摘要:要促进学生对初中英语这门学科的兴趣,才能让学生更加主动的进行英语的学习,才能提高课上的教学效果,改善师生之间的关系。教师要尊重教学的规律,要从学生所喜欢的教学方式入手,要创新教学方式。用科学的教学理念指导整个教学全程。  关键词:初中英语;学习兴趣;英语教学  英语是一门语言学科,要学好英语,首先就要培养学生对这门学科的兴趣,影响兴趣的因素很多。教师要从多方面入手,从而激发学生对这门学科的兴
随着医药卫生体制改革的不断深入,充分利用大数据信息技术构建新型医院卫生经济管理信息化机制成为新时期医院提升医疗服务水平、优化经济效益的必然路径.本文在分析大数据时