论文部分内容阅读
资源搜索是资源管理中不可或缺的关键技术,其根据用户请求返回相应资源集。传统的资源搜索采用基于关键字匹配的方法,通过匹配的结果返回精确的资源。但是,自然语言中存在多词同义、一词多义等不确定性因素,相同概念可以有多种不同的表述方式,因此传统的资源搜索存在以下两个问题:一是用户很难用关键词或者关键词串来表达真正需要查询的内容;二是简单依据包含相同词的多少来判断两篇文档的语义相似度可信度低。本文基于神经网络语言模型从统计特征角度挖掘词和文档的潜在语义特征,在词方面提出基于词向量的中文同义词提取算法,在文档方面引入文档语义特征训练模型,结合NBSVM-bi算法在情感分析领域提高了准确率。针对由于查询输入偏差而导致信息丢失的问题,本文提出基于神经网络语言模型中的CBOW和Skip-Gram模型提取词向量,结合随机森林分类器算法实现中文同义词提取的算法,通过同义词拓展有效解决了由于用户查询输入偏差导致信息丢失的问题。针对文档相似度计算问题,本文引入文档向量改进CBOW模型和Skip-Gram模型,将文档向量和词向量联合输入神经网络模型进行训练,最终得到的文档向量可视为文档的语义特征。基于语义特征的文档相似度计算解决了基于共同出现词个数的文档相似度计算方法可信度低的问题。最后,本文在词向量和文档特征向量的研究基础上,实现了针对电视节目的语义搜索引擎。利用同义词提取算法得到同义词及其相似度,用于查询拓展,提高了文档的查全率;利用基于离线数据训练得到的文档语义特征作为离线特征,改进文档的搜索排序,将语义相关度更高的文档优先返回给用户。