论文部分内容阅读
语义网(Semantic Web)是一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,使电脑更容易地理解语句和文章。在近几年,语义网有长足的发展,并应用在不同的领域,如文本挖掘和搜索引擎。结合其他方法的应用也层出不穷,而在与查询扩展的结合方向,现有的方法仍然不能满足处理的要求。因此本文提出了两种不同的新方法,并将其中一种应用到一个富媒体检索系统上,证明该方法的可行性。 本论文针对现有信息检索系统的不足,提出了一种结合相关规则和WordNet本体信息的查询扩展方法。该方法借助相关规则和WordNet本体信息构建加权词语关系图,并根据加权图的结构和权重信息计算扩展词的重要性。查询时,从这个图中先取原查询词的最邻近词作为扩展词来源,再选取其中权重最大的p个词返回并进行二次检索。在实现算法的基础上,通过Lucene全文检索器进行实验,将所得的结果值F1与其他算法的结果作比较,证明方法的有效性。 为了提高信息检索系统的查询性能,还提出了一种基于NMF(非负矩阵分解)和WordNet语义网的查询扩展方法。在该方法中,非负矩阵分解的结果和WordNet本体库被用来建立一个加权词图。每个单词的重要性是根据图形结构和权重来计算的。在查询的阶段,原始查询的最邻近词被选为扩展词,然后其中具有最大权重的词语将被用于第二次检索。该方法的贡献在于,它有效地结合在WordNet的语料库和语义信息的词相关性信息。 另外,还设计了一个基于富媒体的查询扩展系统。本查询扩展系统实现了面向移动互联网的富媒体信息建模与搜索,应用了第一种扩展方法。该系统能够自动对数据库的信息进行一键式的更新处理,能够自动分析用户的查询语句,对用户的查询请求进行个性化响应;并且能够接收用户的反馈信息。最后对结果进行了展示,证明系统的有效性。