语义搜索关键技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:cj1314810814
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎旨在帮助用户有效的获取信息。现有的搜索引擎,存在精度不高,查全率偏低的缺点,迫切需要新的搜索模型的出现,语义搜索就是尝试之一。   鉴于已有语义搜索模型存在的问题,本文提出了一种改进的语义搜索模型。整个模型包括数据获取和处理、用户查询理解和扩展、搜索和排序三个部分。数据获取和处理模块负责从互联网中获取数据,通过挖掘分析,抽取出语义明确的对象信息;用户查询理解模块是对用户输入的关键词进行理解,并利用本体进行查询扩展;搜索和排序模块负责根据扩展后的词,在对象库中进行搜索,搜索结果根据相似度和重要性进行排序。   本体在语义搜索中地位显著,为查询理解和扩展提供根据,为数据分析处理提供支持,所以构建领域本体是语义搜索的核心内容。手工构建本体,不仅费时费力,而且更新缓慢,迫切需要自动或半自动构建本体的方法。本文提出了基于Wikipedia的本体学习(OLBW)算法,从语料库中自动获取领域的概念和概念之间关系,主要包括同义关系和上下位关系。该方法分语料库构建、术语发现、核心本体构建、本体扩充四个阶段。首先通过构建网络爬虫(Crawler),从数字化图书馆中抓取特定领域的相关网页信息,构建语料库;然后通过浅层句法分析,从语料库中自动获取领域术语:接着利用Wikipedia中分类(Category)信息构建核心本体;最后基于概念间的语义距离和共现分析,利用机器学习方法对杨心本体中的术语和关系进行扩充,完成本体构建。实验结果表明,该方法可以产生高质量的领域本体。   本文基于提出的语义搜索模型,设计和开发了学术领域的语义搜索引擎(Academic SemanticSearch,ASS),主要功能包括:实体搜索;趋势搜索;热门子技术查询。实体搜索是指搜索技术领域相关的论文、专利、项目、研究人员、研究机构信息;趋势搜索是指搜索技术领域的发展趋势;热门子技术查询是指搜索技术领域中子领域的热门统计情况。     
其他文献
医学图像融合是对多幅不同模态的医学图像进行信息综合,合成一幅包含所有源图像重要信息的融合图像的过程。该技术充分利用不同模态医学图像提供病灶信息的冗余性和互补性,以获
随着现代工业和交通运输业的飞速发展,噪声问题日益引起了人们的极大关注。基于自适应控制理论的噪声主动控制技术已经成为噪声控制领域的重要研究内容之一,并取得了丰硕的成果。在自适应噪声主动控制控制系统中,控制算法是直接影响自适应控制性能的重要因素。目前,在自适应噪声主动领域,使用最为广泛的是基于线性自适应滤波器的滤波-XLMS算法,而滤波-XLMS算法存在需要较高阶次的自适应滤器和不能有效的控制非线性噪
H.264是一种高度压缩的数字视频编解码标准,2002年由ITU-T视频编码专家组和ISO/IEC动态图像专家组组成的联合视频组(JVT, Joint Video Team)提出,其特点是具有更好的编码效率
计算机技术、网络技术、Internet技术的进步,带来了数据挖掘技术的迅速发展。该技术主要是以从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜
现代计算机技术的高速发展,使得在科学研究和社会生活的各个领域中积累了大量的数据,为将这些数据转换成有用的信息和知识,数据挖掘技术应运而生并得以迅速发展。但是存在一
网络系统日趋大型化、连续化、高速化和自动化,功能越来越多、结构也越来越复杂,其故障诊断与预测技术涉及到相互关联、相互制约的多个层次和众多因素,其中有很多因素对于系
随着经济全球化的发展,互联网为中小型企业的发展带来更广阔的市场前景。针对目前网购市场中的大量女性客户,本文设计并实现基于化妆品销售的中小型B2C商城系统,提供给客户一
自从20世纪80年代后期数据挖掘理论出现以来,数据挖掘技术有了突飞猛进的发展。随着数据量大量增加,数据挖掘技术变得越来越重要,从而引起了众多研究人员的兴趣,数据挖掘迅速
科学技术是极具传承性的事业,任何一个科技工作者要取得好的进展,都离不开前人或他人的经验和成果。近年来,随着计算机、生物、化学、医药等领域的研究成果发布周期越来越短,
随着Internet的快速发展,越来越多的人们在网络上搜索需要的信息。然而,在互联网上,几乎所有的网页都包含着与主题无关的噪音信息,比如广告条、导航栏等。它们严重影响着搜索