基于结构化向量空间模型的中文信息检索系统研究与实现

来源 :北京工业大学 | 被引量 : 6次 | 上传用户:yeyuan1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索(Information Retrieval, IR)是从数据集中提取相关文档和信息的过程。Internet的出现为人们提供了一种新的信息检索方式,也把信息检索的处理数据从结构化逐步转向半结构化、乃至无结构化。随着Web文本的不断增加,传统的Web检索技术已经很难满足高质量的查询需求。本文的主要内容是研究基于Web的文本信息检索算法。首先,本文介绍了信息检索技术的发展概况,并对基于关键字和基于超链接的检索算法进行了比较和分析。针对关键字检索的查全率不高、链接分析检索方法容易产生主题漂移等缺点,本文将这两种算法相结合,通过页面之间的链接关系来计算每个页面的hub值和authority值,并利用页面链接的锚文本和页面的文档内容与用户查询式进行相似度匹配,获取每个页面的相关度权值,同时在此基础上将检索结果进行排序输出。其次,针对Web信息检索的特点,通过分析传统向量空间模型(Vector Space Model,VSM)在Web检索中存在的若干问题,对传统向量空间模型进行改进,提出了结构化向量空间模型(Structured Vector Space Model, SVSM),其基本思想是将Web文档表达为具有一定逻辑结构的复杂向量,即结构化向量组。每个结构化向量组由若干子向量构成,每个子向量对应Web文档中相对独立的文本段,比如标题、子标题、正文和锚文本等内容。再次,本文对Web信息检索系统中的页面采集器、索引器及相关的原理和技术进行详细地介绍,同时讨论了如何利用页面标记树对网页内容进行去噪处理和主题提取的方法,并给出了一种提高页面索引质量、效率和压缩比的实现途径。最后,本文在已有信息检索算法的基础上,通过结构化向量空间模型,把关键字与超链接检索算法相结合,设计并且实现了一个基于Web的中文信息检索系统。通过参加2007年度全国搜索引擎和Web挖掘评测会议(SEWM2007),证明了该系统的检索算法能够有效地提高Web信息检索的查全率和查准率。
其他文献
<正>刘秀云主任医师很荣幸受《中国循证儿科杂志》编辑部的委托,与申昆玲教授邀请的来自美国哈佛大学医学部麻省总医院儿童呼吸中心主任T.Bernard Kinane教授就儿童间质性肺
目的:探究静脉输液外渗现象产生的原因,提出预防措施,及出现外渗现象后的处理手段。方法:通过查阅中国期刊数据库相关研究,对其进行归纳、分析、总结、概括。结果:静脉输液外
目前,在很多行业中都应用VR技术,通过采用VR技术这种虚拟的表现手段已经受到了越来越多的人的欢迎。经过了多项的研究和测试我们发现,VR技术已经成功的在生产、科研和教育领
恒德久远 ,择乎中行 ,是孔子道德修养论和儒家处世哲学中的思想精髓。孔子认为一个人如果要坚持道德修养 ,而没有“恒德”和“中行”这两点作支撑 ,就很难达于道德修养的最高
“十一国庆黄金周如果你去贵州赤水旅游,可以在新开放的VR战争体验馆中重温当年‘四渡赤水’的战役场景,一定会有不一样的感受。”在第五届“动漫北京”展会上,酷鸟飞飞CEO史蔚
报纸
大数据时代,数据采集阶段自动化决策功能的实现,促使个人隐私数据成为产业自动化决策认可的关键模块。因此,本文以大数据为研究背景,介绍了大数据背景下隐私权刑法保护对象,
近年来,随着信息技术的不断发展,企事业单位也迎来了进一步的发展机遇和空间。产业的升级与调整,离不开信息化时代的优势和影响。财务管理作为企业在发展过程中的重要组成部
<正>从小型的临街小店到连锁的商业品牌店铺,从大型的商业环境到临时性展示活动,从短期性的博览会到长期展览的博物馆展示。展示活动参与着在当代人许许多多的生活环节中。展
目的:制备枇杷桔梗合剂,探索质量控制方法。方法:利用薄层色谱法定性鉴别枇杷叶、薄荷脑。结果:薄层色谱中的斑点清晰,易于识别。结论:制备工艺简单,TLC鉴别方法可作为控制制
福建省竞技武术套路在新时期将如何发展,需要不断摸索适合当下乃至长远发展的方向与路径。青少年是我国武术运动员最直接的人才储备,是竞技武术套路得以更好传承与发展的保证