面向石油的主题搜索引擎研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:honest1988li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国石油行业信息化建设发展迅速,但针对石油专业信息检索的主题搜索引擎却寥寥无几。现有的搜索引擎相关技术大多面向综合型搜索引擎,对主题信息检索的研究并不完善,因此研究和开发专业的石油主题搜索引擎具有很大的价值和意义。介绍了主题搜索引擎的发展现状和工作原理,阐述了主题爬虫的工作原理和搜索策略。在研究了国内外主题搜索引擎相关技术的基础上,分析了现有技术的不足之处,提出了几点改进。解析石油主题网页生成DOM树,设计了基于DOM的词共现模型。在该模型的基础上,根据共现信息扩充石油主题词表,从而建立石油主题词典。石油主题词典在原有词表的基础上加入了更多的石油主题词汇,具有更明显的石油主题特征。综合考虑了多种因素对权重的影响,分解了TFIDF权重公式。以文本段为单位计算相似度,改进了N层向量空间模型的权重计算公式,降低了向量空间的维数。提出了一种基于反向链接上下文的自适应主题爬行策略。利用相关网页的反向链接上下文来完善特征库,同时根据特征库来计算链接的优先值,优化了链接优先级的计算。实验证明,在性能上,基于反向链接上下文自适应算法要优于基于链接上下文的传统算法,没有主题漂移现象,且达到了自适应的效果。
其他文献
情感计算是国际上近几年刚刚兴起的、试图使计算机(机器)能够像人类那样具有理解和表达情感能力的一个多学科交叉的新研究领域,在智能人机交互中起着重要作用。由于人的情感
随着互联网的快速发展,网络上出现了越来越多的视频。在科学研究以及商业领域对视频信息的需求也愈发强烈,对于普通用户而言,能快速准确地从海量的视频库中找出感兴趣的视频并不
智能家居的目标是利用现代的通讯、网络、微电子、嵌入式等技术来提高人们的生活质量,使家庭变得更舒适、安全和有效。信息家电,是未来家用电器的主要发展方向。信息家电的发
本文针对目前基于内容的图像检索算法在算法效率和准确性方面存在的局限性,探讨了基于内容的图像检索技术中若干重要问题,提出了一种应用于基于内容的图像检索系统的多特征融
图像分类问题在计算机视觉领域占有重要地位,其实际应用也非常广泛。探究有效的图像分类算法是近些年的研究热点,主要包括图像特征编码与深度结构学习两个方向。针对这两个方
随着视频流媒体业务的迅速发展,用户对视频流媒体的播放质量要求越来越高,传统的C/S模式的流媒体系统,由于建设成本高,播放质量差等缺陷,已经很难适应目前的运营要求。近年来
随着大数据时代的到来,互联网上的信息量呈爆炸式增长。传统的基于文本标注的检索已经不能满足人们对多媒体检索的需求。基于多媒体文件自身内容信息的检索已经成为今年来的
随着嵌入式系统的广泛应用和嵌入式技术的飞速发展,多核处理器在嵌入式系统得到了广泛应用。多核嵌入式操作系统作为嵌入式系统的基础软件平台,也就成为研究的热点。嵌入式操
随着经济的高速发展和汽车保有量的不断增加,交通运输的压力越来越大,如何有效地对车辆进行合理调度与管理就成为政府和公众急切关注的一个热点问题。为了有效地解决这一问题
本文研究确定性重放技术。确定性重放,也称记录重放,这种技术从第三方的角度跟踪程序运行过程,记录关键信息,依据这些信息重现该次执行过程。围绕国产多核处理器可靠性展开的