手机产品信息垂直搜索引擎系统设计与开发

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户：leezhenghui

【摘要】

：

当今网络飞速发展,每天网页数量以几何级方式增长,搜索引擎得到了越来越广泛的应用。通用搜索引擎解决了一部分信息搜索的问题,但是随着通用搜索引擎返回页面的急剧增多,用户

【作者】

：

华大年

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2011年01期

【关键词】

：

主题垂直搜索引擎 Lucene Heritrix 遗传算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今网络飞速发展,每天网页数量以几何级方式增长,搜索引擎得到了越来越广泛的应用。通用搜索引擎解决了一部分信息搜索的问题,但是随着通用搜索引擎返回页面的急剧增多,用户就很难从大量的搜索结果中找到自己满意的信息。每个用户对知识的需求是不同的,因此通用搜索引擎没有区分的把所有结果都返回给用户,给用户使用搜索引擎造成了极大的不便。作为通用搜索引擎的一种发展趋势,垂直搜索引擎应运而生。如今,行业得到了进一步的细化和分工,每个行业的知识量也与日俱增,因此专门正对某个行业来做搜索,成为了现代搜索的新方向。垂直搜索引擎,也被称为专业或者专用搜索引擎,就是专为查询某一个主题信息而产生的查询工具。垂直搜索引擎专门收录某一方面、某一行业或者某一主题的信息,在解决某些实际查询问题的时候比通用搜索引擎更有效。具体而言,垂直搜索引擎就是对网页库中的某类专门的信息进行一次整合,定向分字段提取出需要的数据,进行处理后以某种特定形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将相关的页面抽取为特定的结构化信息数据.如果说网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位.将这些数据存储到数据库,进行进一步的加工处理、去重、分类等,最后分词、索引,最终以对结构化数据的搜索的方式满足用户的信息需求.整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。本论文介绍了构建全文检索系统的Lucene,分析了它的架构和主要工作原理。还对开源爬虫Heritrix进行了深入的分析,对每个核心组件进行了详细的阐述。在前面研究的基础上,设计实现了一个搜索引擎实例,并演示了它的功能。本文详细的介绍了该实例的设计和实现,并介绍了一个基于改进的遗传算法的主题网页搜集算法以及异构web网页的提取算法等。实验表明,该系统具有一定的可行性和实用性,对构建垂直搜索引擎系统有一定的参考价值。

其他文献

基于博弈理论的计算机病毒传播模型

从互联网的诞生到飞速普及给人类社会的沟通方式和生活方式带来了极大的便利,同时计算机网络体系的高速发展和快速壮大也为计算机病毒的生存传播提供了坚实的基础和广阔、有

学位

博弈理论有限理性计算机病毒传播模型均衡策略

基于OEM模型的半结构化数据模式抽取算法研究

随着计算机技术、Internet以及数据库技术的飞速发展,各个领域产生的半结构化数据和信息急剧增加。因此,为满足数据挖掘的需求,需要设计出半结构化数据模型,从而能够利用模型

学位

半结构化数据OEM模型目标模式最长频繁标签路径

基于Web的未登录词翻译技术研究

未登录词(Out of Vocabulary,简写为OOV)的查询翻译是影响跨语言信息检索(Cross-Language Information Retrieval,简写为CLIR)性能的关键因素之一。它的翻译好坏直接影响着机

学位

跨语言信息检索查询翻译未登录词搜索引擎维基百科

基于固定单视点的目标检测与跟踪技术研究

运动目标检测与跟踪技术广泛应用于智能视频监控、人机交互、军事应用等领域,同时也是目标识别、分类和行为分析与理解的基础,是计算机视觉领域研究的热点之一。论文针对前景

学位

核密度估计时间信息窗粒子滤波尺度变化子块匹配轨迹预测

大气湍流环境下的运动目标检测方法研究

运动目标检测从视频或图像序列中提取感兴趣的目标,方便进一步目标跟踪、分类及行为理解等研究工作的进行。它在监控设备无处不在的今天显得极为重要,是目前的研究热点之一。

学位

运动目标检测大气湍流分区域建模多层次决策自适应检测

面向完整TCP会话的报文采集和管理系统

本论文基于TCP会话进行了端到端网络测量研究。提出了半主动网络测量概念,并为端到端会话数据的获取设计并实现了两种方法:第一,基于半主动测量方式,开发了一个面向完整TCP会

学位

网络测量网络行为学报文往返比测度相关性报文采集

CORBA服务与Web服务的比较与实现

分布式对象技术是伴随网络而发展起来的一种面向对象技术,是分布式计算技术与面向对象技术的结合。分布式对象技术研究分布在网络上的各个节点对象如何写作,共同完成任务。OM

学位

分布式CORBAWeb servicesSOAP/ⅡOP

基于人眼灰度敏感特性的信息隐藏技术研究

信息隐藏技术目前已成为国内外科学研究的热点。信息隐藏技术是将数字、序列号、文字、图像等标识信息嵌入到载体数据中,达到版权保护及版权跟踪的目的。此外,信息隐藏技术还

学位

信息隐藏人眼视觉灰度敏感特性水印信息熵动态分割

史前聚落遗址的三维建模与可视化技术研究

考古遗址勘探、挖掘过程中所产生的各类遗迹、遗物信息随着时间的推移正面临逐渐消亡的困境,在考古遗址应用三维数字建模技术,不仅可以满足考古发掘、保护、研究和展示等各层

学位

三维建模规则格网三角网oPenGL

基于关节约束的人体建模研究

随着计算机技术全面进入3D时代,针对虚拟人的研究引起越来越多学者的关注。这一课题在影视动画、虚拟现实、工业设计等方面具有广阔的应用前景。人体模型由线框模型向3D分层

学位

人体建模分层模型骨骼模型blender

手机产品信息垂直搜索引擎系统设计与开发

其他学术论文