基于企业深度挖掘型垂直搜索引擎的研究与应用

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:jiangtaizhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及信息处理等高科技技术的不断发展,越来越多的企业也在广泛利用Internet技术进行数据共享等信息处理的应用,使得信息内容也正以惊人的速度增加,同时内部业务系统催生大量的复发性、多结构化的数据。在企业规模的不断扩大,数据不断累积的情况下,传统的搜索引擎自身存在信息处理的缺陷,用户只能检索到公开的网页信息,对网页查全率以及查准率过低,对于企业内部的网页则无法检索到,无法满足企业用户的检索需要。企业的运营分析层如何把正确的信息、在正确的时机提供给相应的决策层,以及决策层如何及时准确地获得必要的决策参考信息等问题将成为一个紧迫而复杂的课题。基于需求的驱动,一种基于企业深度挖掘型垂直搜索引擎的出现利用元数据的管理等技术构建一个“综合的营销平台”的数据中心,以及构筑在其上的商务智能,来管理和合理利用信息,给数据服务带来了新的解决方案,因此本文选择课题“基于企业深度挖掘型垂直搜索引擎在数据服务上的研究与应用”,提出了面向企业的搜索引擎体系架构,并将其应用到浙江中烟工业企业搜索引擎系统中,提出了浙江中烟营销搜索引擎系统框架。文章主要研究内容如下:1)根据卷烟企业营销的状况和遇到的问题总结企业用户对搜索引擎系统的需求,确定出了所要建立的搜索引擎系统对爬取数据,元数据管理,将大量数据压缩起来,继而将压缩的数据及那些不易压缩点击频繁的网页进行存储位置及计算,最后根据客户需求搜索信息结果的一系列的研究。2)提出了企业垂直搜索引擎系统的体系架构。文章主要从聚焦网络爬虫、元数据管理平台、数据压缩、云存储及计算、以及数据的查询四个模块对系统进行了设计,重点放在元数据管理、数据压缩、云存储及计算的数据处理以及数据查询的设计上。3)提出聚焦网络爬虫的体系架构。文章给出了聚焦网络爬虫的两种模式,分析了行业内网络爬虫的相关算法,从而得出烟草行业抽取数据的方法,同时根据烟草行业爬取数据的特征给出了相对应的网页搜索策略。4)元数据管理模块。元数据管理层是整个系统的监控维护模块,通过元数据的集成,对数据集中层、数据仓库层和数据展现层进行监控和管理。提供集成的图形环境的单点控制功能。创建元数据模型来表示企业内部信息的使用及相互间的关系。管理工具和环境的集成,包括数据采集、ETL和OLAP数据加载。基于为数据仓库的发展和使用提供方便,更好的将数据与数据整合,提出了元数据管理平台,将数据的数据的作用发挥到更好,提高数据的质量。5)数据压缩。将数据压缩可以节约存储空间,文本在通信链接上传输时间减少,从而降低了运输成本。这里分析了压缩技术,其是重点,压缩技术没有使用得当,压缩效果就完全两样了。在存储压缩的数据及高频率点击的网页信息,引入了基于HBase的云存储及云计算,同时为了解决信息组织问题,方便处理查询和定位、抽取数据的相关部分,索引是关键。6)以以上的理论基础及平时在实验室及实习公司中对搜索引擎系统的研究基础上,提出了基于企业深度挖掘型垂直搜索引擎在数据服务上的研究系统。本文以浙江中烟营销搜索引擎系统为例,对本文提出的系统方案进行验证。
其他文献
网络电话(Voice over Internet Protocol,VoIP)要求语音传输的低延迟,而互联网网络层由于BGP(Broader Gateway Protocol)协议和网络架构等原因导致整体路由效率不佳、频繁出
目前,Web服务已经开始由基础构建阶段向大规模企业应用阶段发展。但是,Web服务本身没有语义和流程的概念,单个的Web服务功能有限,难以满足复杂的应用需求,这就需要Web服务进行组合
并行计算模型为并行算法和并行计算机系统结构的分析与设计提供了具有指导意义的理论界面和模型框架,它是并行计算研究的重要领域。基于LogGP模型的非独占异构模型NHBL模型是
在Ad Hoc网络中,路由协议是当前国际上研究与应用的热点之一。本文对按需路由协议中的AODV协议进行了深入研究。研究发现,AODV协议中缺少有效机制对链路稳定性进行判定,从而
科学计算可视化是发达国家二十世纪八十年代后期提出并发展起来的一门新兴技术。它将科学计算过程中及计算结果的数据转换为几何图形及图像信息在屏幕上显示出来并进行交互处
基于内容的图像检索(Content-Based Image Retrieval)研究的目的是实现自动地、智能地检索图像,研究的对象是使查询者可以方便、快速、准确地从图像数据库中查找特定图像的方
当前我国在音视频产业领域已经具备较强的产业基础,但由于没有掌握核心技术标准,相关企业长期受制于国外持有标准化专利与技术的企业和组织。为了在音视频产业领域拥有更多的
本文探讨一种白盒测试中测试用例自动生成的搜索算法,旨在为软件测试提供完整的测试用例。 路径覆盖是白盒测试中覆盖率最高的一种覆盖方法,结构化测试数据一般都是通过路径
自然语言描述的协议规范存在二义性问题,协议软件开发人员对同一协议规范理解的差异是导致其协议实现“百花齐放”的根本原因。协议实现与协议规范之间的丝毫偏差都可能给通信
急救护理学是一门理论性与实践性都很强的学科,其教学目的是:增强学员的急救意识,传授急救护理学的基本理论,训练急救技术操作的基本技能,培养学员在紧急情况下迅速评估、正