论文部分内容阅读
随着Internet的普及信息处理等高科技技术的不断发展,越来越多的企业也在广泛利用Internet技术进行数据共享等信息处理的应用,使得信息内容也正以惊人的速度增加,同时内部业务系统催生大量的复发性、多结构化的数据。在企业规模的不断扩大,数据不断累积的情况下,传统的搜索引擎自身存在信息处理的缺陷,用户只能检索到公开的网页信息,对网页查全率以及查准率过低,对于企业内部的网页则无法检索到,无法满足企业用户的检索需要。企业的运营分析层如何把正确的信息、在正确的时机提供给相应的决策层,以及决策层如何及时准确地获得必要的决策参考信息等问题将成为一个紧迫而复杂的课题。基于需求的驱动,一种基于企业深度挖掘型垂直搜索引擎的出现利用元数据的管理等技术构建一个“综合的营销平台”的数据中心,以及构筑在其上的商务智能,来管理和合理利用信息,给数据服务带来了新的解决方案,因此本文选择课题“基于企业深度挖掘型垂直搜索引擎在数据服务上的研究与应用”,提出了面向企业的搜索引擎体系架构,并将其应用到浙江中烟工业企业搜索引擎系统中,提出了浙江中烟营销搜索引擎系统框架。文章主要研究内容如下:1)根据卷烟企业营销的状况和遇到的问题总结企业用户对搜索引擎系统的需求,确定出了所要建立的搜索引擎系统对爬取数据,元数据管理,将大量数据压缩起来,继而将压缩的数据及那些不易压缩点击频繁的网页进行存储位置及计算,最后根据客户需求搜索信息结果的一系列的研究。2)提出了企业垂直搜索引擎系统的体系架构。文章主要从聚焦网络爬虫、元数据管理平台、数据压缩、云存储及计算、以及数据的查询四个模块对系统进行了设计,重点放在元数据管理、数据压缩、云存储及计算的数据处理以及数据查询的设计上。3)提出聚焦网络爬虫的体系架构。文章给出了聚焦网络爬虫的两种模式,分析了行业内网络爬虫的相关算法,从而得出烟草行业抽取数据的方法,同时根据烟草行业爬取数据的特征给出了相对应的网页搜索策略。4)元数据管理模块。元数据管理层是整个系统的监控维护模块,通过元数据的集成,对数据集中层、数据仓库层和数据展现层进行监控和管理。提供集成的图形环境的单点控制功能。创建元数据模型来表示企业内部信息的使用及相互间的关系。管理工具和环境的集成,包括数据采集、ETL和OLAP数据加载。基于为数据仓库的发展和使用提供方便,更好的将数据与数据整合,提出了元数据管理平台,将数据的数据的作用发挥到更好,提高数据的质量。5)数据压缩。将数据压缩可以节约存储空间,文本在通信链接上传输时间减少,从而降低了运输成本。这里分析了压缩技术,其是重点,压缩技术没有使用得当,压缩效果就完全两样了。在存储压缩的数据及高频率点击的网页信息,引入了基于HBase的云存储及云计算,同时为了解决信息组织问题,方便处理查询和定位、抽取数据的相关部分,索引是关键。6)以以上的理论基础及平时在实验室及实习公司中对搜索引擎系统的研究基础上,提出了基于企业深度挖掘型垂直搜索引擎在数据服务上的研究系统。本文以浙江中烟营销搜索引擎系统为例,对本文提出的系统方案进行验证。