企业集团的智能搜索引擎平台的建立

被引量 : 0次 | 上传用户:ldfzcc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息检索的需求。伴随着企业信息化快速发展,为企业量身定制企业级搜索引擎成为一种需求,企业搜索引擎也将成为信息化时代的一大研究热点。与通用搜索引擎相比,企业搜索引擎有着采集内容更丰富、安全系数更高、更高的查全率和查准率等特点:企业搜索引擎面向的数据不仅包括互联网上网页形式的数据,还包括企业内部数据库以及行业应用系统中的业务数据,而业务数据对通用搜索引擎来说是透明的,所以企业搜索引擎有着更高的数据获取门槛,企业搜索引擎面向的用户群体所要查找的往往是行业内的信息,因此对准确率的要求也就更高。本文选择企业集团的智能搜索引擎平台的建立为课题,文中提出了面向集团企业的搜索引擎体系架构,并结合浙江中烟工业公司对企业搜索引擎系统的需求,提出了浙江中烟工业公司企业搜索引擎系统框架,并对其系统进行设计,系统将实现基于烟草行业的垂直搜索引擎。本文具体研究内容如下:1)搜索引擎的四大系统:下载系统、分析系统、索引系统、查询系统。本文根据烟草行业的特殊性,结合烟草行业知识深入研究互联网搜索引擎原理,确立烟草行业对搜索引擎的需求以及企业垂直搜索引擎应实现的功能。2)提出企业搜索引擎系统的聚焦网络爬虫体系架构。文章分析了行业内网页爬取的相关算法,给出了烟草行业的网页重访策略。在存储网页信息时引入基于MongoDB的云存储方案构建网页库,并给出了企业内部数据的抽取方案。3)企业搜索引擎的数据处理分析系统。提出基于烟草行业的网页查重模型,在数据处理模块的研究与设计中,本文针对企业内部搜索提出了本体库的构建。4)企业搜索引擎的查询系统。结合全文搜索的算法以及在PageRank算法的基础上给出了面向烟草主题的算法改进,并通过对查询日志的分析对用户查询意图的推测进行研究与应用,为企业搜索引擎系统的设计提供理论依据。5)基于以上理论知识,本文在浙江理工大学企业智能实验室对企业搜索引擎研究的基础上,对企业搜索引擎系统进行设计,提出企业搜索引擎的体系架构。将该体系应用到作者正在参与开发的浙江中烟工业企业搜索引擎系统中,提出浙江中烟搜索引擎系统框图,以浙江中烟搜索引擎系统的实现效果对本文提出的系统方案进行检验。
其他文献
企业并购是指企业之间的兼并和收购。并购能够有效降低交易费用,实现多元化经营,提高企业的竞争力,使企业迅速扩大规模,是企业发展过程中的一项重要战略选择。并购的本质是社会资
随着中国经济水平的不断提升,中国城镇化进程也在不断加速。因此,农村劳动力向城市流动数量也随之日趋庞大,进而城市随迁农民工子女的教育问题引起了各方的关注。国家注重以
目的考察在不同数字格式下是否会产生空间数字反应编码联合效应(SNARC效应),探讨SNARC效应是否具有广泛性。方法采用2×2×2×4的4因素实验设计,通过0~9的骰子和听力
目的探讨磷脂酰肌醇3激酶/蛋白激酶B(PI3K/Akt)信号通路的活化在姜黄素逆转肝癌耐药细胞株Bel7402/ADR耐药中的作用。方法采用阿霉素药物浓度递增法诱导建立肝癌耐药细胞株Bel7
埃德加·爱伦·坡,美国作家,诗人,编辑和文学评论家。由于他的创作手法和文学理论与当时的文学主流格格不入,在他的国家,坡很长一段时间不被读者和同行所认同。直到20世纪才
近年来声音定位技术得到了越来越多的关注,然而受灵活性、应用方便性和算法精确性等方面的影响,其应用仍然有一定的局限性。声音定位的关键技术在于:一是系统的实时性,二是系统的
新浪微博从2009年发布内测以来,从2010-2012年其用户数量一直处于快速增长的状态,然而,2012年开始,其糟糕的用户体验却一直被用户吐槽,微博不再像是社交平台,而出现了很多营
随着经济社会的快速发展和知识经济的到来,教育投资已经成为大众投资的新热点。加之全球一体化和高等教育国际化进程的进一步深化,可供人们投资的教育范围已经延伸到了海外。
目的比较不同栓线插线深度对线栓法制作大鼠脑梗死模型的影响。方法按照栓线深度将大鼠分为4组:(1)0.8 cm组;(2)1.3 cm组;(3)1.8 cm组;(4)2.2 cm组。模型前、模型后24 h和48