基于Web的电子产品信息抽取及分布式检索技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:fxmen2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展和广泛普及使得网站和网页信息量呈爆炸性的趋势增长,互联网已变成了一个巨大的、分布广泛的全球性信息服务中心。虽然在该信息服务中心中非结构化或半结构化数据的比重呈现增大的趋势,但是在很多应用场景中结构化的信息集合对用户更具有价值。因此,提供用户信息结构化抽取及检索服务的信息融合系统,在Web信息处理领域成为新的研究热点,具有更加广泛的应用场景。面向电子产品领域,论文重点研究信息抽取及信息检索两项关键技术。   论文首先描述面向电子产品的信息融合系统的研究背景与意义,并提出信息融合系统中信息抽取及信息检索两项关键技术的不足之处,最后描述论文的主要工作和组织结构。   其次,论文描述了信息融合系统中采用的平台、相关技术以及国内外研究现状等。面向电子产品的信息融合系统主要是处理Web海量商业信息,完成商业信息的结构化抽取及商业信息的分布式检索。论文侧重描述分布式系统基础架构Hadoop,并在最后描述了Web信息抽取和信息检索的国内外研究现状。   论文第三部分研究信息融合系统的信息抽取与信息检索两项关键技术。针对信息抽取,论文分析Anchor-Hop-I模型,该模型在网页结构未发生大幅度改变的情下,具有信息抽取高效率的优点。但在网页结构改变时,信息抽取将大幅失效,需要人为重新制定抽取规则。针对该模型的适用场景及缺点,论文提出Anchor-Hop-T模型。该模型在Anchor-Hop-I模型失效的情况下,结合电子产品网站的网页特殊结构标签,引入Anchor定位库,自动生成并保存正确的抽取规则列表,大幅提升信息抽取准确率和降低人力成本。针对信息检索技术,论文介绍了基于Hadoop的Map端分布式检索模型,该模型具有高效建立索引的特点,但在查询阶段需要全局查询,大幅降低了查询效率。针对该模型的缺点,论文提出基于Hadoop的Reduce端分布式检索模型,该模型采用分类建立索引的方式,提供混合查询,大幅提升查询效率。同时,结合Hadoop平台特点,提出一些细粒度优化,包括InputSplit块大小控制、JVM重用、Map与Reduce Slot个数控制等,提高了该模型的分布式处理能力。   论文最后部分详细介绍所研发的信息融合系统的总体框架、各个子模块功能及其关键技术等,并展示了信息融合系统的部分实际运行情况。
其他文献
多目标优化问题是一类常见于各种科研以及工程应用中的问题,与经典单目标最优化问题不同,多目标问题中涉及到的各个目标相互之间存在着一定的冲突关系。目前在多目标领域存在
随着网络技术快速发展,大量在线社会网络的建立和使用,越来越多的人参加到社会网络中分享和交流信息,而在这种交互过程中,就会产生大量的数据。这些数据中包含有一部分是用户不想
无线传感器网络(WirelessSensorNetworks,WSNs)是一种综合了传感器技术、嵌入式技术、分布式处理技术和无线通信技术的新一代网络,有着广泛的应用前景。路由技术是无线传感器网络
随着Internet和数字化技术的快速发展,网上数字内容和信息的安全问题已成为人们所关注的重点。传统的信息安全技术包括传统的访问控制技术、信任管理、数字版权管理(DRM)三个
近几年来,随着智能移动设备在生活中的普及,移动GIS应用得到快速发展,需求也越来越广泛。在移动操作系统种类繁多且更新换代速度非常快的背景下,以往以单个应用作为整体的设
后基因组时代中,随着高通量实验技术的快速发展,大量的蛋白质数据被收集起来。然而,蛋白质数据与功能标注数据之间的差距却在不断变大。即使如酵母菌这样得到广泛研究的物种,
运动目标跟踪问题涉及到计算机图像处理、模式识别以及人工智能等诸多领域,是一门交叉性很强的学科。被跟踪目标本身形状的多样性、所处环境的复杂性和跟踪过程中的遮挡问题
软件复用是指重复使用已有的软件产品用于开发新的软件系统,以达到提高软件系统的开发质量与效率,降低开发成本的目的。构件技术是支持软件复用的核心技术。构件技术的不断发展
随着近年来无线通信技术、传感器技术、低功耗嵌入式技术以及一系列相关技术的高速发展和广泛应用,无线传感器网络的实用性和可靠性都得到极大提升,被广泛应用于环境监测、军
现有的搜索引擎在查全率和查准率方面很难满足用户的要求,为了查询到一个相关的内容,用户常常需要使用多个搜索引擎查询相同的内容,然后综合出最适合自己的结果。元搜索引擎