论文部分内容阅读
互联网的快速发展和广泛普及使得网站和网页信息量呈爆炸性的趋势增长,互联网已变成了一个巨大的、分布广泛的全球性信息服务中心。虽然在该信息服务中心中非结构化或半结构化数据的比重呈现增大的趋势,但是在很多应用场景中结构化的信息集合对用户更具有价值。因此,提供用户信息结构化抽取及检索服务的信息融合系统,在Web信息处理领域成为新的研究热点,具有更加广泛的应用场景。面向电子产品领域,论文重点研究信息抽取及信息检索两项关键技术。
论文首先描述面向电子产品的信息融合系统的研究背景与意义,并提出信息融合系统中信息抽取及信息检索两项关键技术的不足之处,最后描述论文的主要工作和组织结构。
其次,论文描述了信息融合系统中采用的平台、相关技术以及国内外研究现状等。面向电子产品的信息融合系统主要是处理Web海量商业信息,完成商业信息的结构化抽取及商业信息的分布式检索。论文侧重描述分布式系统基础架构Hadoop,并在最后描述了Web信息抽取和信息检索的国内外研究现状。
论文第三部分研究信息融合系统的信息抽取与信息检索两项关键技术。针对信息抽取,论文分析Anchor-Hop-I模型,该模型在网页结构未发生大幅度改变的情下,具有信息抽取高效率的优点。但在网页结构改变时,信息抽取将大幅失效,需要人为重新制定抽取规则。针对该模型的适用场景及缺点,论文提出Anchor-Hop-T模型。该模型在Anchor-Hop-I模型失效的情况下,结合电子产品网站的网页特殊结构标签,引入Anchor定位库,自动生成并保存正确的抽取规则列表,大幅提升信息抽取准确率和降低人力成本。针对信息检索技术,论文介绍了基于Hadoop的Map端分布式检索模型,该模型具有高效建立索引的特点,但在查询阶段需要全局查询,大幅降低了查询效率。针对该模型的缺点,论文提出基于Hadoop的Reduce端分布式检索模型,该模型采用分类建立索引的方式,提供混合查询,大幅提升查询效率。同时,结合Hadoop平台特点,提出一些细粒度优化,包括InputSplit块大小控制、JVM重用、Map与Reduce Slot个数控制等,提高了该模型的分布式处理能力。
论文最后部分详细介绍所研发的信息融合系统的总体框架、各个子模块功能及其关键技术等,并展示了信息融合系统的部分实际运行情况。