论文部分内容阅读
随着云时代的来临,传统信息检索领域的词汇关系挖掘理论与方法已无法符合大数据处理各个方面的要求。近年来虽然很多方法及技术被提出来并用于提取文本中的有意义的词汇关系,但是这些方法和技术在高效地提取高阶词汇关系方面仍然存在巨大的挑战,在数量迅速壮大的文档数据集情景下提取高阶词汇关系尤其明显。我们的目标是从大数据集中挖掘高阶的纯的词汇关系,本文所指的纯的词汇组合是不可分的语义实体,即高阶的相关性不能被约减成任何低价的相关性的组合。同时,为解决信息爆炸引起的海量数据计算量“海量”问题,我们提出利用Google及阿帕奇软件基金组织提出采用GFS及HDFS分布式存储系统解决海量数据存储相关任务;MapReduce分布式计算逻辑模型解决海量数据计算任务以及BigTable及HBase解决海量数据实时查询及更新等任务。由于Hadoop分布式处理的软件架构的可靠性较高,扩展性优良,效率高,容错误性强及开源免费,使其可以高效地应用于高阶纯相关词汇关系挖掘任务。本文依托分布式环境下提出基于信息几何的高阶纯相关词汇关系的分布式挖掘算法,分别是高阶Pairwise纯相关(PPD)词汇关系分布式挖掘算法与高阶Theta纯相关(TPD)词汇关系挖掘算法,在此统称分布式挖掘(DPDM)算法。DPDM算法依托Hadoop分布式处理的软件架构,根据MapReduce分布式逻辑计算模型能够充分利用分布式网络中的各个节点的资源高效进行数据量大或者计算密度高的大任务的优点,利用MapReduce分布式逻辑计算模型结合信息几何理论将海量候选词汇关系均匀分配到各个任务节点进行对数似然比检验,并在MapReduce分布式逻辑计算模型中融入多线程编程以高效利用同一个节点上多核计算资源。为使各个任务节点在执行DPDM算法过程中能够在分布式环境下随机访问任意词汇的统计信息,本文集成HBase分布式数据库存储词汇的统计信息。而且,本文基于分布式环境构建了一套完整的DPDM框架,包括内容抽取,停用词过滤,词干还原,索引构建,模式抽取等功能,并基于DPDM框架实现了大数据集中抽取高阶纯相关词汇关系的自动化。通过实验证明,本文提出的分布式高阶纯相关词汇关系挖掘算法能够极大地加快在大数据集上词汇关系的挖掘速率。另外将提取的高阶纯相关应用在传统信息检索任务,如文本分类等实验中,效果也得到了验证。但是分布式高阶Pairwise纯相关词汇关系挖掘算法与分布式高阶Theta纯相关词汇关系挖掘算法过程中数据结构与算法仍存在不足,需要进一步完善。此外,如何将高阶纯相关词汇关系高效应用于传统的基于文本的信息检索任务,甚至将其扩展使其适用于图片、声音、视频等新兴的信息检索领域仍需要深入研究。