论文部分内容阅读
近几十年来,随着互联网飞速发展,电子信息极速膨胀,全球信息高速流通,互联网进入到了信息冗余,繁杂,难以检索搜集的时代。如此信息爆炸,带来了互联网的新一波严峻挑战。自动抽取有效信息的需求日益突出,信息抽取由此应运而生。然而,随着互联网数据规模不断扩大,传统信息抽取系统面临数据海量性,实效性的难题。如何在大数据,流数据中,进行有效信息的抽取,成为了学者和业界炙手可热的话题和关注点。基于此背景,本文针对信息抽取领域的重要分支——关系抽取进行算法的深入研究,提出并实现了模板匹配与神经网络混合抽取方法,创新性地提出基于词向量的高速抽取方法,并且设计了针对文本流的关系抽取框架。主要内容包括:1.针对模板匹配关系抽取方法Bootstrapping存在的缺点,优化现有模板结构单一性问题,并结合递归神经网络算法MV-RNN,提出了混合抽取模型;2.文本流是以文本为内容的流数据,该形式数据具有数据量大,流速快等特点,本文针对关系抽取在文本流场景下的应用,研究并提出了基于word2vec的词向量关系抽取方法,并分析其应用价值;3.本文最后综合所提及的关系抽取方法,针对文本流数据设计实现了具有预处理、存储检索以及关系抽取模块的流文本关系抽取框架。