论文部分内容阅读
本文对开放式文档同构引擎进行深入研究,旨在实现一个用于底层支撑作用的文档引擎,使高层内容安全产品摆脱文档异构化和文档理解的难题,专注于自身的研究。本文首先介绍了物理结构层和逻辑结构层的结构定义、统一表示方法和功能,而后分别分析了两个层次上需要解决的关键难题,进而举例说明了开放式物理接口开发的过程和文档逻辑层的分析过程。在深入研究前人在分词和未登录词识别的基础上,本文设计了一种基于词典和统计相结合的词法分析系统。该算法包括四部分内容:词典分词算法,词性标注、高效的倒排索引技术以及基于索引的新词发现技术。经过实验证明,该系统既有词典分词的高效,也能保证新词发现的准确率。在句法分析方面,本课题设计了规则和统计结合的句法分析系统,充分利用了线图算法高效率,对简单文法进行线图分析,根据PCFG模型对句法树进行概率计算,选择合适的句法分析树。在概率计算的时候,针对语料库的稀疏问题,采用了Good-Turing算法进行平滑,在最后的测评中取得比较好的效果。在概念抽取层和主题表示层,本课题设计了高效的概念抽取算法,先基于Hash的快速串频统计而后用语言学知识进行处理,快速得到有意义的高频词,而后用基于TFIDF的改进权值计算方法对词进行权重计算,对他们的主题表示能力进行排序,通过对不同类型的文档进行实验,该算法具有较高的可接受率。