开放式文档同构引擎关键技术研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zzqq1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对开放式文档同构引擎进行深入研究,旨在实现一个用于底层支撑作用的文档引擎,使高层内容安全产品摆脱文档异构化和文档理解的难题,专注于自身的研究。本文首先介绍了物理结构层和逻辑结构层的结构定义、统一表示方法和功能,而后分别分析了两个层次上需要解决的关键难题,进而举例说明了开放式物理接口开发的过程和文档逻辑层的分析过程。在深入研究前人在分词和未登录词识别的基础上,本文设计了一种基于词典和统计相结合的词法分析系统。该算法包括四部分内容:词典分词算法,词性标注、高效的倒排索引技术以及基于索引的新词发现技术。经过实验证明,该系统既有词典分词的高效,也能保证新词发现的准确率。在句法分析方面,本课题设计了规则和统计结合的句法分析系统,充分利用了线图算法高效率,对简单文法进行线图分析,根据PCFG模型对句法树进行概率计算,选择合适的句法分析树。在概率计算的时候,针对语料库的稀疏问题,采用了Good-Turing算法进行平滑,在最后的测评中取得比较好的效果。在概念抽取层和主题表示层,本课题设计了高效的概念抽取算法,先基于Hash的快速串频统计而后用语言学知识进行处理,快速得到有意义的高频词,而后用基于TFIDF的改进权值计算方法对词进行权重计算,对他们的主题表示能力进行排序,通过对不同类型的文档进行实验,该算法具有较高的可接受率。
其他文献
空时自适应处理(STAP)技术能够有效提高机载相控阵雷达地杂波抑制能力和动目标检测性能,受到了广泛关注。常规统计STAP性能最优的前提条件是具有足够的与待检测样本中的干扰
植物是自然场景中的重要组成部分,但由于其结构的高度复杂性,给模拟植物带来了极大的困难。分形理论的引入,为植物的建模提供了更加广阔的发展空间。随着分形理论研究的不断发展
多种标准长期并存是VoIP技术发展中不可避免的现实,目前VoIP技术涉及的主要协议有:IAX、XMPP、SIP等。VoIP不同系统的互通,已成为业界关注的一个焦点问题。论文首先讨论了VoI
基于外辐射源的双多基地雷达系统凭借其自身的优点,成为了雷达系统研究中的热点,随着数字电视各种技术的成熟,利用地面广播数字电视信号做照射源的外辐射源雷达成为现在雷达
随着网络和多媒体通信技术的发展,移动终端如手机,PDAs(个人数字助理)等的广泛应用,人们对移动网络服务提出了越来越高的要求。移动终端具有一些共同的特点如:显示分辨率低,
感知音频编码是一种音频压缩方法,能够利用人耳听觉系统的感知特性对失真和噪声进行整形,并使得重建信号与原始信号的差别无法被感知到。感知音频编码能够在较低编码速率的条