论文部分内容阅读
随着信息社会的进步,特别是国际互连网的迅速普及,信息的数量、内容、格式、存在方式与传输途径都发生了很大变化,提高网络信息的查询质量和翻译效果,对推进我国信息化进程具有十分重要的现实意义。系统实现涉及信息处理、机器翻译和人工智能等学科的难题,其研究具有重要的理论价值。 当前的信息处理系统通常只注重某些难题的克服,缺乏整体解决方案,更因为缺乏对以往处理知识与经验的记忆,常造成对大量信息的重复处理,不但浪费资源,而且因为缺乏积累而难以进步。现有的查询系统因为文本分析深度的限制,检索方式单一,质量不高。实用机器翻译常采用单一的规则分析方法,难以单独解决所有问题,需要多策略的综合利用,而类比翻译的思想一直缺乏在实际系统中的运用。 为解决上述问题,我们设计并主要实现了集网络技术、机器翻译技术和信息处理技术为一体的网络双语信息处理系统(NBLIPS)。系统有效存储并管理各种信息,根据最终用户和机器翻译的不同查询特征与需求,提供多途径的高质量查询功能。系统充分利用信息库中的双语信息,不但为信息检索提供精练依据,而且基于以前的翻译经验和知识,提供类比翻译的新途径。 系统基于独立的格式识别模块和开放的格式知识库,能够实时描述新的格式信息及其处理策略,并在格式过滤时,获取重要的内容信息或启发式信息。基于对文本内容的分析、理解,系统全面抽取文献的各种特征,并根据查询需要建立相应的特征索引。 系统基于倒排文档和相应的术语邻接共现表,根据检索表达式中的术语数目和操作算子的种类,动态实现全文检索,提高了检索响应速度。系统基于双语词典构建关键词的概念关联度表,以此为依据实现基于概念扩张的关键词检索,不但能满足用户概念查询的实际需要,还具有工程实现的代价小和动态调整简便的优点。基于文档内部标题自动提取的层次检索十分便于大型文献内部局部主题的快速定位。系统依赖双语知识对术语的查询可替代关系进行精练,提高了跨语言查询的质量。 文本内部翻译对应关系的建立是基于例子的机器翻译和其他相关处