基于多种长度单位的汉英句子分组对齐算法

来源 :郑州大学学报:理学版 | 被引量 : 0次 | 上传用户:huanhuan40705
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的基于长度的汉英双语句子对齐算法大都以字节作为句子长度的计算单位.提出了以句子所含动词、名词、形容词、实词、字节及全部词语总数等6种单位作为句子长度的计算方法进行汉英句子对齐研究.针对传统基于长度对齐算法消耗内存大、效率低的特点,提出了不受文本大小限制的分组对齐算法.实验结果表明,汉英句子对齐以词语作为长度计算单位的算法性能较高,准确率达到99.01%,召回率达到99.50%.
其他文献
利用Gains和Mawhin重合度理论中的延拓定理,得到了一类具有Beddington-DeAngelis功能反应密度制约的离散非自治捕食者一食饵系统周期解存在性的充分条件,推广了某些已知的相关
研究了目标函数为时间表长和最大加工运输时间的单机继列批在线排序问题.对于时间表长问题,给出了当批容量无界时竞争比是(√5+1)/2的最好可能的在线算法和当批容量有限时竞争比不
知识产权质押和传统质押的本质性差别在于质押标的物的无形性。知识产权质押已成为科技型企业获得融资的一种新型方式,其实施过程中会带来价值波动、市场交易制度缺失、权利
通过定点测定及湿地土壤的区域调查,对取自红碱淖流域湿地土壤样品全氮(TN)含量进行测定,并整合土壤含水量、植被类型等参数,揭示了红碱淖流域湿地土壤生态特征及湿地演替规律,