【摘 要】
:
机器翻译、跨语言信息检索等自然语言处理应用对大规模的双语资源都有大量的需求。虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模
论文部分内容阅读
机器翻译、跨语言信息检索等自然语言处理应用对大规模的双语资源都有大量的需求。虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。本文致力于基于Web的大规模双语平行语料库自动获取算法研究。双语资源挖掘需要克服Internet中网页存在大量重复网页的问题。通过关键词检索相似文章,再从相似文章检测重复文章,此方法有效的解决了效率和准确率平衡问题。通过句子、词之间相互促进的迭代方式选择关键词。网页的有效去重为双语资源挖掘的高效奠定了坚实的基础。大量双语平行句对存在于双语混合网页内。本文通过充分分析网页的结构和网页的内容挖掘双语句对。首先基于搜索引擎摘要获取双语言混合网页,其次通过网页分块选取双语候选资源,基于双语单词互译度、句子之间度量、M-N网页HTML节点对齐候选双语平行句对。最后基于最大熵模型结合长度、双语单词互译度、存在于网页内的距离、词对齐特征有效的鉴别了双语平行句对。网络作者在进行双语平行网页URL命名时往往具有一定的规律性,本文通过分析URL获取双语网站内候选平行网页对。利用编辑距离算法计算和预定义字符串相似度发现双语网站。通过分析网页文本长度、锚文本双语单词互译度、词对齐,采用分类器鉴别平行文本。
其他文献
<正>2018年5月27日,中石化上海工程有限公司QHSE管理体系顺利通过劳氏质量认证有限公司审核,质量和环境管理体系获新版认证证书,证书有效期均至2020年5月28日。这标志着中石
中共十九大报告提出“永远把人民对美好生活的向往作为奋斗目标”。生活质量是衡量美好生活的重要维度,提高生活质量是实现美好生活的重要途径。未来30年,全面提高生活质量将
目的:本文采用临床报告的形式对i3plus镍钛系统与Protaper两种机用镍钛根管锉的疗效进行对比,比较根管的疏通率、治疗时间、治疗后疼痛发生率及根管预备质量,为i3plus镍钛系
废油处理作业环保及资源有效利用的一项新课题,具有良好的市场推广潜力。文章分析废油行业的现状,结合柳钢废油的特点,选择适合柳钢废油处理的物理处理法和化学处理法相结合
近年来,马铃薯产业的快速发展和人们的饮食结构的变化,对于马铃薯加工业的需求和育种工作提出了更高的要求,加工型品种的选育成为重要的育种方向。本试验对育种后代材料进行产量与品质的综合评价,筛选和鉴定品质优良的材料。选用48个炸片分值较高的无性系,对农艺性状、产量性状、营养品质、加工性状、和耐低温糖化特性进行综合分析,为品质育种和加工品种的选育提供了基础材料。主要结果如下:(1)在产量及品质性状上,长势
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
文章以探索"动态切入法"理论在中国民间舞教学中产生的积极影响与效果为主线。它不仅是民间舞教材建构与升华的基础,而且对民间舞课堂教学具有至关重要的指导作用,文章主要针
[目的]观察2型糖尿病对鼻咽癌患者预后的影响。[方法]对2003年12月至2011年1月180例鼻咽癌患者资料进行回顾性分析。糖尿病组为2型糖尿病合并鼻咽癌病例共90例,对照组采用病