汉越双语新闻差异性摘要方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:sea0972
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“一带一路”倡议的提出,中越两国的交流变得愈发密切。关于一些重要的新闻事件,两国媒体都会发布大量的汉语新闻和越南语新闻。及时有效地获取双语新闻的主要内容及双语新闻之间的不同点具有重要意义。本文研究汉越双语新闻的差异性摘要问题,主要完成了以下研究工作。1.基于维基百科训练汉越双语词向量。使用维基百科语料进行训练,得到具有较好语义信息的单语词向量,利用已有方法把两份单语词向量投影到同一个第三方空间,投影后的向量可以用于计算汉越词汇间的相关程度,可以作为双语文本分析的资源。实验证明得到的双语词向量具有较好的效果。2.多特征融合的汉越双语新闻摘要方法。针对双语文本难以同时分析以生成双语摘要的问题,提出了一种多特征融合的汉越双语新闻摘要方法。首先,该方法根据新闻文本的特点,借助双语词典和双语词向量,分析句子间的新闻要素共现程度及句子间的相似度;然后,将这两种特征融入句子无向图,利用TextRank算法对句子进行排序;之后,结合句子的位置特征对排序结果进行调序;最后,挑选重要句子并去除冗余生成摘要。在汉越双语新闻文档集上进行了摘要实验,结果表明提出的方法取得了较好的结果,具有有效性。3.基于双语主题聚类的汉越新闻差异性摘要方法。为了获取汉越双语新闻的不同点以生成差异性摘要,提出了一种基于双语主题聚类的汉越新闻差异性摘要方法。该方法从主题层面描述汉越双语新闻的差异。首先,利用LDA模型从双语新闻中抽取主题;然后,借助双语词向量对双语主题进行聚类,把主题分为共有主题和特有主题;最后,利用特有主题抽取汉语句子和越南语句子生成差异性摘要。实验结果表明,提出的方法在汉越双语新闻的差异性摘要任务上取得了较好的结果。4.面向汉越双语新闻的差异性摘要原型系统。开发了一个面向汉越双语新闻的差异性摘要原型系统。该系统从互联网上收集汉越双语新闻,对关于同一事件的双语新闻进行分析,生成汉越双语新闻的普通摘要和差异性摘要,并向用户展示摘要结果。
其他文献
目的探讨不同级别宫颈上皮内瘤变(CIN)患者宫颈上皮内p16、p53及Ki-67表达的差异。方法采用免疫组化方法检查CIN患者(其中CIN I级73例、CIN II级79例、CIN III级96例)和正常
文中研究了具有非线性接触率和标准接触率两类SEIR传染病模型,讨论了模型的无病平衡点、地方病平衡点的稳定性、后向分支、周期解存在性及正周期解的稳定性等问题,主要结果如下
敦煌盆地地跨新疆维吾尔自治区的东南部和甘肃省的西部,是一个改造型残留盆地,目前,国内外诸多学者对该区侏罗系常规油气投入了大量的研究,但对非常规油气的研究非常薄弱。因
施工承包合同与工程成本核算对象之间有着非常密切的关系.但是,在实际工作中,一个施工企业往往要承包许多个建设项目,每个建设项目的具体情况又各不相同.在这种情况下,应对该
目的意义 白血病细胞产生多药耐药(Multidrug Resistance, MDR),是导致化疗失败、肿瘤复发的根本原因。目前逆转MDR的药物效果均不理想,主要原因是由于MDR机制复杂多样且往往
本文简单介绍了生物传感器的检测原理和检测过程,并对近年来生物传感器在食品工业中的应用作了概括介绍,主要包括食品污染物,食品营养成分和食品添加剂等的检测。最后,对生物
季度财报。数据显示,特斯拉第二季度实现营收7.69亿美元,比去年同期的4.05亿美元增长近90%。此外,该公司ModelS电动汽车的产量为8763辆,销售量为7579辆,环比增长17%,超出此前预期。$$  特斯拉CEO伊隆·马斯克
报纸
对晶硅炉热场用三种碳材料(石墨、C/C复合材料、硬质碳毡)在不同腐蚀条件下进行了硅蒸汽腐蚀实验,研究了不同碳材料的硅化腐蚀行为。结果表明:三种材料的结构组成不同,导致三
《开开汉语》是由中泰合编的针对泰国中小学生学习汉语的教材,这套教材共六册,每册均有对应的练习册,因其难度适中、针对性强,该教材在泰国使用非常广泛。本文从教材的课文、
一般而言,一个独特的文化模式必有一个独特的区域经济与之相适应。具体到东北文化模式,从内在形态上说,独特的人口构成形成独特的文化内在形态。东北地区民族源流的复杂敏感