基于语义情感倾向的文本相似度计算

被引量 : 0次 | 上传用户:as55059550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文信息处理中,汉语文本相似度计算是一项基础而重要的工作,广泛应用于信息分类、信息检索、信息过滤、信息管理等领域。由于汉语的特殊性和复杂性,中文文本相似度处理一直都是人们研究的热点和难点。传统的中文文本相似度算法是根据语料统计结果或是词语语义来计算,而根据文本中体现出的作者的对描述内容的看法、观点、情感倾向等主观感情色彩进行的研究较少。因此,本文将作者情感倾向引入文本相似度计算当中。作者的情感倾向在语言中体现为语言的褒贬度。在本文中,句子是进行褒贬度度量的最小语言单位。句子的褒贬性确定和褒贬度度量,以及褒贬度如何对句子相似度产生影响都是本文研究的关键。本文主要有如下几个方面的研究成果:1.研究了引入情感倾向对于中文相似度计算的重要性,并研究了情感倾向因素适合使用的文本情况。人类使用自然语言来描述事物,传达信息,交流情感,因此情感是人类语言最显著的特征,我们在对中文文本信息处理时,不应该忽略情感对于信息处理结果带来的影响。情感倾向在两个文本主题相似或完全相同的情况下将对文本相似度计算发挥决定性的作用。2.研究了句子情感倾向的判定,并给出句子褒贬度衡量方法和计算公式。作者通过结合知网等研究成果,构建反义义原词典、程度副词词典和句子结构化模板,提取和识别句子中词语(主要是动词、形容词)的褒贬度和句子结构的褒贬特征,建立褒贬评价规则,计算句子褒贬度。在分别获得待比较句子褒贬度的情况下,提出了褒贬相似度的计算规则,得出句子褒贬度的比较结果。3.针对汉语由词语构成句子,句子构成段落,段落构成文章的特点,分别对汉语中的词语、句子、段落四个层次的相似度计算进行了研究。这四者层次不同,但是联系密切,由部分构成一个有机的整体,整个计算过程每一步都利用上一步的计算结果。并对基于知网语义的句子和段落相似度计算方法进行改进,引入了句子长度、词语个数、段落长度等多种特征考察文本相似度。4.以计算机取证系统的模型为实例,体现情感倾向因素在具体应用领域的重要性。并对本文提出的理论进行实验,取得了较好的成绩。
其他文献
虚拟制造技术是上世纪八十年代诞生的一种新的制造技术,它以信息技术、仿真技术和虚拟现实技术为支持,可以在产品设计或制造系统的物理实现之前,就能够评估一个产品或制造系
随着机场建设的发展,设备及其备件、技术支持服务的采购成为机场运营的主要成本之一。设备采购脱离后续使用过程涉及的备件采购和技术支持服务相关内容,会导致设备备件和技术
目的基于内毒素特异质模型,比较何首乌炮制前后对大鼠肝脏损伤作用的差异。方法采用无毒剂量的脂多糖(LPS,尾iv 2.8 mg/kg)制备内毒素特异质模型大鼠,模型大鼠和正常大鼠均ig
公共危机管理是政府、媒体、社会三元互动的过程。政府危机信息发布是公共危机管理中的重要环节,也是政府与媒体、社会民众良性信息互动的开端。新媒体环境下,以微博为代表的
差分放大器在电子线路中有着广泛的应用,在模拟电子技术的教学中是重要内容之一。提出了差分放大器除了在直耦放大器中克服零点漂移外,其设置的目地是可以对2个输入端的差进
商务英语专业学生的翻译课程其内容具有非常鲜明的专业特点,运用传统的语法挂帅的授课方式显然无法达到令人满意的效果,而词汇教学法则可令学生对翻译课程打消畏难心理、掌握更
近些年来农村经济逐步的发展起来,农业,农村和农民的三农问题也成为了当下政府各项工作的重中之重,虽然三农问题也有了一定的程度的解决但归根结蒂三农问题却是农村的金融问
在室内研究不同温度(19℃、22℃、25℃、28℃和31℃)对金银花尺蠖幼虫取食量、取食速率、近似消化力和食物利用率的影响。结果表明,较低温度(19℃和22℃)时金银花尺蠖幼虫的
电化学知识是每年高考的重点知识,同时又是学生学习的难点,本文针对高考电化学问题,提出来解决电化学问题的思路、方法和步骤,旨在帮助学生解决电化学问题,减少失误,提高得分
个人金融业务是目前中国金融市场中成长最快的业务,已成为商业银行利润来源的重要组成部分和可持续发展的基础及动力。以客户为中心的个人金融业务发展战略,已成为商业银行提