论文部分内容阅读
在中文信息处理中,汉语文本相似度计算是一项基础而重要的工作,广泛应用于信息分类、信息检索、信息过滤、信息管理等领域。由于汉语的特殊性和复杂性,中文文本相似度处理一直都是人们研究的热点和难点。传统的中文文本相似度算法是根据语料统计结果或是词语语义来计算,而根据文本中体现出的作者的对描述内容的看法、观点、情感倾向等主观感情色彩进行的研究较少。因此,本文将作者情感倾向引入文本相似度计算当中。作者的情感倾向在语言中体现为语言的褒贬度。在本文中,句子是进行褒贬度度量的最小语言单位。句子的褒贬性确定和褒贬度度量,以及褒贬度如何对句子相似度产生影响都是本文研究的关键。本文主要有如下几个方面的研究成果:1.研究了引入情感倾向对于中文相似度计算的重要性,并研究了情感倾向因素适合使用的文本情况。人类使用自然语言来描述事物,传达信息,交流情感,因此情感是人类语言最显著的特征,我们在对中文文本信息处理时,不应该忽略情感对于信息处理结果带来的影响。情感倾向在两个文本主题相似或完全相同的情况下将对文本相似度计算发挥决定性的作用。2.研究了句子情感倾向的判定,并给出句子褒贬度衡量方法和计算公式。作者通过结合知网等研究成果,构建反义义原词典、程度副词词典和句子结构化模板,提取和识别句子中词语(主要是动词、形容词)的褒贬度和句子结构的褒贬特征,建立褒贬评价规则,计算句子褒贬度。在分别获得待比较句子褒贬度的情况下,提出了褒贬相似度的计算规则,得出句子褒贬度的比较结果。3.针对汉语由词语构成句子,句子构成段落,段落构成文章的特点,分别对汉语中的词语、句子、段落四个层次的相似度计算进行了研究。这四者层次不同,但是联系密切,由部分构成一个有机的整体,整个计算过程每一步都利用上一步的计算结果。并对基于知网语义的句子和段落相似度计算方法进行改进,引入了句子长度、词语个数、段落长度等多种特征考察文本相似度。4.以计算机取证系统的模型为实例,体现情感倾向因素在具体应用领域的重要性。并对本文提出的理论进行实验,取得了较好的成绩。