论文部分内容阅读
书籍是人类进步的阶梯。作为精神食粮,书籍对人们产生着巨大的影响。在这日新月异的科技时代,如何从海量书籍中选择优秀作品对读者而言是重要的,怎样创作出优秀作品脱颖而出同样值得创作者思考。探寻成功小说的共有模式并客观地理解该模式是解决上述问题的有效方法。小说作为常见的文学体裁,具有极高的研究价值。基于小说的情感动态变化可作为剧情发展的高度代理这一理论基础,本文从计算机角度出发,以小说的动态情感变化曲线为切入点结合随机分形理论进行探究。传统的文本情感分析主要集中于对短文本的情感极性分类与标注,对长文本的情感研究并不多见,适合中文小说情感分析的语料较为缺乏,且传统的情感分析停留在对结果的归纳与总结,缺乏对研究结果的进一步探究。针对以上不足,本文工作内容如下:(1)针对研究语料缺乏这一问题,结合当前情感分析研究现状、自身研究条件和小说表现手法多样,上下文联系紧密等特点。本文以大连理工大学出版的《情感词汇本体库》为基础词典,从以下三个方面对其扩充与调整:1.利用Word2vec构造词向量,计算词向量的余弦相似度、基于同义词词典的语义相似度和点互信息实现新词发现。2.构造专属小说情感研究的情感-意象库。3.利用现有情感资源进行词语搭配以扩充词汇量。以此构造中文小说情感词典。(2)本文引入随机分形理论深度解读小说情感曲线。利用自适应分形分析方法去除情感曲线的总体趋势,考察波尺度与残差之间的幂律关系,计算Hurst指数以刻画情感曲线的长程相关性并将其作为特征,以此探索优秀小说的共有模式。为验证结论具备一定合理性,本文将Hurst参数与书籍的豆瓣评分及当当网的销量数分别做相关性分析用以验证。实验结果表明:本文提出的改进情感词典的方法可有效地进行词汇扩充,使之更准确地捕捉情感变化;94%优秀中文小说的情感动态曲线的特征值Hurst均大于0.5,这表明成功小说的情感动态变化普遍具有持续的长程相关性这一共同模式,同时从动力学角度提供了一种机制来解释小说成功的原因。实验验证了 Hurst参数与豆瓣评分,书籍销量均具有较强的正相关性,这证明了 Hurst参数可作为客观衡量中文优秀小说的参考指标且具有一定的合理性。