基于词典和机器学习的中文小说的情感研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:zzhijian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
书籍是人类进步的阶梯。作为精神食粮,书籍对人们产生着巨大的影响。在这日新月异的科技时代,如何从海量书籍中选择优秀作品对读者而言是重要的,怎样创作出优秀作品脱颖而出同样值得创作者思考。探寻成功小说的共有模式并客观地理解该模式是解决上述问题的有效方法。小说作为常见的文学体裁,具有极高的研究价值。基于小说的情感动态变化可作为剧情发展的高度代理这一理论基础,本文从计算机角度出发,以小说的动态情感变化曲线为切入点结合随机分形理论进行探究。传统的文本情感分析主要集中于对短文本的情感极性分类与标注,对长文本的情感研究并不多见,适合中文小说情感分析的语料较为缺乏,且传统的情感分析停留在对结果的归纳与总结,缺乏对研究结果的进一步探究。针对以上不足,本文工作内容如下:(1)针对研究语料缺乏这一问题,结合当前情感分析研究现状、自身研究条件和小说表现手法多样,上下文联系紧密等特点。本文以大连理工大学出版的《情感词汇本体库》为基础词典,从以下三个方面对其扩充与调整:1.利用Word2vec构造词向量,计算词向量的余弦相似度、基于同义词词典的语义相似度和点互信息实现新词发现。2.构造专属小说情感研究的情感-意象库。3.利用现有情感资源进行词语搭配以扩充词汇量。以此构造中文小说情感词典。(2)本文引入随机分形理论深度解读小说情感曲线。利用自适应分形分析方法去除情感曲线的总体趋势,考察波尺度与残差之间的幂律关系,计算Hurst指数以刻画情感曲线的长程相关性并将其作为特征,以此探索优秀小说的共有模式。为验证结论具备一定合理性,本文将Hurst参数与书籍的豆瓣评分及当当网的销量数分别做相关性分析用以验证。实验结果表明:本文提出的改进情感词典的方法可有效地进行词汇扩充,使之更准确地捕捉情感变化;94%优秀中文小说的情感动态曲线的特征值Hurst均大于0.5,这表明成功小说的情感动态变化普遍具有持续的长程相关性这一共同模式,同时从动力学角度提供了一种机制来解释小说成功的原因。实验验证了 Hurst参数与豆瓣评分,书籍销量均具有较强的正相关性,这证明了 Hurst参数可作为客观衡量中文优秀小说的参考指标且具有一定的合理性。
其他文献
对中小企业的融资扶持政策,重点应放在中小企业信用担保体系建设上。目前中小企业信用担保体系存在的主要问题是:规模偏小,法律法规建设滞后,专业化担保机构发展迟缓,风险与
薪酬管理是人力资源管理工作的重要组成部分。健全的薪酬体系有助于高校后勤员工获得工作安全感,增强员工对企业的忠诚度,降低离职率,激发员工工作积极性,提高劳动效率,完善
随着CAD/CAM技术在鞋楦制造业中的广泛应用,鞋楦的生产方式得到了极大的改变,鞋楦数字化加工成为一种高效的生产方式,数控刻楦机也逐渐成为鞋楦加工的主流。数控刻楦机是一种
在长期的教育实践中,教师普遍重视学生的逻辑思维的培养,而忽视非逻辑思维培养,对非逻辑思维中的直觉思维更是重视不够。实际上直觉思维和逻辑思维在揭示事物之间的本质和事
航空公司为了航班正点率和经济效益,航班往往会在边缘天气下运行,作为航班的放行签派员不仅需要熟练掌握各种放行标准和影响放行的天气因素,而且需要缜密考虑影响放行的其它
<正>诗歌,文学的一种样式。它要求高度概括地反映社会生活,饱含着作者丰富的思想感情和想像,语言精练而形象性强,并有一定的节奏韵律,一般分行排列。中学诗歌教学,应体现诗歌
在诠释市场导向概念的基础上,从品牌建设、生态保护、开拓东盟市场三个方面分析了广西企业的市场导向,提出了企业在建立品牌优势、实现绿色营销、走向东盟市场等方面应采取的
<正>通过移动终端触及移动互联网,通过移动营销方式吸引用户,用户通过二维码、手机定位系统或者WIFI等搜索并筛选服务,通过移动互联网完成支付,然后得到消费凭证到线下企业去
<正>在传统发动机上,进气正时带(链)轮与进气凸轮轴固装在一起,气门的早开、迟闭角(即配气正时)是固定的。随着发动机的转速范围加宽,固定的配气相位不利于发动机的低速经济
<正> 一、色彩感知的主体性诗歌色彩语言特别富有主观感受的性质,带有明显的主体意识。色彩知觉的主体性,既表现于主体的视觉系统对来自客体的光的刺激要作符号化和程式化的