论文部分内容阅读
一直以来,古典诗词在中国文学中拥有举足轻重的地位,被视作中国文学与文化的瑰宝,因此,古典诗词有非常高的研究价值,也有着深远的研究意义。然而,中国上千年流传下来的诗词作品数不胜数,按照传统的研究方法,研究者需要经过大量的阅读储备,再对众多文学作品进行翻阅、查找、记录、整理、分析、统计等工作,最后做出个人的判断。在这样的过程,不仅研究者需要投入大量的人力、物力、精力以及时间,也对研究人员的文学素养有着较高的要求,且会由于个人的喜爱偏好做出不客观的结论。国家对于社会主义核心价值观的不断倡导,说明爱国这一精神,对于生活在高速发展的现代中的每个人都非常重要。爱国情怀中蕴含了悠久的历史文化,而古诗词一直是中国人非常喜爱的一种文学形式,通过宣传弘扬爱国诗词来激发人们的爱国情怀是很有帮助的。对爱国诗词的学习有助于传扬中华文化,弘扬民族精神,培养社会主义核心价值观。本文利用文本挖掘的统计模型和计算机程序语言,在研究中考虑古诗词这一文学形式的特点,对古典诗词进行分类,将其分为爱国和其他类别两类,在确定分类模型之后,利用该模型对更多更全面的古诗词数据进行分类得到其中的爱国诗词,再对爱国诗词进行总体分析以探寻古诗词中的爱国情怀。所使用的分类方法有深度学习中专门面向文本数据的卷积神经网络Text CNN和机器学习中的经典分类模型SVM,并引入词向量进行文本表示。本文的研究工作主要包括以下几个方面:1.本文对当前文本挖掘的发展和利用统计方法与计算机知识来研究古典诗词的现状做了总结;2.本文引入词向量这一分布式方法来对古典诗词做文本表示,相比于传统的词袋模型,避免了维数灾难、特征稀疏等问题,而且词向量考虑到了相似词和同义词,更能够较好的表达用词精炼的古典诗词文本;3.分类利用SVM和Text CNN两种方法构建分类模型,通过比对分类效果,最终确定了适合进行古典诗词分类的模型;4.将确定的Text CNN分类模型应用于更多古典诗词数据中,得到了较为完整的、涵盖不同时期不同作者的爱国诗词文本数据,对其进行总体分析,并以著名的爱国诗人陆游的爱国诗词为示例,对其进行词频分析,以研究古诗词中蕴含的爱国情怀。通过这几个方面的工作,实现了将每首古诗词转化为一组200维的数据,并且能够通过分类模型判断其是否为爱国诗词,而对于爱国诗词的总体分析,可以发现在不同历史时期,爱国情怀被激发的程度也不同,通过词频分析,可以更深刻的理解古典诗词中的爱国情怀。