基于写作风格学的作者识别技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hanlu198723620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过分析作品的写作风格来识别作者这一研究在国外很早就开始了,它有很多应用,比如可以帮助人们鉴定某些存在争议的文学作品的作者、判断文章是否剽窃他人作品等。而国内这方面的研究比较少,目前研究得比较多的是《红楼梦》作者问题。作者识别其实就是一个文本分类的过程,文本分类就是在给定的分类体系下,根据文本的内容自动地确定文本所关联的类别。经过多年的研究,已经产生了许多基于统计和机器学习的文本分类算法,如K近邻、朴素贝叶斯和支持向量机等。写作风格学就是通过统计的方法来分析作者的写作风格,作者的写作风格是其在语言文字表达活动中的个人言语特征,是人格在语言活动中的某种体现。这些风格可以通过某些数量特征来体现,例如词长和句长可以体现作者造词句的风格,字、词的出现频率也能体现作者的个人风格,另外还可以从修辞、句法等角度分析作者风格。隐马尔可夫模型是一种基于统计的序列分析和学习模型,也已经被应用于文本分类中,而文档中的各种风格特征之间也是一种序列,另外大量研究表明,支持向量机算法作分类的效果非常好,因此本文提出了两种将写作风格学和文本分类方法相结合的算法来进行作者识别:基于隐马尔可夫模型和写作风格学相结合的算法(简称S_HMM)、基于支持向量机和写作风格学相结合的算法(简称S_SVM)。从后面的实验可以看出,这两种算法取得了较好的效果。最后,本文还提出了一种写作风格稳定性模型。
其他文献
随着我国城市建设的飞速发展,我国大型公共建筑日益增多,随之而来的大型建筑物室内的人员定位问题也受到更加密切的关注。而这一现状给无线传感器网络技术在室内环境的应用带来
无线传感器网络经常按照丛集式部署,这种铺设方案具有通信效率高和扩展性强等优点。然而,由于丛集部署的协议复杂度高,其理论分析和优化改进仍然是一个难题。本文主要对比研
随着网络信息化的快速发展,可靠的网络协议成为保障网络稳定的重要因素。对网络协议进行验证不仅可以最大限度地检测和纠正协议开发前期的错误和缺陷,还可以对已设计的协议进
变化背景指的是视频图像序列中目标的背景是动态的、可变的。传统的目标检测与跟踪系统中,背景相对静止或者背景变化但较为简单,仅作为噪声来处理,而现实情况中背景变化对目标检
云计算是由一系列可动态伸缩的资源组成,这些资源通过虚拟化技术提供给云计算用户,用户通过网络按需租赁云计算资源,从而减少用户终端的处理负担,并能享受云端强大的计算能力
脑机接口技术是计算机、生物医学、神经科学、材料等学科交叉的国际热点前沿技术之一。它不依赖于大脑外周神经和肌肉系统,在脑与外部设备之间人工搭建一条通讯控制通路。根
  以大面积、无损的冬小麦蛋白品质监测预报为目标,基于WebGIS技术,实现了冬小麦蛋白品质遥感监测预报系统。研究从冬小麦收获前期品质趋势预报和冬小麦收获期品质监测两个内
在无线局域网中,人们对使用IEEE802.11的基于定位的服务和传感器网络进行了一系列的研究,为此类网络的新应用和总价值提供了新的视野。在这种基于定位的服务中,用户的物理位置直
随着互联网的普及和发展,各种金融和商业活动都频繁地在互联网上进行,Internet/Intranet技术已广泛应用于社会的各个领域,不仅给人们的生活带来了许多便利,而且使得人们的生
行人的检测和跟踪一直以来都是计算机视觉领域的一个研究热点,在视频监控、军事科技、智能交通管理等方面都有着非常广泛的应用。当前大部分计算机视觉系统采用的普通镜头的所