中文作者识别方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ZZ2077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作者识别是一个应用广泛的研究领域,可以应用于中外文学作品的作者考证领域,也可以应用于版权保护、恶意邮件识别等信息安全领域。对于近年来在文学创作、论文写作等学术领域愈演愈烈的抄袭剽窃之风,传统的解决方法一般是通过在受保护的文本或图片中嵌入水印,当产生纠纷时,根据提取出的水印信息确定版权所属来解决纠纷。然而嵌入的水印在很大程度上存在被破坏、删除或者修改的危险。与传统解决方法相比,作者识别不存在上述问题。作者识别过程的关键是提取出能够有效地代表作者写作风格的特征,由于中文的特殊性,目前应用于中文作者识别的特征相对较少;同时,在涉及到作者个数较多,比如大于20的情况下,识别的准确率会存在大幅下降的问题。本文对中文作者识别方法进行研究,针对该领域中存在的现有问题,提出基于依存语法的中文作者识别方法以及基于词义标记的双层分类中文作者识别方法。前一个方法将自然语言处理中的依存语法关系作为句法层次的有效特征,同时结合已有的虚词、标点符号和词性频数构成一个大特征集来对中文作品进行识别,对于大量特征产生的噪声所导致识别准确率下降的问题,本文利用主成分分析方法对特征集进行降维和优化。后一个方法中,借鉴双层分类作者识别模型,即在传统的作者识别模型中添加一个作者分组层,在该层中提出一种基于词义的中文作者表示方法,将每位作者表示成对应的作者向量,使用聚类算法对作者进行分组,使得每一组中作者数目相对较少(一般不超过20个);第二层为作者识别层,根据作者分组层得到的结果,在组内进行作者识别,得到最终的识别结果。本文利用支持向量机完成识别(分类)的工作,通过实验验证提出方法的有效性。实验结果表明依存语法可以作为一种有效特征,并且主成分分析方法可以对特征集进行降维和优化;基于词义的双层分类作者识别方法可以解决作者个数很多时产生的识别准确率低的问题。
其他文献
自古以来,中国人对建筑、城市规划、艺术品形态等都讲究成双成对,并推崇对称美,自然对文玩核桃的配对要求也非常严格。一般来讲,配对核桃的三围尺寸在不超过一毫米的情况下,越相似
社交网络上的人物社会关系是分析人物网络行为的一类重要信息,如何高效准确地从社交网络上抽取人物关系信息,是本文研究的重点本文首先提出一种基于特征提取的人物关系分类的改
随着人口的增长和社会经济的快速发展,社会对土壤的产出比不断加大。在投入一定的情况下怎么提高土壤的产出已是当前精准农业主要解决的问题。数据挖掘致力于解决从海量数据
近年来,利用手机终端进行产品推介已经在许多工业产品、餐饮、娱乐、旅游等产品中得以实现,但就农产品领域来说,还处在一种摸索、起步的阶段。由于农产品的产销过程环节多、复杂
学位
无线传感器网络是由大量具有无线通信与计算能力的微小传感器节点构成的自组织分布式智能系统,它综合了传感器技术、微机电技术、嵌入式计算机技术和现代无线通信技术,成为了
无线Mesh网是一种新型宽带无线接入系统,可以看作是WLAN和移动AdHoc网络的融合,具有可靠性、自组织性和自愈性等特点。由于无线Mesh网络拓扑结构的动态变化以及无线信道的不稳
随着计算机网络的迅速发展,计算机网络技术的应用越来越广泛,其规模也越来越庞大;安全事件层出不穷,安全形势日益严峻。信息安全态势相关技术能够综合各安全因素,全面、整体地反映大规模网络的信息安全状况,并能够对其发展趋势进行预测。目前,信息安全态势的相关技术研究已经成为网络信息安全领域的研究热点。本文概述了电力信息安全态势研究的基本内容,设计并且实现了电力信息安全态势分析系统,该系统所包含的功能模块自下
在当今信息化高度发达的社会里,人们可以享受到信息化技术所带来的诸多便利,如网上购物、网上银行、远程办公等。同时,各种各样的非法信息,如色情、暴力、反动、封建迷信等,也通过
农业机械化是现代农业的重要基础。在我国,农机作业服务十分普遍,但由于农机作业受价格、天气、面积、距离、路况、作业能力等诸多因素影响,仍然存在着作业地点盲目选择、作业成