知乎“抄袭”话题评论的情感分析

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:oldearth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,网络更加便利,消息的传播也不单单经由纸媒或者电视平台,大众更多地是从网络媒体掌握第一手消息,这让一些原本关注度不高的话题频频出现在公众面前。也因为公众版权意识的提升,一些“抄袭”事件更是一次又一次地被志愿者揭露,再经由媒体传播,事件的热度一再提升,有一部分人愿意花费时间和精力对此类事件进行更深入的研究。最为常见的当属从原创者维权角度、相关法律角度分析这种现象,不过,一旦一个事件发生,一定会存在第三方的介入,这不单单是原创者和剽窃方的事。作为第三方的群众,其态度对事件的发展有一定的影响,因此,本文的研究对象主要面向第三方人群。文章选用了知乎网站中的“抄袭”话题评论文本进行情感分析。因评论文本的数量过多,在没有现有数据的情况下,仅能采取网络爬虫技术对此类文本的内容进行收集,本文选用的是Python软件,软件中已有的Beautiful Soup库能够降低整个数据收集过程的难度,最终一共抓取了7601条评论文本。为保证整个情感分析过程的完整性,既需要构建分类器,也需要评价分类器的优劣。为保证体系的完整性,首先,需要在整个数据集中选出训练集作为建立分类器的重要数据集,剩余的数据作为测试集,并对训练集中的文本数据进行相关情感词典的构建,经多次调整,最终确定了766个情感词,这个情感词词典中包含两个变量,其一为确定出的情感词,其二为各个情感词对应的情感分值。为降低在计算最终的情感得分中由于正负相抵导致情感得分为0的几率,所以对这些情感词分值进行了相应的调整,分值区间在-5至5之间,以0.5为间隔,分值中不包含0。接着对文本内容进行清洗,去除了文本中无用的标点符号,对文章中的字母、数字也予以去除。再然后对文本内容进行分词,因为种种情况的考虑,在分词处理中选用的是segmentCN()函数,这个函数隶属于R语言中的Rwordseg包,并于分词前导入了自定义词典,该词典中涵盖了相关的专有名词和情感词。最后是情感得分的计算,此时则需要分词结果和情感词典的匹配,分组求和,判定情感标签,由测试集的数据诊断分类器,并将训练集的情感标签结果导出备用。由于数据量过大,又因为在运用机器学习算法进行情感分析时会依赖词典型情感分析中训练集的标签结果,所以这个部分使用的数据以前一部分导出的结果为基准。以标签作为分类变量,通过分词结果和计算的TFIDF指标形成的稀疏矩阵作为自变量构建相应的分类器,最终选用了随机森林和朴素贝叶斯这两种机器学习算法进行分类器的构建,从诊断结果看来,朴素贝叶斯分类器的召回率要高于随机森林和词典型分类器。
其他文献
<正>在我国金融市场化改革攻坚克难的时刻,11月30日,人民银行发布了《存款保险条例(征求意见稿)》,提出了建立存款保险制度及其覆盖范围和偿付机制等具体规则。存款保险制度
本文从作者在中国电信信息中心的信息搜集工作经验入手,分析了面向用户的信息资源整合中的信息搜集的范围及其信息搜集过程中所面临的困难,通过比较各种信息搜集方法的优缺点
<正>日前,国家卫生计生委办公厅发出一份公开函,就金箔能否作为食品添加剂在白酒中使用向社会征求意见。在酒中添加金箔制成的"黄金酒",前些年曾经出现过,后来因为不符合食品
为了营造有利于科技企业创新发展的良好环境,通过用市场手段聚集和带动一批社会金融资源与科技资源有效结合,逐步形成多元化、多层次的科技投入格局,近年来,北京市科委设立了
<正>习近平总书记在"不忘初心、牢记使命"主题教育工作会议上提出"守初心、担使命,找差距、抓落实"的总要求,强调这次主题教育的目标要求是:理论学习有收获、思想政治受洗礼
翻译作为沟通两种不同语言文化的桥梁,在跨文化交际中起着不可或缺的重要作用。然而,直到20世纪之前翻译研究一直处在语言层面。“从20世纪开始,翻译研究被许多具有强烈探索精神
期刊
<正>像丝绸一样柔顺的生活,你过过吗?拉拉漫不经心地边喝牛奶边在QQ上问一个见过两次面的网友,一个帅气纯真的小男孩。网友说,没有,很希望哪天能过上这样的生活。可别,千万别
期刊
知识经济的到来催生新课程改革浪潮,它要求我们改变传统教学方式,致力于培养学生的终身学习意识和自主学习能力。本文重点依据高中历史新课标三维目标之"知识与能力"范畴展开