论文部分内容阅读
近些年来,网络更加便利,消息的传播也不单单经由纸媒或者电视平台,大众更多地是从网络媒体掌握第一手消息,这让一些原本关注度不高的话题频频出现在公众面前。也因为公众版权意识的提升,一些“抄袭”事件更是一次又一次地被志愿者揭露,再经由媒体传播,事件的热度一再提升,有一部分人愿意花费时间和精力对此类事件进行更深入的研究。最为常见的当属从原创者维权角度、相关法律角度分析这种现象,不过,一旦一个事件发生,一定会存在第三方的介入,这不单单是原创者和剽窃方的事。作为第三方的群众,其态度对事件的发展有一定的影响,因此,本文的研究对象主要面向第三方人群。文章选用了知乎网站中的“抄袭”话题评论文本进行情感分析。因评论文本的数量过多,在没有现有数据的情况下,仅能采取网络爬虫技术对此类文本的内容进行收集,本文选用的是Python软件,软件中已有的Beautiful Soup库能够降低整个数据收集过程的难度,最终一共抓取了7601条评论文本。为保证整个情感分析过程的完整性,既需要构建分类器,也需要评价分类器的优劣。为保证体系的完整性,首先,需要在整个数据集中选出训练集作为建立分类器的重要数据集,剩余的数据作为测试集,并对训练集中的文本数据进行相关情感词典的构建,经多次调整,最终确定了766个情感词,这个情感词词典中包含两个变量,其一为确定出的情感词,其二为各个情感词对应的情感分值。为降低在计算最终的情感得分中由于正负相抵导致情感得分为0的几率,所以对这些情感词分值进行了相应的调整,分值区间在-5至5之间,以0.5为间隔,分值中不包含0。接着对文本内容进行清洗,去除了文本中无用的标点符号,对文章中的字母、数字也予以去除。再然后对文本内容进行分词,因为种种情况的考虑,在分词处理中选用的是segmentCN()函数,这个函数隶属于R语言中的Rwordseg包,并于分词前导入了自定义词典,该词典中涵盖了相关的专有名词和情感词。最后是情感得分的计算,此时则需要分词结果和情感词典的匹配,分组求和,判定情感标签,由测试集的数据诊断分类器,并将训练集的情感标签结果导出备用。由于数据量过大,又因为在运用机器学习算法进行情感分析时会依赖词典型情感分析中训练集的标签结果,所以这个部分使用的数据以前一部分导出的结果为基准。以标签作为分类变量,通过分词结果和计算的TFIDF指标形成的稀疏矩阵作为自变量构建相应的分类器,最终选用了随机森林和朴素贝叶斯这两种机器学习算法进行分类器的构建,从诊断结果看来,朴素贝叶斯分类器的召回率要高于随机森林和词典型分类器。