基于改进的SO PMI算法词语倾向性分析研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:lijie6857272
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,网络上的信息出现了爆炸性的增长。这种增长使得人们可以有机会从更多信息源了解和获知他人的信息、想法、态度和意见。而这些主观性的评论,无法通过传统的基于词组和自动索引的信息检索技术来获取。因此,近几年来,文本倾向性分析持续成为自然语言处理领域研究的热点问题之一。文本情感倾向性分析,是对文本中各种对象所表达出的态度(或称观点、情感)进行分析,即对文本中的主观性信息进行分析。按照处理文本的粒度不同,文本情感倾向性分析可分为词语级、短语级、句子级、篇章级等几个研究层次,而词语情感倾向分析是文本情感倾向分析的前提和基础。   本文具体分析了常用词语倾向性判定算法SO PMI存在的一些弊端:依赖种子词选取、依赖语料库的规模以及共现窗口问题。针对这些缺点,本文提出了一种改进算法,具体如下:种子词选取是词语倾向性判断的首要工作,通过以往研究表明种子词的选取对词语倾向判定结果有影响。本文具体分析了种子词选取需要考虑的因素,用高频词和词聚类选取具有代表性的词语,并通过《知网》词语相似度计算每个正向词与正向词集合中正向词的平均相似度,过滤掉平均相似度小即褒贬强度低的词语,同样负向词也是这样过滤,则剩下的词语作为种子词集。通过实验,采用SO PMI算法验证种子词选取对词语倾向性判定的影响以及本文所提方法的有效性。本文在共现窗口和数据稀疏方面提出了一种改进算法。本算法在计算两词语的互信息时加入了两词语之间的共现距离信息,表明了两词语的距离与两词语的相关性成反比;另外,本算法在计算候选词极性时,通过同义词词林对候选词进行扩展,减少了某些词在语料库中出现频率太低所带来的问题。通过与传统点互信息SO PMI方法对比,实验结果表明本文的改进方法会令算法性能得到明显的改善。
其他文献
PaaS(平台即服务)是把运行环境、开发环境等平台资源作为一种服务提供的云计算服务模式。通过PaaS(?)服务,ISV(软件提供商)将遵循规范开发好的应用交付部署到PaaS平台上之后,
随着移动互联网和移动终端的快速发展,人们对娱乐和上网的要求越来越高,平板电脑已经成为人们生活中的重要组成部分。文字输入是上网过程中必要的一环,我们中国有悠久的书写历史
随着计算机技术的高速发展,分布式系统得以广泛应用,然而由于分布式系统本身还不够稳定可靠,再加上环境、人员等外在因素的影响,分布式系统具有很高的故障率,而且一旦出现故
伴随着移动互联网的发展,产生了海量的图像和视频数据,对这些图像和视频数据进行处理与编辑得到了大家的高度重视。最近提出的基于双向相似函数的方法使用双向能量函数来衡量
随着数据库技术、数据仓库技术的迅速发展,存储的数据急剧增长,传统的数据分析和查询方法已经不能满足人们对隐含在数据中的知识的渴求。知识发现是研究如何快速、准确地从杂
随着数据密集型计算需求的快速增长,采用MapReduce框架的云数据中心日益流行。其中,能耗问题已成为基于MapReduce框架的异构云数据中心当今急需解决的问题。为了能够提供超大
形式化方法(Formal Method)是基于严格数学基础的,可以得到非歧义的形式化描述规约,在软件工程领域中引入严格的数学机制,对于提高软件可靠性具有积极作用。形式化技术的使用
随着互联网Web2.0时代的来临,Web应用呈现出爆炸性的发展,能否灵活应变需求、快速开发、迅速接收用户反馈并更快地做出调整("Agile"即敏捷)成为了Web开发的关键。同时,在注重
二维-三维图像配准方法作为医学图像配准领域研究的一个分支,是当前研究的热点之一。其最典型的应用实例是介入外科手术导航中。由于二维医学图像缺乏三维空间信息无法为临床
近年来,随着互联网技术的快熟发展,涌现出了一大批在线社交网络,如:国外的Facebook、Twitter、YouTube,国内的人人网、新浪微博等。微博作为一种新兴的在线社交网络,是现实社会的人