面向微博的观点摘要关键技术研究

来源 :山西大学 | 被引量 : 4次 | 上传用户:x1010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为互联网发展浪潮中的衍生物,短期内迅速俘获了大批用户的心。每时每刻,大众都可以对自己感兴趣的话题发表评论。基于以上情况,包括商家、政府在内的个人及团体都期望能够从这些海量评论中及时感知舆论趋势。正是如此,面向微博文本进行观点摘要应用而生。而情感分析和文本摘要作为观点摘要问题中的两个主要课题已逐渐成为业内的研究热点。其中,情感分析能够识别、抽取文本所表达的情感倾向,帮助了解喜好偏向;文本摘要则可对信息进行压缩、概括,便于知晓概况。因此,针对微博的观点摘要问题,研究情感分析及文本摘要的关键技术具有重要意义。本文围绕微博中多个话题的评论,对观点摘要问题中,情感分析和文本摘要两个子课题所涉及的关键技术进行了研究,主要成果如下:(1)针对微博的情感分析问题,提出了基于三元词组模式的微博情感分析方法。首先将当前已有的情感词典归纳整理,并更新部分资源,得到一个更全、针对性更强的词典。在充分研究微博文本特点后发现,微博评论的作者经常会显式地使用词汇表达自己的观点,且三个词汇之间的组合搭配能够左右整句的情感,因此本文利用三元词组间的搭配模式进行情感分析,用以自动标注语料。最后,对自动标注好的语料进行测试,并分析和研究了多个影响结果的参数。实验结果表明,在不进行人为标注的情况下,自动标注的训练语料可以达到最高72.39%的测试正确率。(2)针对微博的文本摘要问题,提出了基于熵融合的微博文本摘要方法。首先利用主题模型LDA (Latent Dirichlet Allocation)对样本集合建模,挖掘其中的潜在主题。然后对每个子主题下的文本进行相似度计算,用以去除冗余。在计算每条微博的重要度时发现,使用熵值可以度量信息的多少,且微博除文本信息以外还有其他如转发数、点赞数等外源信息。基于以上原因,本文提出了熵与(微博)外源信息融合的微博重要度计算方法,并将每条微博按重要度依次排序。最后再以一定的压缩比抽取摘要。实验表明,相较于对比方法,本文提出的方法在各项指标上平均高出7%。
其他文献
随着网络技术的发展,远程监控系统在工业过程、人民生活、实验教学方面有了越来越多的应用。让全世界的设备都联入互联网已经成为共识。特别是在高校实验教学方面,随着近年来
随着不可再生能源开采量不断缩减、现代化技术的不断进步,电动汽车成为当今的研究热点。内嵌式永磁同步电动机(IPMSM)之所以能广泛应用于电动汽车的驱动系统,是因为其具有小
在计算机视觉领域,摄像机标定问题一直以来都是非常重要的研究方向。传统上,摄像机标定的相关研究主要聚焦于给定模型下的参数估计问题,然而,如若摄像机模型选择的不合理,那
物联网已经从几年前的概念慢慢成为了生活中的现实。公交系统,食品流通,家居住房等今后都将受益于物联网技术的发展和普及。物联网网关作为将感知设备数据传递到网络应用终端的
本文研究了利用小波网络方法在强烈振动信号背景下检测瞬态冲激的问题,并用实际振动信号检验了这种方法的效果。在大型结构及桥梁状态监测研究领域,桁架结构的个别杆件松动或
模仿者蓄意模仿说话人的语音,当相似度很高时,模仿者就很有可能欺骗身份鉴别系统,并获得相应的权限来侵入系统,对信息安全和个人隐私造成严重威胁。因此,进行语音蓄意模仿的分析研
近几十年来,在世界范围内兴起了一种新型洁净燃烧技术,该技术对燃料种类的要求较为宽泛,有较好的稳燃性能,灰渣利用较普通燃烧方式更容易,且大气污染物排放浓度较低。近些年,在能源节约和环境友好政策环境下,循环流化床机组以其显著的经济效益和环境效益得到了广泛的推广。循环流化床炉内脱硫系统作为循环流化床机组的重要组成部分,具有设备投资少、运行成本低、占地面积小、脱硫效率高等突出优点,但其对象具有纯时滞、大迟
近年来,发达国家将发展电动汽车上升到国家战略层面,以改善能源逐渐减少以及环境不断恶化的社会问题。我国政府于2012年也制定相关政策促进汽车产业的升级。开关磁阻电机(Switch
语音信号处理技术是计算机智能接口与人机交互的重要手段之一。随着电子计算机和人工智能的发展,语音的编码、合成及识别等技术在人们的生活中得到了越来越多的应用。而语音
智能交通系统(ITS)是未来交通系统的发展方向,它是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立