面向用户的文本情感分析关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:hellolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和社交媒体的迅速发展,人们习惯于在网络上分享各种观点和评论。这些持续增长的评价数据,提供了丰富的用户情感倾向性信息。分析和挖掘这些信息对于了解舆情导向、判断社会需求、掌控事件态势大有裨益,文本情感分析是对这些信息进行自动分析的研究领域,具有重要的社会和经济价值。对海量用户评价信息进行自动分析已经成为目前研究的热点,但评价信息的领域性、多态性、动态性和个性化特点给研究工作带来了巨大的挑战。目前的工作主要着力在通用技术的研究上,对于情感分析中的领域性和个性化还缺少充分的重视。本文拟从这两个角度入手,将用户、用户的表达习惯以及评价对象的领域特殊性等因素融入到文本情感分析的全过程中去,提高面向用户的文本情感倾向性分析的效果。论文的主要工作包括:1.提出一种基于压缩感知的关键词主题建模技术,有效提高了用户需求的领域建模效率和准确性。不同用户的领域需求不同,情感倾向性的表达也具有领域特殊性,通常需要针对领域数据来构建分析方法。为了满足用户对特定领域情感分析的数据需求,同时减少用户对领域内涵的描述代价,本文提出一种高效的领域主题建模方案(TDCS)。该方案基于用户提交的少量领域相关关键词,充分利用主题在语义空间的稀疏性,引入压缩感知算法,采用迭代精化的处理策略,能得到关键词隶属领域在语义空间上更精确的主题表示。基于这样的主题表示,可以进一步对领域数据进行过滤,有效支持后续分析任务。该方案不仅具有高效、易用的特点,而且其处理框架能兼容各种语义描述模型,适应性强。2.提出一种基于平滑条件随机场模型的实体识别技术,提高了评价对象识别的准确性。评价对象的识别和提取对于准确分析评价信息的倾向性有重要意义。评价对象通常可以看成一种实体,通过序列化学习方法来进行抽取,代表性的方法是条件随机场。但当有标记的训练数据不充足,或者训练与测试数据存在分布与领域差异时,条件随机场会面临泛化能力不够的问题。本文通过引入平滑特征,使得条件随机场的方法对于测试数据的泛化能力更强,增强了领域适应性,有效提高了实体识别的性能,特别是召回率。同时条件随机场对于长距离的语义关系建模能力不够,会导致某些评价对象不能有效识别,本文利用评价对象的上下文和句法位置上的特点,结合条件随机场和句法规则完成对评价对象的识别,充分发挥了条件随机场精度高的优点,同时又弥补了其召回不足的问题。3.提出一种基于总体评价句的篇章情感分析技术,提高了篇章倾向性分析的效果。人们在表达观点时,通常具有一定的语言表述习惯。针对一个评价对象,既有整体性的评价语句,也有针对其各种属性的评价语句。这些评价句的情感极性往往并不相同。已有的方法通常对这些评价句不做区分,在大量属性评价句与总体情感不一致时,很难获得篇章情感的正确分类。本文充分挖掘用户的语言表达习惯特征,基于隐变量结构化SVM,提出一种SVMeop模型,在有效识别总体评价句的基础上,提高总体评价句对篇章总体情感倾向的影响,从而提高篇章倾向性判定的准确性。实验表明,该方法训练速度快,准确性高。4.提出一种用户感知的情感主题建模方法,进一步提高了文本倾向性的分析效果。通常不同用户对评价对象的关注点、情感偏好不同,观点表达风格也不同。要更好地分析评论中的情感与主题,应该综合考虑用户、评价对象等因素。本文在主题模型的基础上,充分挖掘用户、评论以及对象这三个因素对情感主题的影响,设计了一个统一的建模框架,可以得到语义更一致的主题分析结果。此外,由于方法中对用户-情感主题分布和对象-情感主题分布同时建模,可以有效获取不同用户的兴趣和偏好,进而提供个性化服务。本文对面向用户的情感分析关键技术进行了研究,在此基础上,基于云计算平台,对海量网络用户行为数据进行分析和挖掘,包括大规模网页属性提取、用户兴趣点分析等。相关的处理结果对在线广告和推荐系统具有很大的实用价值。实验效果表明,本文的技术方案具有很好的有效性和高效性。
其他文献
高步瀛是清末民初著名的学者、考据家,更是一名杰出的教师,在古文教学方面有着独到的经验。《唐宋文举要》是其精心为学生编写的教学讲义,选文精要、体例完备,蕴含着他的古文
<正>一、不事二君君臣关系是元朝以来对统治者无条件地、绝对地服从和牺牲的关系。这种关系从一开始就不能考虑君主是否具有德行和能力,以及其君主的命令、指示是否正确等问
会议
单晶蓝宝石是MEMS器件和LED发光器件中主流的衬底材料,其湿法刻蚀工艺具有加工快速、表面优质和成本低廉等特点。蓝宝石作为典型的三方晶系材料,其原子种类、晶体结构和刻蚀特性都较为复杂。本文将以半球实验和晶片实验为基础,重点研究蓝宝石晶体在浓硫酸与磷酸混合溶液中的各向异性湿法刻蚀特性和表面形貌特征。论文主要内容如下:首先,基于蓝宝石在强酸溶液中的各向异性湿法刻蚀特性,以蓝宝石半球为研究对象开展了五种
Web服务作为基于服务架构的主要实现之一,我们可以通过Web服务跨平台语言使用服务提供商所提供的资源。基于更加有效的整合Web服务的目的,产生了Web服务组合技术,并且因为其
目的探索一种以多巴胺(dopamine,DA)和聚乙烯醇(polyvinyl alcohol,PVA)为原料制备无毒可降解的贻贝仿生高分子粘附材料的合成方法。方法利用氧化淀粉及硼砂对聚乙烯醇进行初
为探明不同播种深度对新疆高产玉米产量和生长发育的影响,于2017-2018年在新疆生产建设兵团第六师奇台农场试验站设置不同播种深度试验。试验品种为KX3564,设置2个种植密度,分别为10.5万株/hm2(P1)和13.5万株/hm2(P2),6个播深处理,分别为3个单一播深处理3 cm(S3)、5 cm(S5)、7 cm(S7)和3个混合播深处理(对应整齐度为2.78(F1)、3.52(F2)、
叶圣陶把他对文学与苏州园林的热爱相结合,水到渠成,写下了《苏州园林》一文。他高度的概括能力以及精妙的构思行文完美诠释了苏州园林如“完美的图画”这一特征。同时,《苏
政府间财政上的预算软约束通常由动态承诺问题所导致,然而,实证上却很难观测到政府间预算软约束的相关证据。文章利用试点营改增的地区差别及时间先后构建双重差分回归模型。
企业虚增利润的常用手法是多记收入,在会计入账平衡的制约下,收入多记必然对应的是应收账款的高估,从而使资产总额增加,提高净资产收益率和短期偿债能力指标。为了确定应收账款的
长江中下游平原是我国淡水湖泊分布最集中的地区,发育着包括我国三个面积最大的淡水湖泊(鄱阳湖、洞庭湖和太湖)在内的众多湖泊。这些湖泊是如何形成的?为什么长江中下游会成为