论文部分内容阅读
随着互联网技术和社交媒体的迅速发展,人们习惯于在网络上分享各种观点和评论。这些持续增长的评价数据,提供了丰富的用户情感倾向性信息。分析和挖掘这些信息对于了解舆情导向、判断社会需求、掌控事件态势大有裨益,文本情感分析是对这些信息进行自动分析的研究领域,具有重要的社会和经济价值。对海量用户评价信息进行自动分析已经成为目前研究的热点,但评价信息的领域性、多态性、动态性和个性化特点给研究工作带来了巨大的挑战。目前的工作主要着力在通用技术的研究上,对于情感分析中的领域性和个性化还缺少充分的重视。本文拟从这两个角度入手,将用户、用户的表达习惯以及评价对象的领域特殊性等因素融入到文本情感分析的全过程中去,提高面向用户的文本情感倾向性分析的效果。论文的主要工作包括:1.提出一种基于压缩感知的关键词主题建模技术,有效提高了用户需求的领域建模效率和准确性。不同用户的领域需求不同,情感倾向性的表达也具有领域特殊性,通常需要针对领域数据来构建分析方法。为了满足用户对特定领域情感分析的数据需求,同时减少用户对领域内涵的描述代价,本文提出一种高效的领域主题建模方案(TDCS)。该方案基于用户提交的少量领域相关关键词,充分利用主题在语义空间的稀疏性,引入压缩感知算法,采用迭代精化的处理策略,能得到关键词隶属领域在语义空间上更精确的主题表示。基于这样的主题表示,可以进一步对领域数据进行过滤,有效支持后续分析任务。该方案不仅具有高效、易用的特点,而且其处理框架能兼容各种语义描述模型,适应性强。2.提出一种基于平滑条件随机场模型的实体识别技术,提高了评价对象识别的准确性。评价对象的识别和提取对于准确分析评价信息的倾向性有重要意义。评价对象通常可以看成一种实体,通过序列化学习方法来进行抽取,代表性的方法是条件随机场。但当有标记的训练数据不充足,或者训练与测试数据存在分布与领域差异时,条件随机场会面临泛化能力不够的问题。本文通过引入平滑特征,使得条件随机场的方法对于测试数据的泛化能力更强,增强了领域适应性,有效提高了实体识别的性能,特别是召回率。同时条件随机场对于长距离的语义关系建模能力不够,会导致某些评价对象不能有效识别,本文利用评价对象的上下文和句法位置上的特点,结合条件随机场和句法规则完成对评价对象的识别,充分发挥了条件随机场精度高的优点,同时又弥补了其召回不足的问题。3.提出一种基于总体评价句的篇章情感分析技术,提高了篇章倾向性分析的效果。人们在表达观点时,通常具有一定的语言表述习惯。针对一个评价对象,既有整体性的评价语句,也有针对其各种属性的评价语句。这些评价句的情感极性往往并不相同。已有的方法通常对这些评价句不做区分,在大量属性评价句与总体情感不一致时,很难获得篇章情感的正确分类。本文充分挖掘用户的语言表达习惯特征,基于隐变量结构化SVM,提出一种SVMeop模型,在有效识别总体评价句的基础上,提高总体评价句对篇章总体情感倾向的影响,从而提高篇章倾向性判定的准确性。实验表明,该方法训练速度快,准确性高。4.提出一种用户感知的情感主题建模方法,进一步提高了文本倾向性的分析效果。通常不同用户对评价对象的关注点、情感偏好不同,观点表达风格也不同。要更好地分析评论中的情感与主题,应该综合考虑用户、评价对象等因素。本文在主题模型的基础上,充分挖掘用户、评论以及对象这三个因素对情感主题的影响,设计了一个统一的建模框架,可以得到语义更一致的主题分析结果。此外,由于方法中对用户-情感主题分布和对象-情感主题分布同时建模,可以有效获取不同用户的兴趣和偏好,进而提供个性化服务。本文对面向用户的情感分析关键技术进行了研究,在此基础上,基于云计算平台,对海量网络用户行为数据进行分析和挖掘,包括大规模网页属性提取、用户兴趣点分析等。相关的处理结果对在线广告和推荐系统具有很大的实用价值。实验效果表明,本文的技术方案具有很好的有效性和高效性。