基于迁移学习的中文短文本情绪分析

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:bird2000521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情绪分析的目标是将文本按照文本包含的情绪,如:生气、开心、惊讶等对文本进行自动地分类,它是按照文本情感倾向将文本划分为正负类的情感分析任务的延伸,在商品或电影评论分析、舆情分析等多个领域有广泛应用。目前,情绪分析仍然是一个研究难点,特别是短文本的情绪分析。有监督的机器学习方法是解决情感分析最常用的方法,其缺点是需要大量的高质量标注数据,但数据标注耗时耗力,且当分类粒度越来越细时标注难度也会增加。因此,本文首先对比分析不同特征表示方式对短文本情感分析的影响,然后重点研究使用迁移学习方法解决短文本情绪分析缺乏标注数据的问题。本文的主要工作和贡献如下:短文本情感分析特征研究特征选择是情感分析至关重要的一步。本文首先分析了新浪微博数据的特点,设计启发式与统计相结合的方法发现新浪微博中的表情符号,俚语等新词;在word2vec模型的基础上提出了基于词性标注的词向量产生模式;评估了词汇特征和词向量特征对情感分析的影响;在情感分析任务上实验分析了word2vec模型参数对词向量性能的影响以及CBOW和Skip-Gram模型的性能。基于样本的情绪分析迁移学习考虑中文短文本缺乏标注数据的问题,本文在Ada Boost模型的框架上进行了改进,提出了基于样本的情绪分析迁移学习算法EATAda Boost(Emotion Analysis Transfer Learning based on Ada Boost)。该算法的出发点是最大化的利用源数据的样本,采用基于词向量的文档语义相似度,以通用情感词为媒介,计算源数据样本与通用情感词的语义相似度确定样本在迭代过程中的权重更新方法。除此之外,实验分析了采用不同词向量组合方式表征样本语义对情绪分析的影响。基于参数的情绪分析迁移学习本文在神经网络模型上设计了两套情绪分析迁移学习框架,充分利用可获得的中文情感分析数据集,采用两步迁移的方法实现数据源之间的迁移和类别之间的迁移,并实验对比了LSTM模型和CNN模型在情绪分析迁移学习上的性能。
其他文献
近年来公共自行车系统作为城市公共交通的一种,以其环保,便捷,经济等优点流行于各大城市,也因此成为了研究热点。由于用户体力的限制,公共自行车系统尚且停留于提供短途出行和“解决最后一公里”服务。现有的研究工作大多关注用户的出行优化与资源分配问题,尚且缺乏公共自行车系统的功能优化研究。近年来,杭州市尝试为公共自行车系统的用户提供助力服务,使用可充电电池为公共自行车提供动力,以达到节省人力,扩大用户出行范
森林作为陆地生态系统的主体,森林生态系统是全球最大的碳库,其林分碳含量的估算为研究全球气候变化、碳循环和能量转换提供了重要的数据支撑,而森林结构参数是估测森林碳储量的基础。相较于每木检尺的工作方式,激光雷达技术提高了森林资源调查的工作效率。其中背包式激光雷达(Backpack Laser Scanning,BLS)以其出色的可通过性,逐渐成为林下测量的新选择。背包式激光雷达以激光SLAM(Simu
学位
背景:乳腺癌发病率位于女性癌症第一位,死亡率位于女性癌症第二位,是危害全球女性健康的主要癌症之一。目前,乳腺癌的治疗手段以手术切除为主,可联合放化疗、内分泌治疗、靶向治疗、免疫治疗、姑息治疗、中医药治疗等方法。在乳腺癌的分子分型中,以激素受体阳性者居多,约占7075%,内分泌治疗是激素受体阳性乳腺癌的重要治疗手段。但是患者在长期服用内分泌药过程中会出现一系列不良反应,严重影响患者的生活质量及规范治
在科学可视化中时变体数据的可视化是一个研究的难点,如何让用户交互式的挖掘体数据的信息,更好的理解体数据一直是人们关注的核心要点。另一方面,各个领域中都存在着时变体
移动互联网的高速发展带动了社交网络的兴起,微信、Twitter、新浪微博等社交网络社区中每天都传播着现实世界中发生的真实事件。由于用户的随意性以及一些社交平台文本字数限
随着流媒体及用户自产生等业务的快速发展,网络应用模式逐渐转变为海量内容的分发与获取。而当前互联网基于主机的端到端通信模式与用户面向内容的服务需求无法适配,内容分发
聚类分析是数据挖掘和机器学习领域中研究热点之一,作为一种高效数据分析方法,它广泛应用于语音识别,图像处理等多个方面。谱聚类算法作为一种新兴的聚类分析方法,它以谱图理
本翻译报告是以历史专著《云南抗日战争史》(A History of Anti-Japanese War in Yunnan)节选为翻译实践素材,以威尔逊和斯珀伯的关联理论为指导撰写的汉英翻译报告。该书是第一部论述云南抗日战争史的专著。本译者的翻译任务是第五章第4-5节,云南经济在抗战时期的大发展。原文总计10700字,讲述了在抗日战争时期,云南作为抗战的大后方,经济蓬勃发展的情况。关联理论是由威尔
学位
使用共焦光学显微镜观察并采集脑组织中神经元细胞的图像,之后设计模型重建出神经元细胞的三维形态学结构,并对结构重建结果进行可视化交互分析,可以帮助研究者理解和揭示大
CFETR(中国聚变工程试验堆)是我国自主设计的下一代托卡马克聚变装置,用于验证大功率聚变能发电的工程可行性,对聚变由试验堆迈向商业堆的发展具有重要的意义。磁体系统作为整个CFETR最为关键的系统之一,导体通电产生磁场约束等离子体达到聚变反应条件,超导磁体承受高温热核辐射的同时也要维持内部导体的超低温环境。开展对纵场超导磁体的低温冷却系统的工程研究设计,有利于提高纵场超导磁体的稳定性。本文通过设计