面向中文微博文本的情感识别与分类技术研究

被引量 : 0次 | 上传用户:cc_001111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为时下最流行的社交媒体之一,微博具有信息传播快、信息量大、内容欠规范等显著特点,已发展成为互联网信息交流共享的重要平台之一。当前,对微博文本的情感识别与分类研究逐渐成为自然语言处理领域中一个新的热点研究方向及难点所在,其研究成果对于企业及时洞悉用户对产品或服务的使用反馈、对获取社会民众的民意、舆情监测等应用均具有重要的现实意义。本研究致力于初步解决面向中文微博文本的主观句识别与情感分类问题,具体研究内容如下:一、通过分析微博文本,总结出微博文本的若干结构特征,并构建表情情感库。在分析微博文本中常出现的重复标点符号的基础上,整理出辅助识别情感分类的标点符号情感库。将情感词汇本体库和表情情感库、标点符号情感库相结合,构建了中文微博文本的情感特征库。二、分别使用词频统计、期望交叉熵、TF-IDF、以及求TF-IDF的方差等方法对微博文本进行情感特征抽取,其实验结果显示:基于方差与TF-IDF加权结合的特征识别与抽取方法取得了最好的结果。三、关于微博文本的情感识别与分类,我们首先判断微博文本的主、客观性,使用朴素贝叶斯方法和支持向量机方法来识别主观句,实验结果显示:朴素贝叶斯方法对主观句的识别效果更好。此后,对属于主观句的微博文本我们进行了情感分类研究,使用基于支持向量机的一对一分类法和一对其余分类法,其实验结果显示:基于支持向量机的一对一分类法效果更好。四、基于以上提出的情感特征抽取方法及情感识别与分类方法,我们构建了相应的原型系统。通过在公开评测数据集上的一系列实验验证了本文所提方法的可行性和有效性。
其他文献
<正> 换元法是数学上一个十分重要的方法。它可应用于各种数学问题,也能取多种多样的形式。下面介绍的“自身变换”的基本思想是: 1.把所给的数学问题整个地用一个未知元来代
血红蛋白是人体血液的重要组成部分,负责将氧气输送到人体各个器官。血红蛋白含量过高或过低都会给人体带来损伤,而血红蛋白疾病遍布人群又极广,尤其是贫血在女性中的病发率,
隐喻的研究有着悠久的历史。从最早的亚里士多德提出的比较说到替代论、互动论,再到从认知科学视角下的概念隐喻学说,古往今来的语言学家们从不同的角度对隐喻进行了研究并尝
蛋白质功能位点的识别对深入理解蛋白质的生物学功能具有重要的意义,应用各种计算方法对蛋白质功能位点进行预测是生物信息学中的一个重要课题。本文中,作者开展了两种蛋白功
视频监控系统如果要使用在无方便电力接口的野外偏远地区或者需要快速部署时,例如应用在森林防火监控、边防线监控、高速公路监控、通信基站监控和突发灾难时快速部署监控时,
随着宁夏生态移民工程的进一步开展,为更好的促进宁夏生态移民地区经济社会的协调发展,宁夏回族自治区政府制定了《宁夏“十二五”中南部地区教育移民实施方案》。该方案确定
本文设计了一款基于ADE7880的三相智能电表,并在计量精度、功能方面做出了改进。其中显示模块采用了一款基于Windows CE的操作系统平台的VC上位机,可很方便的在该平台上完成各
水是城市的重要资源,随着经济社会的发展和人民生活质量的提高,城市对水环境的要求越来越高。城市河道水环境是城市环境的重要组成部分,人们不断努力提升水的质量和品味,这就
企业对质量和产量的持续追求加大了对先进设备的购置和先进技术的应用,设备在生产过程中的重要性日益增加。随着企业设备不断朝着大型化、集成化、复杂化和自动化等方向发展,设
《诗经·唐风·椒聊》的主旨,目前共有四类解读:一是以《毛诗序》为代表的晋与曲沃斗争类观点;二是朱熹主张的无解类观点;三是闻一多用花椒喻多子的妇人,提出欣妇人多子说;四