【摘 要】
:
随着移动网络的普及,以微博为代表的社交网络逐渐成为人们获取信息、表达观点的重要渠道。社交网络中的文本篇幅短,数据量大,有着重要的数据挖掘价值,是舆情分析的重要数据源。文本倾向性比对,即通过比对已知倾向性的文本,确定待分析文本的倾向性,是文本倾向性分析的一种手段。文本倾向性分析是自然语言处理和舆情分析等领域的研究热点,以往的研究大多忽视了文本上下文语境包含的潜在情感因素,或者使用神经网络、深度学习等
论文部分内容阅读
随着移动网络的普及,以微博为代表的社交网络逐渐成为人们获取信息、表达观点的重要渠道。社交网络中的文本篇幅短,数据量大,有着重要的数据挖掘价值,是舆情分析的重要数据源。文本倾向性比对,即通过比对已知倾向性的文本,确定待分析文本的倾向性,是文本倾向性分析的一种手段。文本倾向性分析是自然语言处理和舆情分析等领域的研究热点,以往的研究大多忽视了文本上下文语境包含的潜在情感因素,或者使用神经网络、深度学习等机制,原理复杂,不适于处理微博等短文本数据。针对这些问题,本文提出了一种文本倾向性比对方法,并通过实验验证了其有效性,最后结合Hadoop分布式计算平台进行了系统的设计和实现。本文的主要工作有:1.针对微博等社交网络篇幅短、数据量大的特点,提出了一种文本倾向性比对方法,将待分析文本与代表正向、负向及中性的标准文本进行语义相似度比对,将其分为更相似的一类。此外,还提出了标准文本的选用原则。2.在语义相似度计算方面,提出了融合语义相似度概念及其计算方法。计算相关子空间中的文本相似度以及情感子空间中的文本情感相似度,并将二者结合起来,既利用了情感词和观点词中的显性情感因素,又利用了文本上下文语境中隐含的情感因素,使该语义相似度更适于倾向性分析。3.结合Hadoop分布式计算平台,对使用融合语义相似度的文本倾向性比对方法做了系统实现。由数据采集层通过微博API获取数据,并将其存储在本地数据库。对文本进行并行的预处理后,结合本文提出的倾向性比对方法,并行地分析出文本倾向,提高了数据处理的效率。结果展示层调取倾向性分析结果,并对其进行展示。
其他文献
随着我国经济的快速发展,由于发展模式的问题,出现了很多不协调的因素,特别是环境破坏比较严重,这就需要在小学语文教育教学中高度重视环境教育的渗透,这样能够更好地培养小
生物课堂教学需要学生有关经验的支撑,在学生受成长环境制约、直接经验不足的情况下,通过阅读获得间接经验就尤为重要了。阅读生物科普书籍,是学生走近科学、热爱生命,逐步提
本文由提问1+1=□转变为2=□+□激起学生多样的回答,引发了笔者对小学数学课堂教学如何开放的思考。笔者认为数学课堂的教学应尝试为学生的认知发展提供多元路径,让不同的学
目的:观察参苓白术散治疗糖尿病性胃肠病的治疗效果。方法:选择糖尿病性胃肠病56例,枣汤调服参苓白术散每次15g,每天3次。疗程30d。治疗前后分别评定患者胃肠病症状的总分值,
针对静压管桩施工中容易出现的质量问题,从理论和实践的角度论述在关键工程中应注意的问题和采取的质量控制措施,并提出一些常见问题的处理方法。
目的:分析综合康复疗法对压力性尿失禁及性功能的影响。方法:选择惠州市博罗县妇幼保健院2013年3月-2014年5月诊治的600例压力性尿失禁患者为研究对象,随机双盲法将其分为两
近年来,随着现代产业体系的持续构建,以浓厚的地域性的"土特产"为旅游业发展的核心组成迎来了新的发展机遇。由于吕梁地理环境、气候条件、生活习俗及工艺水平的不同,土特产
本文就新疆梨系统的确定、特点、主要品种、分类、分布和起源,以及库尔勒香梨归类于白梨系统与新疆梨系统的研究等方面进行了综述,并提出香梨归属白梨系统的观点。
为了探究在华留学生户外休闲障碍,以非华裔留学生为研究对象,以调查问卷为数据搜集工具,运用描述性统计分析和方差分析技术,得出了社会隔绝对在华留学生的户外休闲阻碍最大的