【摘 要】
:
随着互联网的快速发展,用户对数据业务的需求迅猛增加,涌现了海量的图片、文字等半结构、非结构化数据。这些数据具有数量庞大、种类繁多、时效性强等特点,如何从海量数据中
论文部分内容阅读
随着互联网的快速发展,用户对数据业务的需求迅猛增加,涌现了海量的图片、文字等半结构、非结构化数据。这些数据具有数量庞大、种类繁多、时效性强等特点,如何从海量数据中挖掘出附加值高的信息成为了大众关注的热点问题。这其中,基于社交文本的情感分析是进行网络文本数据挖掘的一种有效途径。但由于网络言论自由,在用语表达以及水贴灌溉参差不齐的网络环境下,人们对于信息的准确性与真实性要求日益强烈。目前的文本情感挖掘技术大多基于产品评论、新闻报道等领域,在特定的领域上的分词算法以及情感分类算法上依然不尽如人意,故而效果较差。本文的主要研究工作包含以下三个方面:第一,全文在基于TRIE树的词图扫描技术上,通过互信息与左右熵对未登录词进行识别,根据动态规则查找词频的最大切分组合。本文对比了几种经典统计量在不同数据库中新词检测时的表现,最终选择互信息作为内部统计量,左右邻接信息熵作为外部统计量。第二,通过python 3.6的scrapy框架构建爬虫程序,爬取各大网络平台的数据语料并导入MongoDB数据库,本文结合主流中文词典对数据进行预处理,利用自然语言处理技术,采用手动构建和半自动词典构建方法针对特定领域建立积极、消极专属情感词典以及否定词词典并记录词频,提出一种新的SoA特征选择方法进行情感词典的特征筛选。第三,在经典贝叶斯算法的基础上,本研究结合三类情感词典对贝叶斯算法进行改进,并结合粒子群阈值优化算法识别并提高了每条文本的情感倾向。实验与多种预测方法(KNN、最大熵、SVM)进行比较,基于情感词典的改进贝叶斯算法识别平均准确率为86.85%,结果表明该方法能够获得较为理想的预测结果。
其他文献
高等体育院系体育专业教师在高校教育事业中是一个特殊的群体,在高校体育专业教学中扮演重要角色。合理的评价体系是促进高等体育院系教师队伍建设,保障高等体育院系教育质量
近世的日本社会实行身份制度。这一制度将“士农工商”以“家”为单位固定下来。自此,农工商阶层也和武士阶层一样,拥有了可以继承的“家”,逐渐形成了对于“家”的意识。到
由于幼儿具有强烈的好奇心,导致其对周围的一切事物都感兴趣,任何事都喜欢自己去探索,他们经常做出一些惊人的举动。因此他们很容易遇到危险,让自己受到伤害。幼儿的安全教育是整个学前教育的重要构成,但安全教育并不是一蹴而就的,所以采用好的方法开展安全教育活动能达到事半功倍的教育效果。教育戏剧极具情境性与趣味性,因此教育戏剧是开展安全教育活动的一个好方法,将教育戏剧融入幼儿在意外事故中的自我保护,是本研究的
行人检测作为目标检测领域的热点之一,在无人驾驶汽车辅助系统、智能监控系统和服务型智能机器人等应用领域具有非常高的价值。本文研究的行人遮挡可以被划分为人对人的自遮挡与物体对人的遮挡的两种遮挡类型。人对人的遮挡主要是因为多个行人间有重叠区域导致预测框容易产生偏移至周围其他行人而产生漏检;物体对人的遮挡主要是因为行人被建筑物、树木和汽车等非行人物体遮挡导致无法获得完整的行人信息而产生误检或漏检。为了提高
协作频谱感知可以有效地提高认知无线电网络的感知性能。然而,在分布式协作频谱感知网络中,设备故障、信道阴影衰落和噪声等可能导致频谱感知器(如手机、平板等)发送不可靠的信息。在协作频谱感知网络中,恶意用户也会发送错误的感知信息以混淆视听,干扰诚实用户的判决结果,故意发送虚假感知信息误导诚实用户的这种行为称为频谱感知数据伪造(Spectrum Sensing Data Falsification,SSD
核能是一种广受重视的清洁能源,然而福岛核事故之后公众接受度低限制行业发展,国内多个涉核项目搁浅。我国在核电建设方面非常强调核电企业的公众接受度,并把它作为核电项目审批的重要指标。因此如何改善核电企业的公众接受度成为我国核电发展的一个重要环节。本研究从核电企业履行社会责任的角度探讨公众对核电的接受度,首先以文献研究归纳公众接受度影响因素:信任、公众认知、风险感知和收益感知,提出假设:公众对核电企业社
莱奥什·雅纳切克(Leos Janacek,1854-1928),20世纪捷克著名作曲家,其作品极具魅力。本文以雅纳切克的管弦乐队作品《小交响曲》为研究对象,分析作品的主题、和声、管弦乐队
政府是否合适地奖励见义勇为者不仅关系到政府公信力的问题,也关系到弘扬社会主义核心价值观是否能顺利实现的问题。在现行的地方政府法规条例中,政府奖励见义勇为者的标准十
劳动保障监察是伴随着社会化生产、经济社会发展到一定程度后出现的,是现代国家根据法律授权运用公权力对劳动关系进行干预的重要管理方式,也是政府公共监管的重要一方面。在
本文依据国家广播电视总局关于建立健全现代化广播电视监测体系的要求,对无线广播信号覆盖监测中存在的实际问题进行了分析研究。作为目前无线广播信号覆盖监测常用的监测方式,流动监测车设备成本太高,车载广播监测系统经常出现人工记录数据错漏或丢失的问题。为了解决目前存在的实际问题,提高无线广播信号覆盖监测质量,降低无线广播信号覆盖监测成本,本文设计了便携式无线广播信号覆盖监测系统。具体研究内容如下:(1)基于