涉华舆情新闻库数据清洗方法研究

来源 :北京交通大学 | 被引量 : 5次 | 上传用户:yaya1717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2013年被学术界定义为大数据元年,经过了近些年的快速发展,大数据对各个领域都引起了深刻的变革,其影响力日益凸显。新闻领域的大数据变革尤为显著,随着自动撰稿技术的发展和移动终端的普及,媒体的新闻发布量呈爆发式增长,海量新闻的涌现给国际舆论研究人员带来了新的挑战,以往依赖人工处理的新闻稿件采集、筛选流程已经无法应对如此大规模的数据源。境外媒体的涉华舆论分析工作具有特殊的意义,其研究成果极大的影响信息时代中的新型政治舆论博弈的工作展开,所以我们必须紧跟技术发展潮流,转变传统的思维观念、打造新型处理手段。本次研究中,通过对涉华舆情研究人员的访谈交流,明确了传统新闻稿件采集的工作流程及要求,并依此梳理出新闻媒体评级体系与新闻稿件评级体系的基本逻辑框架,形成新闻稿件数据清洗方法的规则库主体。此外,研究过程中阅读了大量的新闻学、对外传播学等学科的领域文献,根据新闻传播及涉外交流的自身特点对数据清洗方法进行了有针对性扩充完善,形成本次研究的涉华舆情数据清洗规则库。其后对规则库中的各项具体评级指标进行建模评分,通过确定评判等级和隶属函数使定性的描述转化为具体评级分数。在构建涉华新闻数据清洗规则库的基础上,结合大数据处理技术将数据清洗规则进行技术实现。实验首先对新闻稿件进行预处理,包括:数据标准化、匹配消重、补全缺失数据;然后根据隐马尔可夫模型建立交互式规则库。实验过程中以商业化新闻数据库作为实验数据对涉华舆情新闻数据清洗方法进行了检验。检验结果表明应用数据清洗方法能够较为有效的减少数据处理总量、去除无关新闻噪音,对关注领域的高水准高影响力新闻媒体以及高研究价值的新闻稿件进行较为有针对性聚焦,在信息源头摒弃无效信息、消除信息噪音,对信息质量进行把关。从而优化涉华新闻稿件清洗、采集流程,帮助舆情研究人员处理海量新闻数据,提高整个舆情产品制作流程的效率。
其他文献
本文主要针对如何将文化遗产这一人类千年历史长河中珍贵的物质和精神保留,和现代的移动应用体验结合在一起做了分析与研究。无论是做介绍类平台应用还是沉浸类游戏平台,重点
随着社会的进步和生活水平的提高,人们对健康的认知越发明确,对体育锻炼的需求越来越高,参与体育锻炼的人群也不断增加。1995年国务院颁布了《全民健身计划纲要》,要求增强全国人
目的以梅毒螺旋体抗体明胶颗粒凝集试验法(TPPA)为标准参考方法,判定罗氏E601全自动微粒子化学发光免疫分析仪在检测梅毒螺旋体抗体中的应用价值。方法对3 327份梅毒可疑血清
多重文化背景形成了李安电影叙事的显著特点,叙事背景的冲突与融合,让李安试图通过电影进行自我身份的确认,这种确认也是对自我存在、自我文化存在的认同。这种自我认同的结果便
物联网是互联网基础上形成的有利于人们生活和工作的新模式,对人类发展具有重要意义。由于受到通讯技术的限制,物联网的发展一直无法满足人类预期,5G技术更快更稳的传输速度、全区域的覆盖给物联网发展带来新活力。本文介绍物联网发展现状,分析5G技术在物联网中应用的优势,并提出物联网和5G的融合运用模式,期望物联网技术和5G技术的融合更好推进社会的进步。
由于数字微流控生物芯片的应用安全要求苛刻,为保证系统的可靠性,需要不断地对芯片进行全面和严格的测试。针对芯片的结构故障,提出一种基于蚁群算法的测试路径优化方案,实现
随着中国经济的高速发展,中国对能源尤其是天然气能源的需求日益增加。CDB高含硫天然气项目于2002年正式成立,项目主体工程为3列200万立方米/天的天然气净化装置。当项目主体
<正>【课标解读】课标要求"举例说明产业转移及其对区域地理环境的影响"。"产业转移及其对区域地理环境的影响"是要达成的知识目标,"举例"要求采用案例教学的方法。