论文部分内容阅读
2013年被学术界定义为大数据元年,经过了近些年的快速发展,大数据对各个领域都引起了深刻的变革,其影响力日益凸显。新闻领域的大数据变革尤为显著,随着自动撰稿技术的发展和移动终端的普及,媒体的新闻发布量呈爆发式增长,海量新闻的涌现给国际舆论研究人员带来了新的挑战,以往依赖人工处理的新闻稿件采集、筛选流程已经无法应对如此大规模的数据源。境外媒体的涉华舆论分析工作具有特殊的意义,其研究成果极大的影响信息时代中的新型政治舆论博弈的工作展开,所以我们必须紧跟技术发展潮流,转变传统的思维观念、打造新型处理手段。本次研究中,通过对涉华舆情研究人员的访谈交流,明确了传统新闻稿件采集的工作流程及要求,并依此梳理出新闻媒体评级体系与新闻稿件评级体系的基本逻辑框架,形成新闻稿件数据清洗方法的规则库主体。此外,研究过程中阅读了大量的新闻学、对外传播学等学科的领域文献,根据新闻传播及涉外交流的自身特点对数据清洗方法进行了有针对性扩充完善,形成本次研究的涉华舆情数据清洗规则库。其后对规则库中的各项具体评级指标进行建模评分,通过确定评判等级和隶属函数使定性的描述转化为具体评级分数。在构建涉华新闻数据清洗规则库的基础上,结合大数据处理技术将数据清洗规则进行技术实现。实验首先对新闻稿件进行预处理,包括:数据标准化、匹配消重、补全缺失数据;然后根据隐马尔可夫模型建立交互式规则库。实验过程中以商业化新闻数据库作为实验数据对涉华舆情新闻数据清洗方法进行了检验。检验结果表明应用数据清洗方法能够较为有效的减少数据处理总量、去除无关新闻噪音,对关注领域的高水准高影响力新闻媒体以及高研究价值的新闻稿件进行较为有针对性聚焦,在信息源头摒弃无效信息、消除信息噪音,对信息质量进行把关。从而优化涉华新闻稿件清洗、采集流程,帮助舆情研究人员处理海量新闻数据,提高整个舆情产品制作流程的效率。