论文部分内容阅读
近年来,全球范围内自然灾害频发,造成了严重人员伤亡和财产损失。灾情信息作为灾害发生时应急决策重要依据,及时、准确、全面的收集灾情信息,能够让救援力量快速的到达受灾位置,开展救灾行动。国务院办公厅颁布的《国家综合防灾减灾规划(2016—2020年)》中提到要加强基础理论研究和关键技术研发,推进“互联网+”、大数据、物联网、云计算、地理信息、移动通信等新理念新技术新方法的应用,提高灾害发生时的信息获取能力。本文借助机器学习、文本分类、文本信息挖掘、互联网爬虫等技术方法开展基于互联网新闻的灾情信息收集研究,以期能拓展灾时的信息来源,提升灾情信息收集的能力,为应急管理工作提供信息支持,并以湖南省为案例地区,开发系统原型。本文的工作主要包括以下几方面:新闻分类器构建。利用机器学习和文本分类的方法,通过采集的新闻语料构建新闻分类器,对比了不同文本分类方法、不同文本表示方法、均衡数据集与非均衡数据集以及集成模型与单个模型间的性能差异,最终的结果显示以词向量模型作为文本表示方法,基于均衡数据下所训练的四种新闻分类器所构成的集成分类器的性能最为优异,F1值为0.926,并将此分类器作为系统最终使用的新闻分类器。灾情信息提取研究。通过对新闻主体内容的分析,研究新闻内容中时间信息、地点信息、灾损信息在新闻中的结构规律,根据规律编写提取规则,最终达到文本信息结构化的目的。并借助高德地图提供的地理编码API将地点信息转换为经纬度信息,为地点信息的空间展示提供了基础。系统原型设计与开发。在设计与研究的基础上,运用Python、HTML、JavaScript、WebGIS等开发技术构建面向互联网新闻的灾情信息收集系统,实现新闻的自动化采集,基于新闻标题的新闻自动分类,新闻主体中灾损信息提取与结构化,灾害发生地点信息的地图展示,并结合系统实际运行情况对系统进行验证,检验系统的可行性。