论文部分内容阅读
对许多领域的研究,城市的土地利用数据不可或缺,如何获取高精度的土地利用分类数据,向来是相关领域的难点与热点,颇具实用价值。面向对象的分类方法被广泛用于精细的土地利用分类研究中,成果斐然,但已有方法依赖于高分辨率遥感影像的解译,极大限制了这种方法的实用性。社交网络服务、空间信息服务及通信技术的发展,催生出海量的社交媒体地理数据。作为海量地理信息时代的重要组成部分,社交媒体地理数据具有传统数据源难以比拟的优势:包含丰富的时空及文本信息、体量大、更新速度快、与人群活动息息相关、开源、易于获取等,利用社交媒体地理数据,可以再现庞大用户群的生活轨迹对于不同土地利用类型的地区,人群将呈现出不同的活动状况。通过挖掘社交媒体地理数据中的时空及文本信息,掌控人群活动的时空模式,及其活动相关主题情况,进行面向对象的土地利用分类,将取得精度较高的土地利用信息。在充分调研已有研究的基础上,本文提出一种面向对象的分类方法,将对象定义为地块(Land Parcel),通过分析地块内的社交媒体地理数据,识别土地利用类型。为此,选取典型的Twitter数据,进行了实例分析:依托地理信息系统(Geographic Information System,简称 GIS),利用地块数据与 Twitter 数据,综合应用空间分析、数据统计与文本挖掘方法,获取地块自身的属性,并分别从Twitter中的时间记录与Tweets(Twitter中用户发表的文本部分)中挖掘地块内人群活动的时间特征与主题信息。根据所获的多维属性,构建监督学习分类模型进行土地利用分类,最终精度达到83.8%,证明了方法的有效性。具体研究内容如下:(1)数据准备:以带有地理坐标的Twitter数据为例,利用R中的streamR包抓取研究区范围内的数据,并进行数据清洗、初步预处理等。另外,获取该区域的地块数据;(2)属性获取:1、结合多种空间分析方法,从地块数据中,挖掘出其本身的属性;2、根据社交媒体地理数据的特点,对时间记录部分进行进一步的预处理,并定义人群活动的时间属性,编写Python程序,联动MySQL数据库,计算地块内人群活动的时间属性;3、基于地块内的Tweets,利用狄利克雷分布(Latent Dirichlet Allocation,简称LDA)主题模型,分别抽取地块内人群的活动主题信息;(3)根据所获的多维特征,构建神经网络分类模型,并应用网格(Grid Search)调参法优化参数,以获取最佳的分类效果。此外,设置不同的特征组合进行对比试验,评估各类特征在分类中的作用,并深入探讨分类结果产生的原因。