旅游地理研究驱动的旅游文本数据清洗方法——以北京市A级景区为例

来源 :河北师范大学 | 被引量 : 0次 | 上传用户:kk831013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济发展和人民生活水平的提高,越来越多的人选择在闲暇的时候出门旅游,通过文字的形式记录下其旅游过程。互联网的普及和发展使网民数量爆炸式增长,也由此产生了一种新的游记形式----网络游记。网络游记为旅游研究打开了新的视野,提供了海量的最真实、最及时的数据。但是,INTERNET是一把双刃剑,存在大量有价值的旅游文本的同时,也伴随着大量的“脏数据”,例如空文本、重复信息、推销信息、不良信息等,使旅游研究结果的准确性大打折扣。通过观察旅游文本所应用的领域相关的文献发现,其采集的原始数据,基本上都是通过肉眼观察进行清洗,或者干脆没有清洗直接使用,很少有人使用文本清洗方法进行清洗。  本文在国内外数据清洗研究的基础上,以北京市216家A级景区为研究对象,采集新浪旅游博客中相应旅游文本信息,对旅游文本内容进行分类,分别说明不同类型旅游文本反映的地理信息的差异,提出了清洗标准和清洗目标;对旅游景区进行分类,针对不同类型景区制定不同的清洗流程,以提高清洗效率;通过构建核心词地名字典的方法进行匹配,以最具代表性的北京欢乐谷为例来进行清洗。研究表明:⑴从总体方法的角度来说,该方法能够将旅游地类型进行分类,根据不同的类型制定不同清洗流程,提高了清洗效率;将旅游文本内容进行分类,通过对清洗过程的细化,编辑字典对不同内容进行清洗,提高了结果的精确度。⑵从具体清洗步骤的角度来说,对于精度影响最大的是广告、新闻、攻略文本,虽然不是完全符合要求的游记,但是大多数为广告、新闻、攻略,与旅游地也有一定的联系,对后期研究影响不大。⑶从最终结果来看,结果剩余483篇旅游文本,其中完全符合要求的有376篇,干净率为77%,结果已经能够满足大部分的后期研究;较之清洗之前的523篇完全符合要求的数量,干净文本保留率为71%,虽然有一部分符合要求的游记在清洗的过程中被剔除,但是这部分游记内容简单,或者文字较少、或者内容空洞,没有符合筛选的要求,这样的游记对后期研究价值不大。
其他文献
伴随着旅游业的迅猛发展,各旅游目的地之间以争夺客源为中心的竞争越来越激烈。游客之所以要出游,从根本上讲是受目的地景区(点)产品吸引的结果。目前,旅游景区(点)已成为我国旅
学位
本刊辑2017年1月11日消息,据厦门海沧检验检疫局统计,2016年厦门海沧自贸园区共进口乳制品398批、2.2万吨、5 236万美元,同比分别增长86%、150%和96.8%,进口量占厦门口岸9成
辽宁省是我国北方严重缺水的省份之一,水资源时空分布极不均匀,随着工业化、城市化进程的推进以及全面建设小康社会步伐的加快,社会经济对于水资源需求的日益扩大,水资源供需
空间结构研究既是区域科学研究的主要内容,也是旅游学研究的核心问题之一。旅游空间结构是旅游地理学和旅游规划研究的重点,旅游景区(点)是旅游地理学研究中一个重要内容,它是旅