旅游地理研究驱动的旅游文本数据清洗方法——以北京市A级景区为例

来源 :河北师范大学 | 被引量 : 0次 | 上传用户：kk831013

【摘要】

：

随着经济发展和人民生活水平的提高，越来越多的人选择在闲暇的时候出门旅游，通过文字的形式记录下其旅游过程。互联网的普及和发展使网民数量爆炸式增长，也由此产生了一种新的游

【作者】

：

刘雅浩

【机构】

：

河北师范大学

【出处】

：

河北师范大学

【发表日期】

：

2016年期

【关键词】

：

旅游信息网络游记文本清洗计算机技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着经济发展和人民生活水平的提高，越来越多的人选择在闲暇的时候出门旅游，通过文字的形式记录下其旅游过程。互联网的普及和发展使网民数量爆炸式增长，也由此产生了一种新的游记形式----网络游记。网络游记为旅游研究打开了新的视野，提供了海量的最真实、最及时的数据。但是，INTERNET是一把双刃剑，存在大量有价值的旅游文本的同时，也伴随着大量的“脏数据”，例如空文本、重复信息、推销信息、不良信息等，使旅游研究结果的准确性大打折扣。通过观察旅游文本所应用的领域相关的文献发现，其采集的原始数据，基本上都是通过肉眼观察进行清洗，或者干脆没有清洗直接使用，很少有人使用文本清洗方法进行清洗。　　本文在国内外数据清洗研究的基础上，以北京市216家A级景区为研究对象，采集新浪旅游博客中相应旅游文本信息，对旅游文本内容进行分类，分别说明不同类型旅游文本反映的地理信息的差异，提出了清洗标准和清洗目标;对旅游景区进行分类，针对不同类型景区制定不同的清洗流程，以提高清洗效率;通过构建核心词地名字典的方法进行匹配，以最具代表性的北京欢乐谷为例来进行清洗。研究表明：⑴从总体方法的角度来说，该方法能够将旅游地类型进行分类，根据不同的类型制定不同清洗流程，提高了清洗效率;将旅游文本内容进行分类，通过对清洗过程的细化，编辑字典对不同内容进行清洗，提高了结果的精确度。⑵从具体清洗步骤的角度来说，对于精度影响最大的是广告、新闻、攻略文本，虽然不是完全符合要求的游记，但是大多数为广告、新闻、攻略，与旅游地也有一定的联系，对后期研究影响不大。⑶从最终结果来看，结果剩余483篇旅游文本，其中完全符合要求的有376篇，干净率为77％，结果已经能够满足大部分的后期研究;较之清洗之前的523篇完全符合要求的数量，干净文本保留率为71％，虽然有一部分符合要求的游记在清洗的过程中被剔除，但是这部分游记内容简单，或者文字较少、或者内容空洞，没有符合筛选的要求，这样的游记对后期研究价值不大。

其他文献

体验经济下旅游景区规划模式研究——以河北省云梦山景区为例

伴随着旅游业的迅猛发展，各旅游目的地之间以争夺客源为中心的竞争越来越激烈。游客之所以要出游，从根本上讲是受目的地景区(点)产品吸引的结果。目前，旅游景区(点)已成为我国旅

学位

旅游景区规划模式消费特点旅游市场

武陵山区石漠化动态变化及其驱动机制—以彭水苗族土家族自治县为例

学位

2016年厦门海沧口岸进口乳制品激增1.5倍

本刊辑2017年1月11日消息,据厦门海沧检验检疫局统计,2016年厦门海沧自贸园区共进口乳制品398批、2.2万吨、5 236万美元,同比分别增长86%、150%和96.8%,进口量占厦门口岸9成

期刊

厦门海沧乳清粉检验监管配方乳粉井喷式增长餐饮行业营养素含量自贸协定饮食结构不合格

辽宁省用水效率的时空变化分析及影响因素研究

辽宁省是我国北方严重缺水的省份之一,水资源时空分布极不均匀,随着工业化、城市化进程的推进以及全面建设小康社会步伐的加快,社会经济对于水资源需求的日益扩大,水资源供需

学位

用水效率数据包络分析时空分析影响因素

区域旅游景区（点）系统空间结构研究——以四川省为例

空间结构研究既是区域科学研究的主要内容，也是旅游学研究的核心问题之一。旅游空间结构是旅游地理学和旅游规划研究的重点，旅游景区(点)是旅游地理学研究中一个重要内容，它是旅

学位

旅游景区空间结构统计分析

旅游地理研究驱动的旅游文本数据清洗方法——以北京市A级景区为例

其他学术论文