论文部分内容阅读
随着经济发展和人民生活水平的提高,越来越多的人选择在闲暇的时候出门旅游,通过文字的形式记录下其旅游过程。互联网的普及和发展使网民数量爆炸式增长,也由此产生了一种新的游记形式----网络游记。网络游记为旅游研究打开了新的视野,提供了海量的最真实、最及时的数据。但是,INTERNET是一把双刃剑,存在大量有价值的旅游文本的同时,也伴随着大量的“脏数据”,例如空文本、重复信息、推销信息、不良信息等,使旅游研究结果的准确性大打折扣。通过观察旅游文本所应用的领域相关的文献发现,其采集的原始数据,基本上都是通过肉眼观察进行清洗,或者干脆没有清洗直接使用,很少有人使用文本清洗方法进行清洗。 本文在国内外数据清洗研究的基础上,以北京市216家A级景区为研究对象,采集新浪旅游博客中相应旅游文本信息,对旅游文本内容进行分类,分别说明不同类型旅游文本反映的地理信息的差异,提出了清洗标准和清洗目标;对旅游景区进行分类,针对不同类型景区制定不同的清洗流程,以提高清洗效率;通过构建核心词地名字典的方法进行匹配,以最具代表性的北京欢乐谷为例来进行清洗。研究表明:⑴从总体方法的角度来说,该方法能够将旅游地类型进行分类,根据不同的类型制定不同清洗流程,提高了清洗效率;将旅游文本内容进行分类,通过对清洗过程的细化,编辑字典对不同内容进行清洗,提高了结果的精确度。⑵从具体清洗步骤的角度来说,对于精度影响最大的是广告、新闻、攻略文本,虽然不是完全符合要求的游记,但是大多数为广告、新闻、攻略,与旅游地也有一定的联系,对后期研究影响不大。⑶从最终结果来看,结果剩余483篇旅游文本,其中完全符合要求的有376篇,干净率为77%,结果已经能够满足大部分的后期研究;较之清洗之前的523篇完全符合要求的数量,干净文本保留率为71%,虽然有一部分符合要求的游记在清洗的过程中被剔除,但是这部分游记内容简单,或者文字较少、或者内容空洞,没有符合筛选的要求,这样的游记对后期研究价值不大。