【摘 要】
:
移动互联网颠覆了人们的生活方式,互联网+商户为吸引客户消费出台各种优惠信息,但是这些信息散落在互联网各处,用户有时需要同时安装好几款软件或者访问不同的网站才能享受到
论文部分内容阅读
移动互联网颠覆了人们的生活方式,互联网+商户为吸引客户消费出台各种优惠信息,但是这些信息散落在互联网各处,用户有时需要同时安装好几款软件或者访问不同的网站才能享受到附近不同商家的优惠信息,用户到达度偏低。为了采集汇聚POI信息,构建数据仓库,需要从各种异构的数据源导入大量的数据,而这些原始数据存在各种质量问题,使得在应用前端的决策支持系统出现错误的分析结果,影响信息服务的质量,数据清洗是提高数据质量的重要途径。本文首先介绍数据清洗的概念、原理、意义和国内外研究现状,重点对字符串匹配算法和相似重复记录检测算法和特点做了分析和比较。接着,根据来源于大众点评、团800、QQ美食的POI商户信息的特点,进行了数据仓库的总体设计。并针对POI商户信息的具体质量问题作数据清洗,包括商户名、商户地址和商户电话号码等信息,其中在对商户地址信息处理过程中,建立标准的行政区划词典库,以完成对商户地址信息的规范化处理;在地址规范化处理过程中,逐步建立街道、标志性建筑等词库,为以后处理更多的POI商户地址信息做标准词库参考。随后,根据标准化处理的POI商户地址信息,利用Arc GIS对数据清洗结果加以验证。即利用百度API提供的地址解析接口,获取数据清洗前后商户的经纬度,由Arc Map拟合经纬度,直观判断数据清洗前后的效果。最后,运用Geo Hash编码,将二维的经纬度编成一维字符串,方便基于用户位置的商家信息的查询与推送,并且将清洗后的数据加载入数据仓库。在本文的结尾,对所做的工作进行了总结,并对POI商户信息数据仓库的深入开发应用做了展望。
其他文献
剪纸艺术是我国民族传统文化的重要组成部分,要了解其发展历史和表现形式的特点,才能使其得到更好的传承和弘扬。
<正>据抽样分析,从文体上看,高考作文中记叙文的比例不足20﹪,能够跻身于一类文的记叙文更是凤毛麟角。记叙文写作成为制约高中生作文水平的一大瓶颈。在作文教学中,记叙文写作
目的探讨经胸微创封堵术治疗先天性心脏病(CHD)疗效、可行性及对术后瘢痕满意度的影响。方法选取2013年10月—2016年3月驻马店市中心医院53例CHD患者,经术前心脏多普勒超声检
讲述单相逆变器的工作原理,并以双极性控制方式下单相桥式逆变电路为例,采用经典的PID控制策略,利用Matlab/Simulink仿真技术进行验证,最后仿真结果表明,该控制策略就有良好
基于对"云时代"学习特点以及课堂口头报告多模态化的认识,在系统功能语言学多模态话语分析(SF-MDA)理论的指导下,该文研究尝试设计基于"云服务"的多模态课堂口头报告教学过程
随着内容营销形式的不断升级,以更为"花式"的广告方式实现品牌价值最大化成为广告主对视频平台的最大期待。"创意中插"作为近两年兴起的广告新形式,已经成为广告界的新宠,获
提出一种基于HSV颜色直方图的图像直觉模糊模型.在该模型下图像可看作是一个直觉模糊集合(IFS),图像之间的相似程度可通过计算直觉模糊集合之间距离来度量.实验数据表明:在HS
<正>太和十八年(494)的冬日里,洛阳城南外的伊阙山萧瑟宁静,山旁的伊水缓缓地流淌,这一平静的景象很快就被远处传来的战马嘶鸣声打破。北魏第七位皇帝孝文帝元宏戎服执鞭,御
通过对预先选择的7种表面活性剂作为谷氨酸发酵促进剂效果的初步筛选,得知两性甜菜碱449和芹菜素硬脂酸酯对产酸率提高有较为明显的效果;进而从加入时间、加入剂量两个方面考
在全球趋于一体化、多元化和技术化的背景下,多模态化教学成为大学外语教学模式的发展趋势,教学理论研究焦点集中在决定教学目标实现、制约教学方法选择和教学模态使用的教学