基于空间文本数据的k近邻连接研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:FalyE981521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着智能便携式设备、社交网络和无线传感器网络的发展和普及,各种基于位置的服务和应用越来越多,大量同时包含空间信息和文本信息的空间文本数据也随之产生。如何为这些空间文本数据设计有用的查询类型和高效的处理方法,是一个很有意义的研究方向。基于此,本文中我们提出并研究一个创新问题:基于空间文本数据的k近邻连接。它结合了空间k近邻查询和连接以及文本相似查询和连接,能够极大地丰富我们对空间文本数据的处理方式,为各种服务和应用提供更好的功能扩展。而随着数据规模的不断上升,传统的单机集中式处理会遇到一定的性能瓶颈。因此十分有必要在分布式环境下解决这个问题。本文中我们首先探讨了研究问题的来源并对该问题进行了展望。然后对空间数据k近邻查询和连接、文本数据相似查询和连接以及空间文本数据相似查询和连接等相关领域的研究工作和技术方法进行了回顾,我们还对使用的分布式处理框架MapReduce及其流行开源实现软件Hadoop进行了简要介绍。接着我们对要解决的问题给出了形式化的定义,并提出了两种基于MapReduce框架的方法来解决它,分别是基于分块嵌套循环思想的朴素方法和基于?lter-and-re?ne框架的改进方法。我们在分布式集群上进行的实验结果表明,在处理一定规模的空间文本数据时我们提出的方法是可行的,而且改进方法比朴素方法具有更好的查询性能。
其他文献
随着互联网的快速发展,网上的信息也成几何级数爆炸增长,同时用户对信息的需求也越来越高,他们希望搜索引擎提供最新的数据,最符合要求的信息。传统网络爬虫作为提供搜索引擎
在如今互联网时代,人们常常在社交网络上针对事与物表达个人观点看法。运用数据挖掘方法和文本情感分析技术对涌现的用户文本数据进行分析,可以发掘普通大众对热点话题以及产
网络计划技术是项目计划与控制的一种行之有效的管理工具,对于实际项目,施工网络计划中存在种种不确定因素和不可预见因素,对施工网络图的分析计算采用传统的网络计划技术存
数据库系统正在经历巨大的变化,智能技术已经引入到数据库系统的研究中。2004年在SIGMOD国际会议上,Jim Gray说:“我们正沿着一条有价值的链条从数据到信息到知识到智慧在慢慢地
随着网络技术的飞速发展和液晶显示面板的不断普及,生动的影音视频信息以其独特的视觉感染力受到了越来越多的商家与客户的青睐,在商务楼和商场中随处可见各种形形色色的多媒
随着近年来移动设备的应用越来越广泛,对其中存储的隐私数据的保护也越来越重要。应用程序行为审计方法能找出应用程序中的敏感信息泄漏行为,从而有效地保护用户设备中的敏感
软件外包成为当今软件行业的热门话题之一,随着目前国内软件外包企业的兴起,大量的外包项目从日本、欧美等大中型企业发单过来,不仅促进了国内经济的增长,更带动了国内软件企
随着Internet技术的快速发展,Web数据库得到了广泛应用。这些Web数据库能够根据用户提交的请求,将其内容以HTML页面的形式动态呈现出来。对于传统搜索引擎来说,这部分页面信
应用集成一直都受到学术界与工业界的重视。从应用集成技术的发展来看,工业界对应用集成的研究要比学术界更加深入,并推出了多种产品和标准,其原动力主要是来自于实际分布式集成
随着服务计算技术的迅速发展,Web服务应用日趋深入,Web服务注册与发现技术成为企业级应用集成系统研究的热点。Web服务注册中心是面向服务软件体系结构(SOA)的重要组件,是Web