论文部分内容阅读
本文首先通过Flickr提供的数据下载接口得到带有经纬度信息图像以及其对应元数据(如上传用户ID、上传时间、拍摄时间等)、地理标签(经纬度信息)和文本标签等信息。在这些信息基础上,提出了结合K-means聚类和AP聚类的图像聚类算法,以获得在空间位置上相近的图像集合。然后,给定包含空间上相近图像所组合成集合,对集合中每幅图像提取其SIFT(Scale-invariant feature transform)特征,并利用KD树存储从每幅图像中所提取的SIFT特征,然后通过BBF(Best-Bin First)算法搜索该集合中任意两幅图像之间相似特征点,构建视觉相似图像集合。为从该集合中获取代表性标签来标注该集合图像,本文在TF-IDF(term frequency-inverse document frequency)的基础上结合实际提出了WTF-IDF-UF,最后利用Naive Scan Methods去除那些随机性标签。最终,获得每一类在空间相近、在视觉上相似图像集合所对应热门地标名称、地理位置、热门度和代表性图像等属性信息。为了对这些空间相近、视觉相似的图像集合及其标签进行存储,本文通过全球四叉树按照显示级别将地理空间划分为不同大小正方形,对图像集合进行编码,然后将地理空间上任一点经纬度值映射为所在级别的四叉树编码,以进行索引。最后,本文利用Google Maps API和AJAX技术来直观、动态的展示上述信息。