论文部分内容阅读
随着互联网、人工智能、机器学习等新兴技术的飞速发展,“智慧地球”、“智慧城市”等创新应用的不断推广,各种信息数据以指数级的速度持续增长,我们已进入大数据时代。当前的信息数据已经不仅仅局限于传统的结构化数据,而是呈现出海量性、异构性、高维性等相应特征,如果直接采用传统的数据集成策略,并应用于当前的大数据环境,必然导致数据集成冗余度大、数据描述不统一、数据表达准确性差等问题的出现,降低了数据集成的质量,也必然对后续的大数据分析产生不良影响,因此,如何进行有效的数据融合,消除数据冗余,统一数据实体的指向与标注,不仅是进行高质量的数据集成的关键所在,也是后续数据分析与挖掘等研究工作顺利开展的前提与保障。在“互联网+”时代,海量异构数据作为表示信息描述的主要载体,往往存在数据描述不统一的特点、数据特征表示不准确、不完全等问题。因此需要采用相应的技术手段,着重解决数据集成中的问题,例如集成数据的准确性、集成数据的统一性、集成数据服务的完整性。本文针对非结构数据集成中所存在的关键问题进行研究,根据前文描述的研究内容,本文贡献简要概括如下:(1)本文提出了基于双层SimRank的图像数据标注方法,针对数据集成中,大部分来自社交网络的图像数据标签缺失的现象,采用基于命名的实体识别技术,从用户的图像评论中抽取候选标签关键词,然后利用图像和标签在社交网络上的共现关系构建二分图,并利用基于图模型的SimRank算法进行图像标注。SimRank是一种迭代算法,为了适应大规模数据计算的要求,本文给出了双层SimRank图像标注算法的优化策略。(2)本文提出了基于整体式的实体相似度计算方法,利用了“属性特征”、“上下文”“关系”多种不同的相似性度量方法,对同一实体的不同表象进行发现,并对冗余信息进行有效简化与统一,从整体上实现了各个表象的实体统一。(3)本文提出了包含非结构化数据本身的数据特征及其相应的扩展属性的统一模型UDM(unified data model),UDM不仅能够体现数据自身的特性,还充分考虑到数据主体、数据交互、数据关联等其他数据特性,统一进行数据服务建模,为非结构化数据的统一服务奠定基础。(3)本文提出了包含非结构化数据本身的数据特征及其相应的扩展属性的统一模型UDM(unified data model),UDM不仅能够体现数据自身的特性,还充分考虑到数据主体、数据交互、数据关联等其他数据特性,统一进行数据服务建模,为非结构化数据的统一服务奠定基础。(4)本文提出了一个利用连续K近邻操作的用户个性化实时推荐索引结构PRI_KNN(Personalized recommendation index based on K-nearest neighbor),主动向用户提供符合其“偏好”的最新数据内容。考虑到用户偏好以及相应的数据内容,往往以高维数据的形式进行表示。为了避免“维度灾难”对个性化推荐的影响,我们首先采用反K近邻的相关策略,利用PRI_KNN快速寻找更新数据的目标用户,再对相应的目标用户进行数据推送服务。