非结构化数据的相关问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:haojianhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、人工智能、机器学习等新兴技术的飞速发展,“智慧地球”、“智慧城市”等创新应用的不断推广,各种信息数据以指数级的速度持续增长,我们已进入大数据时代。当前的信息数据已经不仅仅局限于传统的结构化数据,而是呈现出海量性、异构性、高维性等相应特征,如果直接采用传统的数据集成策略,并应用于当前的大数据环境,必然导致数据集成冗余度大、数据描述不统一、数据表达准确性差等问题的出现,降低了数据集成的质量,也必然对后续的大数据分析产生不良影响,因此,如何进行有效的数据融合,消除数据冗余,统一数据实体的指向与标注,不仅是进行高质量的数据集成的关键所在,也是后续数据分析与挖掘等研究工作顺利开展的前提与保障。在“互联网+”时代,海量异构数据作为表示信息描述的主要载体,往往存在数据描述不统一的特点、数据特征表示不准确、不完全等问题。因此需要采用相应的技术手段,着重解决数据集成中的问题,例如集成数据的准确性、集成数据的统一性、集成数据服务的完整性。本文针对非结构数据集成中所存在的关键问题进行研究,根据前文描述的研究内容,本文贡献简要概括如下:(1)本文提出了基于双层SimRank的图像数据标注方法,针对数据集成中,大部分来自社交网络的图像数据标签缺失的现象,采用基于命名的实体识别技术,从用户的图像评论中抽取候选标签关键词,然后利用图像和标签在社交网络上的共现关系构建二分图,并利用基于图模型的SimRank算法进行图像标注。SimRank是一种迭代算法,为了适应大规模数据计算的要求,本文给出了双层SimRank图像标注算法的优化策略。(2)本文提出了基于整体式的实体相似度计算方法,利用了“属性特征”、“上下文”“关系”多种不同的相似性度量方法,对同一实体的不同表象进行发现,并对冗余信息进行有效简化与统一,从整体上实现了各个表象的实体统一。(3)本文提出了包含非结构化数据本身的数据特征及其相应的扩展属性的统一模型UDM(unified data model),UDM不仅能够体现数据自身的特性,还充分考虑到数据主体、数据交互、数据关联等其他数据特性,统一进行数据服务建模,为非结构化数据的统一服务奠定基础。(3)本文提出了包含非结构化数据本身的数据特征及其相应的扩展属性的统一模型UDM(unified data model),UDM不仅能够体现数据自身的特性,还充分考虑到数据主体、数据交互、数据关联等其他数据特性,统一进行数据服务建模,为非结构化数据的统一服务奠定基础。(4)本文提出了一个利用连续K近邻操作的用户个性化实时推荐索引结构PRI_KNN(Personalized recommendation index based on K-nearest neighbor),主动向用户提供符合其“偏好”的最新数据内容。考虑到用户偏好以及相应的数据内容,往往以高维数据的形式进行表示。为了避免“维度灾难”对个性化推荐的影响,我们首先采用反K近邻的相关策略,利用PRI_KNN快速寻找更新数据的目标用户,再对相应的目标用户进行数据推送服务。
其他文献
目的 通过健康教育指导其科学的饮食,预防心脑血管疾病。方法 选取东北某社区各阶层131例心脑血管疾病患者,统计其饮食结构,通过讲座,视频课件,书籍,微信等给与科学健康指导
无梁楼盖现已广泛应用于各类工程中,结合实际工程,对比分析了两种无梁楼盖体系在不同跨度下的受力特点及经济性,指出现浇空心无梁楼盖方案的优势,归纳总结了无梁楼盖设计过程
随着基础教育课程改革的不断深化,如何提升学生语文核心素养成为语文研究关注的热点和焦点。语文核心素养是学生在语文学科学习中逐渐形成的适应个人终身发展和社会发展需要的必备品格和关键能力,它具有奠基性、整合性、实践力、迁移力等特征,这与具有高阶思维、重视体验、力求整合、关注生成的深度学习有着彼此的契合性。因此,深度学习散发着独特的魅力,成为提升语文核心素养的重要路径,其在基础教育界发展的具体表征便是:中
明末清初的社会变革,给当时的学者们带来深深的刺激。朝代的更迭、社会的动荡等现实如同一记重锤深深地敲击在人们的心上,这记“重锤”敲醒了一部分具有先进思想和危亡意识的儒家学者,使他们幡然醒悟到主张读书、静坐的程朱、陆王之学在面对国家和民族的危亡时,已经发挥不了拯救时艰的作用。因而这些学者一反“良知”、“天理”之学,转而开始投向经世之学的研究和发展,颜元正是这些学者中的其中一员。本文立足颜元著作文献资料
目的了解乐清地区儿童感染肺炎链球菌对青霉素及其他10种抗菌药物的耐药性。方法收集2007年1月-2009年12月,医院儿科门诊及入院首日患儿送检的呼吸道标本中分离出的201株肺炎
<正>河北省献县现有结果苹果树1200公顷,随着种植面积的提高,苹果病虫害呈多元化和逐年加重趋势。被列为世界各国进出口检疫对象的苹果绵蚜于2006年经苗木私自调运传入献县。
针对已涂覆涂层的金属表面裂纹检测,本文提出一种基于开放式同轴腔的微波谐振无损检测技术,对同轴腔开路端辐射场作用下的带涂层金属表面裂纹进行建模分析,根据等效电路模型
随着市场经济持续稳定发展,跨国连锁零售企业涌入中国,规模不断扩大的我国零售企业市场竞争日趋激烈,迫使我国零售企业重新审视自身成本管理模式,以保持与增强核心竞争力。然
主流的文本表示模型以向量空间模型(VSM)为主,以词和TF-IDF作为特征来表征文本。此模型在很大的程度上已经可以用来描述文本特征,但是同时忽略了文本的语义,上下文关联,组成
一般紧急事件报警服务是政府提供的公共安全服务的主要表现形式。问卷调查发现 ,公众对政府的处警满意程度、信任程度和报警的方便程度是影响其报警率的主要因素。因此 ,政府