大规模链接开放模式的构建及其在软件工程中的应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:a13058002542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着语义技术的发展,越来越多的链接开放数据(Linked Open Data,LOD)被发布到互联网上。互联网正从原来的网页之间的“文档互联网”转向结构知识互联的“数据万维网”。然而,尽管目前公开的LOD数据集中有数以亿记的三元组和实体,但其中的层次化知识和模式层的公理却非常有限。为了填补轻量级的LOD数据和重量级本体表达之间的鸿沟,本文提出了链接开放模式(Linked Open Schema)的概念,并将其作为LOD数据的一种补充。本文以21个流行的英文社交站点中收集的类别和标签作为数据源,使用机器学习的方法,自动挖掘类别和标签的语义关系(如上下位关系,同义关系和相关性关系),构建了一个大规模的英文链接开放模式。在此基础上,本文将上下位关系挖掘的方法应用于软件工程领域,并针对Stackoverflow这一特殊的数据集,在机器学习框架内加入了新的特征,构建了一个软件编程概念网络。本文的主要贡献和创新点包括:1)研究提出了异构数据源的统一语义表示的方法。该方法分析数据源中概念的常见构词方法,对其进行分词并结构化,提取出中心词和修饰词,完成对概念的结构化表示;利用维基百科,将所有的类别和标签统一映射到维基百科中的概念,同时加入概念的上下层次和共现信息,以此作为概念的上下文表示。2)研究提出了基于统一表示的多种语义关系度量。针对已有的LOD数据集中的数据,分析各种语义关系的数据对之间的内在语义和外在形式的特点,提出了基于外部知识库的语义计算方法,分析不同知识库的优劣,并能结合多种方法,最大限度地保证准确率和覆盖率;特别的,还将研究基于语义转换的语义关系度量方法,定量衡量语义关系。此外,还利用社交网站中概念的共现信息,提出基于统计的语义相关性度量方法。3)研究提出了仅利用少量训练数据和全局结构信息的语义关系发现的方法。本文将关系发现问题转换成机器学习中的分类问题,为了解决训练数据的不足,本文采用了一种迭代的半监督的学习框架,并利用规则和全局结构信息,进行误分类和冗余的过滤,保证了迭代过程中发现的关系的质量。作为上述研究的成果,本文构建和发布了两个大规模链接开放模式:Zhishi.schema,这是第一个公开的中英文链接开放模式数据集,包含了25,474个同义关系,1,047,801个上下位关系和1,327,631个相关关系;Software.zhishi.schema,一个大规模软件编程概念网络,包含了57,322个概念以及36,249个上下位关系和23,811个同义关系。相比于传统的数据集如DBpedia,Yago,BabelNet等,本文所构建的数据集拥有更多的概念和更细粒度的语义关系。
其他文献
路侧停车是指由交通管理部门利用城市道路,为机动车停放设置的停车位置。近年来机动车数量迅猛增长,造成路侧停车的机动车数量过多。现有路侧停车管理还基本停留在人工操作阶段,人工记录车辆的路侧停车情况,过程复杂繁琐,人工成本高,不能及时发现违法停车。因此,急需提高路侧停车管理的能力和有效性。同时,随着交通监控覆盖面积的扩大,每天都有海量的交通监控视频数据产生,提高这些数据的利用率也是很重要的研究方向。基于
在现代语音通信过程中,语音的质量和可懂度由于受到各种噪声的干扰而下降。因此,在语音通信系统中,提高语音质量和可懂度显得尤为重要。传统语音增强方法的局限性及对非平稳
近年来中国不断加大科技创新投入,但我国创新能力仍然较弱,在此情况下,创新效率的提升显得尤为重要。在技术水平一定的情况下,创新资源从效率低的企业和部门流向效率高的企业和部门,会提高整体层面的创新效率,相反则会造成效率损失。要研究如何优化创新资源配置,首先应该回答当前创新资源的错配程度如何以及造成了多少效率损失。已有研究缺少从创新资源错配的角度对于创新效率损失的考量,因此本文从创新资源的错配这一视角出
目的:微小RNA(miRNA,miR)-424-3p和5p在前列腺癌细胞LNCaP中的表达以及对前列腺癌细胞LNCaP增殖和迁移的影响,并对比miR-424-3p和5p对LNCaP生物学行为影响大小是否存在差异。
得益于计算机视觉技术的飞速发展,图像融合技术作为其重要分支,在数字图像处理领域得到了来自世界各地的科研人员的重视。由于传统光学镜头景深有限,当同一场景中含有多个目标物体时,很难通过一次取景就得到一幅所有目标都清晰的图像。图像融合技术作为信息融合领域重要的图像处理方法,充分利用了多源图像信息互补的优势,以一种简单高效的方法克服了光学镜头的成像缺陷,将多幅图像融合为一张新的、包含所有有效信息的图像。随
随着科学技术的进步,图像科技取得了很大进展。但是单传感器所采集的影像特性单一,对于提取、分析图像中的内容,以及图像的后续处理造成很大局限性。由此,图像融合应运而生。图像融合是将不同传感器或不同特性的图像,运用一定方法组合成一张图像的技术。自出现以来,一直受到越来越广泛的关注并在生产、生活中发挥着越来越重要的作用,特别是医学图像融合在临床医疗事业中的运用,取得了巨大成功。医学图像融合是根据图像的特性
城市轨道交通是运输客流的主力军,提供着不可或缺的主要力量。其不仅带来了社会效益同时为缓解空气污染和大城市通病交通堵塞也作出了不可低估的贡献。基于此着重发展城市轨道交通出行方式已成为解决大城市交通拥堵等问题的趋势。但与此同时轨道交通运营期盈利之前要斥巨资来建设,而城市轨道交通超前的发展规划和运营后滞后的效益将对城市可持续发展产生直接影响。因此非常有必要审视和研究城市轨道交通的综合效益及评价方法。首先
变更是系统工程的首要法则,在软件开发与维护的过程中,由于需求、环境、资源的变化,或方案改进,常常会引起软件实体的变更,一个实体(例如需求项、类、方法等)的修改,往往会影响到直接或者间接相关的其它实体,从而引发一系列修改,这种现象被称为“涟漪效应”。为了确定局部变更对系统其它部分的潜在影响,研究人员提出了一系列变更影响分析方法。现有软件变更影响分析的研究多针对于单一的软件制品,例如源代码、需求模型。
本文从制冷剂特性分析了R290制冷剂在冷柜使用替代趋势,以及R290冷柜降噪实施措施,通过实验验证R290压缩机NPY14LA匹配SD-600冷柜,降低气流脉动能降低冷柜整机噪声。本文试验
射频识别(RFID)是一种使用无线电信号识别特定目标并完成数据交换的非接触式通信技术。RFID非接触,快速读写的显著优点吸引了国内外专家学者的广泛关注。随着物联网的兴起,RFID近场应用场景不断增多,RFID近场天线的研究开始越来越受到人们的关注。RFID近场天线的设计要求及难点问题在于场强的分布可控,保证RFID系统中的标签在待读区内不被漏读,在待读区外不被误读。近场场强分布比较复杂,难以用远场