基于异质图表征学习的开源项目相似性度量方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zero_ak47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,开源技术和开源软件深刻影响着人类社会生产的方方面面,构成了现代数字世界的路与桥。开源技术的蓬勃发展与开源社区的繁荣息息相关,开源软件的可持续发展需要稳定的社区贡献者支持,规模庞大的开发者和开源软件项目构成了复杂的开源生态。随着大数据时代的到来,开源生产领域积累了海量数据,如何利用机器学习和数据挖掘方法从数据中洞察出有价值的信息,对于数字化社区治理和开源生态的可持续发展具有重要意义。相似性度量在数据挖掘领域具有重要研究价值,开源项目的相似性度量是开源数据分析和社区治理的子任务之一,旨在通过构建相似性衡量指标,从非结构化、海量的数据中自动抽取出项目之间的隐式相似信息,在开源技术分类、开源群体画像和开源项目推荐等任务上具有重要应用价值。目前,开源治理等应用场景下尚不存在有效的开源软件相似性度量方法,与开源软件相关的研究工作主要集中于代码内容分析和软件之间的依赖关系。开源社区生态遵循分布式群体协作的开发模式,具有显著的社交语义信息。本文基于开源社区生态演化过程中的历史事件数据,从开源场景下的特殊协作社交语义出发,首次提出基于异质图表征学习的开源软件项目相似性度量方法,本文的主要贡献如下:·构建基于海量开源社区生态历史数据的基础设施。为了表示开源社区生态随着时间的演化过程,本文选取GitHub作为目标平台,从两个不同的数据源收集相对完整的开源社区中的历史事件数据。现有数据源往往非结构化,并且含有过多冗余数据。本文对多源数据进行解析、清洗整合,构造完整的开源生态全域历史事件数据以及数据基础设施,支持数据驱动的高效实时在线分析和聚合计算。·提出开源异质信息网络模式和实例生成方法。为了表示开源协作场景下的复杂交互关系,本文结合开源领域知识,设计半结构化的异质信息网络模式对数据进行建模,并引入元路径表示多节点类型之间的交互语义关系。为了能有效构建任意规模大小的异质网络实例,提出一种能够融合协作语义信息的网络实例生成方法,该方法生成的网络实例具有良好的鲁棒性。·提出基于表征学习的相似性信息提取方法。基于开源贡献者的复杂交互语义,本文设计了在元路径约束下的加权随机游走采样方法,从开源异质信息网络实例中抽取局部网络结构信息和节点相似性信息。本文构建大规模开源异质信息网络数据集进行实验,实验结果表明该方法在开源项目聚类、相似项目查询任务上优于其他对比方法。通过案例研究,本文展示了基于贡献者协作语义衡量的开源软件项目相似度衡量方法的合理性和有效性。
其他文献
由于在有机电致发光器件、光学传感器等方面的应用,8-羟基喹啉类金属-有机配合物引起人们的广泛关注。本论文以8-羟基喹啉为基本骨架,通过化学修饰的方法合成了三种结构和功能不同的8-羟基喹啉类配体。基于配位和超分子化学原理,采用溶剂热法,构建了一系列具有新颖结构和独特功能的8-羟基喹啉类功能材料。利用单晶X-射线衍射、元素分析等多种手段表征了这些配合物的结构,并对其在发光和细胞成像等方面的性能进行了研
学位
在全球生态环境不断恶化的现实背景下,绿色经济作为可持续经济发展模式受到国内外广泛关注。对于消费者来说,收入水平的提高和环境保护意识的增强使得消费者对环境危害小的绿色产品有更高的购买意向,并愿意为此付出比非绿色产品更高的价格,越来越多的消费者对绿色产品具有需求偏好和优先购买的意愿。消费者对绿色产品的市场需求,加上相关法律法规和政策的颁布,使得许多制造企业都纷纷转型,投入资金进行绿色产品的生产和研发,
学位
二氧化碳(CO2)高压流体具有绿色、环保、无残留,成本低的特点。近些年来,利用高压流体物理发泡技术制备聚烯烃弹性体泡沫已成为工业界和学术界共同关注的焦点。然而,聚烯烃弹性体熔点低,模量小,制备高倍率弹性体泡沫较为困难,同时其发泡制品在使用的过程中易发生蠕变和热收缩。本论文中选择三元乙丙橡胶(EPDM)作为主要研究对象,在EPDM中引入了交联结构并协同其它改性处理后,通过釜压发泡制备了EPDM泡沫,
跨尺度金属微纳米结构和纳米间隙是微纳加工领域中最为关心的话题之一。任意衬底上具有超小金属纳米间隙的图形化在纳米电子学、纳米等离激元学和柔性光电子学等领域具有重要的应用价值。然而普通的光刻方法在柔性可拉伸衬底、绝缘衬底、粗糙衬底以及一些特定的衬底上定义超小纳米间隙的分辨率很有限。另外普通的光刻方法对于一些与光刻工艺不兼容的衬底和材料也表现地束手无策。因此急需一种解决方案来弥补普通光刻方法的短板。在本
在Android系统中,具有关联性的一些应用或不同进程之间通常需要共享一些数据。本文从方便开发者使用、提高开发效率的角度考虑,提出了一种利用动态代理、反射等Java特性和Binder、Parceable等Android特性实现的共享数据框架。在框架的实现过程中综合应用Java和Android的特性和技术,简化API接口及共享数据存取过程的实现;在数据的序列化过程中,针对不同的数据类型使用最合适的序
我国经济已经由高速增长阶段转向高质量发展阶段,物流产业作为国民经济的基础性、战略性、先导性产业,同样处在向高质量发展转型的关口。现代物流产业的竞争优势在于技术与管理创新,技术与管理在物流产业转型升级中扮演着重要角色,两者的协调发展更是推动物流产业高质量发展的重要动力。由于我国不同地区经济基础、环境差异及对物流业的重视程度和资源投入不同,这就导致不同地区物流产业的技术水平与管理水平存在不同程度的差异
硅基光子器件在光互连、光传感等众多应用方面扮演着越来越重要的角色。其中硅基纳米梁腔由于具有品质因子高、结构尺寸小、模式体积低以及没有自由光谱范围的限制等优点,引起了科研工作者的普遍关注。本文基于绝缘体上硅(SOI)平台提出了两种硅基纳米梁腔,一种是具有超低模式体积的领结型硅基纳米梁腔,另一种是具有高灵敏度的硅基悬空多槽纳米梁腔传感器。本文首先介绍了硅基纳米梁腔的基本概念、基本理论、模式类型、研究现
由于量子效应,经典计算机元器件的发展已达到现代物理学的极限。得益于量子叠加态,量子计算机与经典计算机相比能显著加快计算速度。因此,世界各国掀起了研发解决特定问题的量子计算机的浪潮。在过去的几十年间,虽然量子计算随着一系列量子算法的提出不断进步,但距离研制出可扩展的通用量子计算机仍有很长的路要走。因此,在经典计算机上模拟量子计算也变得异常重要,就像VLSI设计中的电路模拟一样。Qsimulation