跨语言商品知识图谱的构建与对齐研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:kaka43210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务在全球市场不断进行开拓,其中商品知识图谱承担了重要的角色,被广泛应用于平台治理、品牌运营、前端导购等核心业务。由于电商领域存在商品类型繁多、属性体系庞大等特性,商品知识图谱与通用知识图谱存在一定的差异。因此,本文主要研究基于商品属性的商品图谱构建,以及不同语言的商品图谱进行对齐与融合。基于属性的商品图谱主要描述了商品的属性及属性值信息。早期的研究工作采用基于规则的方法,由专家设计领域相关的词汇表来提取商品的属性信息,或者将属性值提取任务视为一种特殊的命名实体识别,但都无法应用于属性体系庞大的真实电商环境。因此,本文的第一个研究工作提出基于属性增强的属性值抽取模型,不仅将属性视作标签类型,同时建模其语义信息,从而能够处理上万级别的属性,甚至是模型从未见过的新属性。同时,本文构建了真实的大规模英文商品数据集,并基于此构建了英文商品知识图谱。电商全球化的版图中包含了很多小语种,这些小语种由于使用人数少、商品数量有限等原因,缺乏相应的标注数据来训练有效的属性值抽取模型,难以构建低资源语言商品图谱。因此,本文的第二个研究工作提出对抗多任务学习模型,利用高资源语言丰富的标注数据来帮助低资源语言模型的训练。模型将高资源语言视为辅助任务,低资源语言视为主任务,采用两个独立的神经网络分别捕获语言相关特征,同时引入对抗学习来提取语言无关的特征。本文在三种低资源语言数据集上进行实验,结果表明本文提出的模型能够有效提升低资源语言属性值抽取的性能,消融实验也证明了多任务学习和对抗学习的有效性。由于商品数据的多样性,不同语言的商品图谱既有交集,也有差异。若能将不同语言的图谱进行对齐与整合,就能极大丰富各图谱的商品信息。因此,本文的第三个研究工作提出属性信息强化的实体对齐模型,根据属性和属性值所承载信息量的不同,分别从属性层面和属性值层面进行不同粒度的信息融合,然后利用图神经网络得到每个商品实体的嵌入,从而计算出与之对齐的商品实体。在前两个工作得到的多语言商品图谱上进行实验,结果表明本文模型能够有效建模商品图谱,实体对齐性能优于所有的基准系统。同时,本文进行了消融实验验证了模型结构的合理性与有效性。本文研究了商品知识图谱领域的几个热门话题,包括高资源语言和低资源语言商品图谱的构建,以及不同语言的图谱进行对齐,并在真实的商品数据集上验证了模型的有效性,促进了商品知识图谱的应用与发展。
其他文献
随机Loewner演变(SLE)是一类带有一个参数的随机平面增长过程,它可以通过解驱动项为时间改变的一维Brownian运动的Loewner微分方程而得到的.本文的主要工作如下:第一,我们用SLE
目的:通过观察橙皮素(Hesperetin)对链脲佐菌素诱导的糖尿病大鼠血清及视网膜组织中Ang-2(Angiopoietin-2,血管生成素-2)、整合素β1(Integrinβ1)及其相关信号通路表达的影
棉花是重要的经济作物,其纤维是天然的纺织原料,在工业中有着多种用途。在我国,新疆是主要产棉区,夏季常有持续的高温天气出现,而夏季又是棉花生殖发育的重要时期,棉花的雄性
在量子信息的发展历程中,光子量子态之间的干涉对于量子隐形传态,量子中继等等有着非常重要的作用,这就要求两个光子不能够以任何方式被区分开来,因而研究频谱不相关光子对量
聚合物太阳能电池(PSCs)作为有效利用太阳能的光电器件之一,目前的能量转换效率(PCE)已攀升到15%,但是其PCE仍远低于理论值。常见的PSCs器件有正装和倒装两种结构,且研究表明在这两种结构里加入性能优良的界面修饰层都可以显著提升器件PCE以及稳定性,因此激发了人们对界面修饰材料的研究热情。高分子材料聚(3,4-亚乙二氧基噻吩)-聚(苯乙烯磺酸)(PEDOT:PSS)是最普遍使用的阳极界面层
从激光问世以来,非线性光学在科学的各个领域上都有着非常广泛的研究,非线性切伦科夫辐射等非线性谐波辐射过程也引起了广大研究人员的关注。非线性谐波辐射过程在以往的研究
为避免我国有限北极狐种群遗传多样性的流失,推动我国圈养小种群的遗传管理工作,本研究将利用微卫星分子标记,以北极狐为例,根据后代遗传质量的预测判定最佳的配对方案,为圈
目的了解腹泻型肠易激综合征(IBS with diarrhea,IBS-D)患者血清adiponectin、apelin及chemerin的表达水平;分析adiponectin,apelin,chemerin与IBS-D患者症状严重程度及焦虑
信息系统是人工智能领域的重要模型.粒计算是人工智能的一个重要的数学工具,在粒计算的框架下,信息系统中的信息结构具有重要的研究意义.三支决策是热门的研究话题,它是一种符合人类认知模式的决策方法,为解决实际决策问题提供了新的视角.本文主要研究覆盖信息系统中的信息结构及三支群决策方法,文章结构如下:第一章,简要介绍信息系统中信息结构思想来源与研究现状、以及三支决策思想.同时,还介绍了本文研究的意义和研究
任务型对话系统(Task-oriented Dialogue System)是自然语言处理中的重要任务之一,在日常生活中的智能客服、个人助手等场景下有广泛的应用。其任务是根据用户的输入返回系统生成的回复,通过多轮交互的形式实现用户的请求或者目标。为完成这一任务,经典的神经网络模型被用于构建任务型对话系统实现对话状态追踪和系统回复生成。但此类方法依旧面临一些挑战,例如,如何缓解神经网络构建的对话系统