基于字词对齐的中文字词向量表示方法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:fist001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语是构成文本的最小语义单元,很多自然语言处理任务都会涉及词语表示的问题。词语表示的方法最常见的是独热表示.然而此方法存在稀疏问题,且不能捕捉词语间的语义联系。以表示学习为基础的词语表示旨在用稠密的低维向量来表示词语的语义信息,其中分布式语义表示是表示学习中最常见的词语表示方法。这种方法得到的词向量在很多自然语言处理问题上取得了成功。借鉴于英文的词向量表示方法,一些学者对中文词向量的表示进行了研究。最近的一些研究表明,中文词语内部的汉字也具有丰富的语义信息,基于字词联合学习的模型在一些中文自然语言处理任务上取得了一定的成功。然而现有的处理方法均没有考虑词语内部汉字对词语语义贡献的差异性,使得学习的词向量在一些任务上的表现不尽如人意。本文基于此问题,提出了一种计算组成词语的汉字对词语的语义贡献的方法,这种方法利用了其他语言的语义信息。我们使用了这种基于相似度的方法来联合学习字词向量。并且通过实验,这种方法对汉字消歧和识别非语义可组合词也有很好的效果。本文具体工作如下:(1)本文根据中文的特点,提出了一种基于字词相似度的字词向量学习模型。该方法在词语训练过程中,计算了不同内部汉字对词语的语义贡献,更好地对中文的词语进行建模,使汉字对学习到的词向量起到很好的平滑效果,并且通过字的关联使词的上下文信息更加丰富。(2)与传统的基于上下文聚类的汉字消歧方法不同,本文创新地融入了英文这种富信息语言的优势,提出了一种新的方法来对汉字进行消歧。这种方法利用了外部资源,使用了类似K-means的方式进行了分类。(3)并非所有的词都是语义可组合的。例如命名实体,舶来词等等。本文在现有工作的基础上,提出了一种辨别非语义可组合词的方法。(4)在实验部分,通过在多个不同数据集上,不同维度的比较,验证了本文提出算法的有效性。
其他文献
随着信息技术的飞速发展,信息安全已经成为当今社会越来越关注的问题。密码算法是确保信息安全的核心技术,而密码算法自身的安全性一直以来都是国内外研究学者关注的热点问题。
物联网技术在我国的兴起,给传统制造业带来新的机遇。对于工业缝制行业,借助物联网技术,实时采集生产线中缝制设备和操作工的状态和工作信息,通过无线网络上传到监管中心并及时作
自从互联网开始变革,博客也跟随慢慢崛起,并以惊人的速度发展,到目前为止,博客用户更是达到上千万人。博客已成为人们工作生活必不可少的工具,用户数量的剧增,发表的博客自然也会增
分布式查询处理技术无论在传统分布式数据库环境下还是在数据库网格环境下都是难点问题,而网格环境又具有其特殊性。目前,对网格环境下的查询处理技术的研究和成果较少。本文在
虽然人类基因组计划已经完成并取得了巨大成功,但是遗传疾病致病基因的预测是仍然人类健康领域面临的重大挑战之一。寻找遗传疾病的致病基因在改善医疗护理和理解基因功能等方
拓扑蛋白质组学是蛋白质组学一个崭新的研究方向。MELK技术是拓扑蛋白质组学中的关键技术。多肌炎是自身免疫性结缔组织疾病,特点是肌组织出现炎症导致对称性肌无力和一定程度
传统的机器学习方法假设训练集和测试集来自同一分布的样本集,如果实验数据的分布改变了,需要重新标注新样本作为训练集建立统计模型,然而标注新样本的代价通常很高,采用迁移学习
信息系统安全的紧迫性和网络通信安全的重要性使人们越来越对分组密码的相关理论感兴趣,分组密码的设计与分析也一直是密码学中的热点课题。分组密码作为现代密码学中的一个重
网络钓鱼攻击主要是通过邮件方式传播的,大量的网络钓鱼攻击使得用户遭受到巨大的经济损失。巨额的损失导致用户不信任网上银行和电子商务网站,并严重影响到电子商务的发展。
在许多真实的网络中都存在模块或社区。社区的检测是社会网络学习的重要的课题,对于我们了解社会网络的内部关系和结构,进而应用到与社会网络相关的很多领域都有重要的意义。传