论文部分内容阅读
词语是构成文本的最小语义单元,很多自然语言处理任务都会涉及词语表示的问题。词语表示的方法最常见的是独热表示.然而此方法存在稀疏问题,且不能捕捉词语间的语义联系。以表示学习为基础的词语表示旨在用稠密的低维向量来表示词语的语义信息,其中分布式语义表示是表示学习中最常见的词语表示方法。这种方法得到的词向量在很多自然语言处理问题上取得了成功。借鉴于英文的词向量表示方法,一些学者对中文词向量的表示进行了研究。最近的一些研究表明,中文词语内部的汉字也具有丰富的语义信息,基于字词联合学习的模型在一些中文自然语言处理任务上取得了一定的成功。然而现有的处理方法均没有考虑词语内部汉字对词语语义贡献的差异性,使得学习的词向量在一些任务上的表现不尽如人意。本文基于此问题,提出了一种计算组成词语的汉字对词语的语义贡献的方法,这种方法利用了其他语言的语义信息。我们使用了这种基于相似度的方法来联合学习字词向量。并且通过实验,这种方法对汉字消歧和识别非语义可组合词也有很好的效果。本文具体工作如下:(1)本文根据中文的特点,提出了一种基于字词相似度的字词向量学习模型。该方法在词语训练过程中,计算了不同内部汉字对词语的语义贡献,更好地对中文的词语进行建模,使汉字对学习到的词向量起到很好的平滑效果,并且通过字的关联使词的上下文信息更加丰富。(2)与传统的基于上下文聚类的汉字消歧方法不同,本文创新地融入了英文这种富信息语言的优势,提出了一种新的方法来对汉字进行消歧。这种方法利用了外部资源,使用了类似K-means的方式进行了分类。(3)并非所有的词都是语义可组合的。例如命名实体,舶来词等等。本文在现有工作的基础上,提出了一种辨别非语义可组合词的方法。(4)在实验部分,通过在多个不同数据集上,不同维度的比较,验证了本文提出算法的有效性。